회귀분석은 독립변수와 종속변수 간의 인과관계를 구하는 분석 기법으로 독립 변수가 1개이면 단순회귀분석, 2개 이상이면 다중회귀분석이라고 함.
독립변수는 다른 변수의 변화에 영향을 받지 않는 독립적인 변수.
종속변수는 독립변수에 영향을 받아 변하는 변수로 분석의 대상.
lm()함수로 두 변수간의 p-value, 절편, 기울기를 구할 수 있음.
lm(종속변수 ~ 독립변수, data = 데이터 세트)
lm함수로 절편과 기울기를 구하려면 먼저 두 변수간의 상관관계가 있는지 파악하기 위해 상관분석을 해야하는데
cor.test()함수를 이용해 검정할 수 있음.
cor.test(data = 테이블명$변수명1, 테이블명$변수명2)
상관관계가 있으면 cor값이 1(양의 상관관계) 또는 -1(음의 상관관계)로 나타남. 0에 가까울수록 두 변수간의 상관관계가 없음을 의미.
p-value는 두 변수 간 상관관계가 통계적으로 의미가 있는지 판단하는 검정통계량 혹은 유의확률.
p-value값이 기준값보다 작으면 귀무 가설 확률이 매우 낮다는 의미로 귀무가설을 기각하고 대립가설을 채택.
(p-value값이 0.05보다 작으면 통계적으로 유의하다고 일반적으로 해석.)
ggmap패키지 함수는 구글지도 API서비스를 활용할 수 있는 패키지임
register_google(key = "사용자 API 키") ---->발급받은 구글 지도 API키를 등록.
get_googlemap(center, maptype = "지도 유형") -----> 설정한 위치를 지도로 가져오는 함수.
center에는 위도와 경도 값을 넣거나 위치를 포함하는 문자열을 넣고 maptype 옵션에는 가져올 지도 유형을 지정.
지도 유형에는 terrain(지형), satellite(인공위성), roadmap(로드맵), hybrid(인공위성 + 로드맵)가 있음.
ggmap()함수는 위치 데이터를 지도로 시각화.
geocode()함수는 위치를 포함하는 문자열을 위도와 경도 값으로 반환
지명을 한글로 입력할 때 windows 사용자는enc2utf8()함수로 먼저 인코딩하고
as.numeric()함수로 geo_code 값을 숫자형 벡터로 변환해야함.
gsub()함수는 띄어쓰기를 제거할 수 있음, 꼭 띄어쓰기가 아니더라도 바꾸고 싶은 것을 찾아서 바꿔주는 함수임.
--------> 예) gsub(" ", "", 열 지정)