본문 바로가기

전체 글

(26)
11일차 - 4월 25일 텍스트마이닝 # r 4.1버전 기준으로 사용 가능 install.packages("remotes") library(remotes) remotes::install_github("mrchypark/multilinguer") library(multilinguer) multilinguer::install_jdk() install.packages(c('stringr', 'hash','tau','Sejong','RSQLite','devtools'), type = "binary") remotes::install_github("haven-jeon/KoNLP",upgrade = 'never',INSTALL_opts=c("--no-multiarch")) library(KoNLP) library(dplyr) useNIADi..
10일차 - 4월 22일 관계대수 릴레이션을 내부적으로 처리하기 위한 연산들의 집합 관계대수 연산-집합연산-합집합, 교집합,차집합,카티션 프로덕트 -관계연산-셀렉트, 프로젝트, 조인, 디비전 집합연산:릴레이션을 투플 집합 또는 속성 집합으로 간주하여 이를 처리하는 연산그룹 합집합:수학의 합집합과 같은 개념으로 두개의 릴레이션을 합병하여 하나의 릴레이션을 반환 교집합:수학의 교집합과 같은 개념, 동시에 속하는 공통 투플로만 구성된 릴레이션 차집합: 수학의 차집합과 같은 개념 카티션 프로덕트: 두 릴레이션의 모든 투플을 수평으로 결합하는 연산 관계연산:릴레이션의 구조적 특성에 기반을 둔 연산을 포함 셀렉트:릴레이션에서 특정 투플을 추출하는 연산, (시그마 사용) 셀렉트 연산이 반환하는 것은 릴레이션 R의 투플 중에서 명세된 '선택_..
9일차 - 4월 21일 다이내믹 프라이싱에 관해 토론
8일차 - 4월 20일 1.데이터베이스와 정보시스템 데이터- 현실세계에서 관찰 또는 수집의 결과로 나타난 객관적 사실 - 획득된 그대로의 정량적 혹은 정성적 실제값 정보- 획득된 데이터에 의미를 부여하거나 가공 처리를 통해 의사결정에 활용하도록 체계적으로 조직한 결과물 - 가공처리된 데이터로 가공처리란 간단한 데이터의 조건 검색, 정렬, 사칙연산부터 복잡한 업무 처리나 통계처리 등 다양한 행위 포함. 정보 시스템 - 한 조직의 활동과 운영에 필요한 데이터를 수집, 저장해 두었다가 다양한 방식으로 처리 및 가공함으로써 의사결정에 필요한 정보를 생성하는 소프트웨어 체계. 수집된 데이터를 저장했다가 필요할 때 제공하는 역할은 정보 시스템의 핵심 요소인 데이터베이스가 담당. 전통적 파일 정보 시스템의 처리방식 문제점 문제점1. 데이터..
7일차 - 4월19일 #지하철역 주변 아파트 시세 분석 #지하철역에서 아파트까지의 거리에 따라 가격분포가 어떻게 다른지 비교 library(dplyr) #csv 파일을 가져와서 station_data 변수에 할당 station_data
6일차 - 4월 18일 수량과수량;상관계수 수량과카테고리:상관비 카테고리와 카테고리:크래머의 연관계수 귀무가설이 채택안했다고 해서 대립가설이 채택되는건 아님! 카이제곱검정(변수간차이확인) 변수 *분산이 동일하다 가정 변수2: 그룹간 평균을 구할 수 있는 변수 (수치데이터) 변수1: 비교하고자 하는 두 그룹으로 나뉜변수 (명목형 변수) 변수 위치 주의해서 써야함!!!!! F검정은 두 집단의 분산에 차이가 있는지 검정할 때 사용하는 기법-------------->var.test()함수 세개 이상의 집단간평균차이가 있는지 검정하는 분석-분산분석 1.독립성 2. 정규분포 3.등분산성* 일원분산분석-oneway.test ------> 독립변수 한개에 세가지 이상의 집단을 검정하는 것 비교집단이 등분산임을 가정 (var.equal = T..
5일차 - 4월 15일 회귀분석은 독립변수와 종속변수 간의 인과관계를 구하는 분석 기법으로 독립 변수가 1개이면 단순회귀분석, 2개 이상이면 다중회귀분석이라고 함. 독립변수는 다른 변수의 변화에 영향을 받지 않는 독립적인 변수. 종속변수는 독립변수에 영향을 받아 변하는 변수로 분석의 대상. lm()함수로 두 변수간의 p-value, 절편, 기울기를 구할 수 있음. lm(종속변수 ~ 독립변수, data = 데이터 세트) lm함수로 절편과 기울기를 구하려면 먼저 두 변수간의 상관관계가 있는지 파악하기 위해 상관분석을 해야하는데 cor.test()함수를 이용해 검정할 수 있음. cor.test(data = 테이블명$변수명1, 테이블명$변수명2) 상관관계가 있으면 cor값이 1(양의 상관관계) 또는 -1(음의 상관관계)로 나타남. 0..
4일차 - 4월 14일 dplyr 패키지는 처리속도가 느린 기존의 plyr패키지를 C++언어로 개선하여 사용자 친화적으로 만든 패키지임. filter(데이터, 조건문)--->조건에 맞는 데이터를 필터링 하는 함수 (행을 추출함) (&연산자를 사용하면 조건을 더 많이 지정할 수 있음) select(데이터, 변수명1, 변수명2,...)--->지정한 변수만 추출할 때 사용 (열을 추출함) mutate(데이터, 추가할 변수 이름 = 조건1, ...)--->데이터세트에 열을 추가할 때 사용함 (새로운 열 추가) arrange(데이터, 변수명1, 변수명2,..., desc(변수명)) desc는 내림차순 정렬로 아무것도 쓰지 않으면 오름차순으로 정렬된다. rank함수 사용시 동일한 값이 있으면 소수점으로 바뀐다. distinct(데이터, ..