전체 글 (26) 썸네일형 리스트형 19일차 - 5월 6일 멤버십 기획 프로젝트 customer_r % #주문 여부가 NA이면 N, Y이면 Y로 바꿈 summarise(steak_order = max(steak_order)) %>% #최댓값만 취함 arrange(customer_id) #최종 정리된 고객별 스테이크 주문 여부 df_dpd_var % summarise(visit_sum = n_distinct(reserv_no), visitor_sum = sum(visitor_cnt), sales_sum = sum(sales_sum) / 1000) %>% arrange(customer_id) df_idp_var 18일차 - 5월 4일 R flexdashboard flexdashboard를 이용하면 R로 유연하고(flexible), 매력적이며(attractive), 쌍방향의(Interactive) 대시보드를 쉽게(easily) 만들 수 있다. 대시보드 작성 및 커스터마이제이션은 Rmarkdown에 기반하여 이루어지며, Shiny 컴포넌트들도 덧붙일수도 있다. 이외에도 htmlwidgets, base/lattice/grid 그래픽, tabula(표) 데이터, 주석 같은 다양한 컴포넌트들까지도 지원하며, 열과 행 기반 레이아웃, 스토리보드 등이 제공된다는 장점도 가지고 있다. flexdashboard는 install.package()함수를 이용해서 설치 한 후 File > New File > R Markdown 메뉴로 들어가서 팝업화면 좌.. 17일차 - 5월 3일 연관분석, 군집분석 군집분석이란 각 객체 대상 의 유사성을 측정 하여 유사성이 높은 대상 집단을 분류 하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명 하는 분석 방법이다. 특성에 따라 고객을 여러 개의 배타적인 집단으로 나눈다 군집의 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준 으로 군집화를 유도한다 유사성의 거리는 유클리드 거리 를 이용한다 1. 유클리드 거리 -유클리드 거리 (Euclidean 는 두 점 사이의 거리 를 계산하는 방법으로 이 거리를 이용하여 유클리드 공간을 정의 한다 1.관측 대상의 두 벡터의 차이 를 구한다 2.각 차의 제곱의 합 을 구한다 3.제곱근 을 취한다 (1)matrix생성 x A 와 B 를 포함한 거래수 / A 를 포함한 거래.. 16일차 - 5월 2일 R markdown을 만드는 방법은 Rstudio>File>New>R Markdown 을 클릭해서 만들수 있다. 팝업창이 뜨면 선택되어 있는 Document 탭에서 Title(문서의 제목)과 Author(저자명)을 입력하고, 결과 포맷을 HTML, PDF, Word 중에서 선택한다. 아래와 같이 RStudio 왼쪽 상단에 R Markdown 템플릿이 표시되는데, 이 템플릿의 내용을 원하는 대로 수정/편집하면 된다. R Markdown 문서를 편집한 후에, HTML 파일 등으로 변환하려면, 이를 .Rmd 확장자의 파일로 저장해야 한다. "RStudio > File > Save as" 이 절차는 생략해도 되는데, 건너 뛰더라도 아래의 'knit하여 보고서 생성하기' 에서 자동으로 파일 저장을 수행하기 때문이.. 15일차 - 4월 29일 install.packages("RSQLite") #data/example.sqlite 에 예제 데이터베이스를 만들려면 해당 디렉터리를 사용할 수있어야 함 #이 디렉터리가 없다면 만들어야 함 if(!dir.exists("data")) dir.create("data") library(RSQLite) 데이터베이스 드라이버 SQLite ( 와 데이터베이스 파일 ( example.sqlite 제공하여 연결을 생성함 파일은 원래 없었지만 , 드라이버가 빈 SQLite 데이터베이스를 나타내는 빈 파일을 생성함 #빈파일을 생성함 con 14일차 - 4월 28일 MongoDB특징 -문서 모델이다 •속성의 값은 숫자 문자열 날짜와 같이 간단한 데이터 타입이나 배열 또는 다른 문서가 될 수 있다 •문서의 구조가 다양하다 json 같은 형태이다 •미리 정해진 스키마가 존재하지 않는다 •애플리케이션에서 저장 구조를 정한다 •구조가 빈번히 조정되는 초기단계에 매력적이다 -한 컬랙션 테이블이라 생각하면 이해 쉬움 에 64 개까지 인덱스 생성 가능하다 -복제 환경 구성이 가능하고 자동 샤딩 (RDB 에서도 사용하는 클러스터 확장 방법 으로 분산환경 구성이 가능하다 •수평적인 확장성이 좋다 단 무결성과 정합성을 보장하지 않기 때문에 장단점이 있다 -관계 DB 와 key value 시스템의 장점을 결합하여 설계되었다 •관계 DB 의 강력한 질의어 단순하여 속도가 빠르고 확장성이.. 13일차 - 4월 27일 네이버 영화 리뷰 추출 #패키지 로딩 #install.packages("rvest") library(rvest) #웹문서 다운로드 url 12일차 - 4월 26일 은행마케팅 20대 고객 탐색적 데이터 분석 혼자 푼거라 깔끔하지 않고 에러가 뜰수도 있는 등 정답이 아님을 명시...!!! #education-교육(unknown-모름 / secondary-중등교육의 / primary-초등교육의 / tertiary-고등교육의 ) #default- 신용 여부(yes / no ) #balance-유로의 연간평균수지 (-1137 ~ 64343) #housing-주택융자 유무( yes / no) #loan-개인융자 유무(yes / no) #contact-연락수단? (unknown-모름 / telephone-유선전화 / cellular-무선전화) #day of week- 이 달의 마지막 연락한 날 "fri" ~ "wed" #month- 연 도의 마지막 접촉한 월 (1월, 2월 3.. 이전 1 2 3 4 다음