목록Programming/R (7)
BASEMENT

R 실습 1. 보스턴시의 주택가격 데이터 #data(Boston) #CRIM : 1인당 범죄율 #ZN : 25,000초과하는 거주지역의 비율 #INDUS : 비소매상업지역이 점유하고 있는 토지의 비율 #CHAS : 찰스강 경계는 1, 아니면 0 #NOX : 10PPM당 일산화질소 #RM : 1가구당 평균 방의 개수 #AGE : 1940년 이전에 건축된 소유주택의 비율 #DIS : 직업센터까지의 접근성 지수 #RAD : 방사형도로까지 접근성 지수 #TAX : 재산세율 #PTRATIO : 학생/교사 비율 #B : 흑인의 비율 #LSTAT : 하위계층 비율 #MEDV : 본인 소유의 주택가격(1,000달러 단위) ## 1. 데이터 불러오기 library(MASS) data(Boston) write.csv(df..

데이터 마이닝 1. 데이터 마이닝의 이해 데이터 마이닝 : 대용량의 데이터에서 유용한 정보와 관계를 탐색하고 모험화하여 지식을 발견하는 과정 대용량의 관측된 자료를 다룸 이론보다는 실무위주의 컴퓨터 중심적인 방법 경험적 방법에 근거 주요 관심은 예측모형의 일반화 기업의 다양한 의사결정에 활용됨 통계학, 전산학, 인공지능, 공학과 같은 분야에서 주로 개발됨 2. 데이터 마이닝 프로세스 1) 과정 자료선택 및 정제 -> 자료변환 -> 데이터마이닝 -> 해석 및 평가 2) CRISP-DM SPSS, NCR, Daimler-Chrylsler 등 여러 업계의 선도회사가 데이터 마이닝 작업의 표준화를 연구하여 발표한 방법론 비즈니스 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개 3) S..

두 집단의 비교 1. 독립표본과 대응표본 독립표본 : 서로 관련이 없는 두 모집단으로부터 얻어짐 대응표본 : 한 모집단으로부터 얻어진 대상에 대하여 두 번 반복 측정하여 얻어짐 2. 일표본 평균 하나의 모집단으로부터 표본을 추출하고 표본으로부터 모집단 평균의 신뢰 구간을 구함 가설검정 : t.test() 함수 사용 (귀무가설 : 모평균이 mu와 같다) x

* rJava jdk8 설치하기 * 제어판 - 윈도우 고급 설정 - 환경변수 - 시스템변수- JAVA_HONE, PATH 설정해주기 통계학의 이해 1. 자료의 이해 개체와 변수 변수 : 자료 수집에서 측정할 특성 ex) 성별, 키, 몸무게, 온도, 혈압 등 설문지 각 문항의 내용같은 것 개체 : 변수에서 측정되는 대상의 기본단위 모집단, 모수, 표본 모집단 : 데이터들 모수 : 데이터들 중 하나 표본 : 분석할 데이터 그룹 자료의 종류 - 변수의 성질에 따라 1) 양적 자료 - 주로 수치형 연속형 자료 (예: 키, 나이) : 구간으로 구분 가능, 모두 수치형 데이터, 절대 0점이 있음 이산형 자료 (예: 입장인원 수) : 관측해서 나오는 값 * 절대0점 : 시작이나 끝을 임의로 0으로 놓은 값들 ex) ..

데이터의 이해 - 시각화 1. 시각화 개요 시각화 목적 자료의 내재된 정보를 효과적인 그림으로 표현하는게 목표 가공되지 않은 원천데이터로부터 정보를 추출하여 가시적으로 표현 2. 시각화 단계 1) 데이터 이해 : 데이터의 유형과 수집 기간, 그리고 데이터 내용 파악 2) 목표 설정 : 무엇을 알고 싶은지? 3) 그래프 선정 : 어떤 그래프가 좋을까? 4) 그래프 구현 : 핵심적인 의미를 담기 위한 옵션 선택과 그래프 구현 기본 그래프 1. 파이차트 파이 차트 옵션 ex) pie(x, label=names(x), angle=45, density=NULL, col=NULL, radius=1, clockwise=FALSE, init.angle=90) x : 데이터 필드값 하나 ex) budget(예산) lab..

apply 계열 함수 벡터, 행렬 또는 데이터 프레임에 임의의 함수를 적용한 결과를 얻기 위한 함수 데이터 전체에 함수를 한 번에 적용하는 벡터 연산을 수행함으로 속도가 빠름 1. apply 배열 또는 행렬에 주어진 함수를 적용한 뒤 그 결과를 벡터, 배열 또는 리스트로 반환 apply(iris[1:4], 2, sum) #1 : 행 #2 : 열 colSums(iris[1:4]) # 열 합계 방법1 apply(iris[1:4],2,sum) # 열 합계 방법2 colMeans(iris[1:4]) # 열 평균 방법1 apply(iris[1:4],2,mean) # 열 평균 방법2 rowSums(iris[-5]) # 행 합계 방법1 apply(iris[-5],1,sum) # 행 합계 방법2 rowMeans(iri..