목록전체 글 (34)
BASEMENT
로지스틱 회귀분석 1. 정의 - 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측할 때 사용하는 통계 기법 - 새로운 관측치가 있을 때 이를 기존의 범주 중 하나로 분류하는 것이 목적 ex) 제품이 불량인지 양품인지 분류 고객이 이탈 고객인지 잔류 고객인지 분류 - 범주형 반응변수 - 이진변수 (반응 변수값 0 or 1) : y값은 0~1사이의 확률값 - 멀티변수 (반응 변수값 1 or 2 or 3 이상) 2. 과정 - 각 집단에 속하는 확률의 추정치를 예측. 이진분류의 경우 집단 1에 속하는 확률 P(Y=1) - 추정확률 -> 분류 기준 값(cut-off) 적용 -> 특정 범주로 분류 - 순입력 함수의 값을 Sigmoid 함수에 대입 P(Y=1) >= 0.5 -> 집단 1로 분류 P(Y=1) ..
1. Sklearn 머신러닝에 사용되는 지도/비지도 학습 알고리즘을 제공하는 파이썬 라이브러리 from sklearn import datasets# 내장 데이터 사용 from sklearn.model_selection import train_test_split# train, test 데이터 분할 from sklearn.linear_model import LinearRegression# 선형 회귀분석 from sklearn.linear_model import LogisticRegression# 로지스틱 회귀분석 from sklearn.naive_bayes import GaussianNB# 나이브 베이즈 from sklearn import svm# 서포트 벡터 머신 from sklearn import tre..

데이터 전처리 데이터를 분석 및 처리에 적합한 형태로 만드는 과정 - 불완전 : 데이터가 비어 있는 경우, 값이 Null인 경우 - 잡음 : 에러 또는 잡음이 포함된 경우 (ex: 나이 -10살) - 모순된 : 생년월일과 나이가 맞지 않는경우, 복사된 레코드의 불일치 1. 이상치 (Outlier) 1) 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터 2) 잡음과는 다름 - 잡음 : 임의로 발생하는 예측하기 어려운 요인 - 이상치 : 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수도 있음 3) 이상값 처리 데이터/샘플과 동떨어진 관측치로, 모델을 왜곡할 가능성이 있는 관측치이므로 처리해줌 Boxplot이나 Histogram 사용 두 개..

머신러닝 개요 1. 데이터 마이닝 1) 데이터 마이닝이란? 대용량 데이터에 존재하는 데이터 간의 관계, 패턴, 규칙 등을 찾아내고 모형화해서 기업의 경쟁력 확보를 위한 의사결정을 돕는 일련의 과정 2) 데이터 마이닝 관련분야 - 기계학습 : 자동적인 학습 기법 설계, 구현 - 패턴인식 : 문자인식, 이미지 분류 - 통계학 : 다변량 (판별분석, 주성분분석, 군집분석), 회귀분석 등 3) 데이터 마이닝의 절차 데이터 선정 -> 정제 -> 변형 -> 데이터마이닝 -> 해석 4) 데이터 마이닝의 분석 프레임 - 데이터 수집 : 결제 바로 전, 유저의 행동 패턴을 기술할 수 있는 로그 항목 수집 (문서오픈, 편집 등) - 데이터 추출 : Extraction, Preprocessing (SQL필터, 조인 등) -..

R 실습 1. 보스턴시의 주택가격 데이터 #data(Boston) #CRIM : 1인당 범죄율 #ZN : 25,000초과하는 거주지역의 비율 #INDUS : 비소매상업지역이 점유하고 있는 토지의 비율 #CHAS : 찰스강 경계는 1, 아니면 0 #NOX : 10PPM당 일산화질소 #RM : 1가구당 평균 방의 개수 #AGE : 1940년 이전에 건축된 소유주택의 비율 #DIS : 직업센터까지의 접근성 지수 #RAD : 방사형도로까지 접근성 지수 #TAX : 재산세율 #PTRATIO : 학생/교사 비율 #B : 흑인의 비율 #LSTAT : 하위계층 비율 #MEDV : 본인 소유의 주택가격(1,000달러 단위) ## 1. 데이터 불러오기 library(MASS) data(Boston) write.csv(df..

데이터 마이닝 1. 데이터 마이닝의 이해 데이터 마이닝 : 대용량의 데이터에서 유용한 정보와 관계를 탐색하고 모험화하여 지식을 발견하는 과정 대용량의 관측된 자료를 다룸 이론보다는 실무위주의 컴퓨터 중심적인 방법 경험적 방법에 근거 주요 관심은 예측모형의 일반화 기업의 다양한 의사결정에 활용됨 통계학, 전산학, 인공지능, 공학과 같은 분야에서 주로 개발됨 2. 데이터 마이닝 프로세스 1) 과정 자료선택 및 정제 -> 자료변환 -> 데이터마이닝 -> 해석 및 평가 2) CRISP-DM SPSS, NCR, Daimler-Chrylsler 등 여러 업계의 선도회사가 데이터 마이닝 작업의 표준화를 연구하여 발표한 방법론 비즈니스 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개 3) S..

파이썬 실습 1. 다음과 같이 문자열 출력 문자열 입력 : python n on hon thon ython python string = input("문자열 입력 : ") n = len(string) for i in range(n): for j in range(i,-1,-1): print(string[n-1-j], end='') print() # reversed와 join 사용 string = input("문자열 입력 : ") r = '' for i in reversed(string): r = ''.join(i) + r print(r) 2. 다음 주어진 숫자들을 작은수에서 큰수의 순서인 오름정렬의 프로그램 작성 - 파이썬 내장함수 sorted, 리스트 메소드 sort 사용하지 말 것 - for 반복문 사용..

파이썬 실습 1. 다음 결과처럼 출력되는 프로그램 작성 enter start and end number >> 2 6 2 3 4 5 6 3 4 5 6 7 4 5 6 7 8 5 6 7 8 9 6 7 8 9 10 def string_p(start, end): for i in range(start, end+1): for j in range(i, i+(end-start)+1): print(f'{j:5d}', end='') print() if __name__ == "__main__": start, end = map(int, input("enter start and end number >> ")) string_p(start, end) 2. 다음처럼 star가 출력되도록 코드 작성, star는 \u2605 사용 ent..