목록Programming/Machine Learning (12)
BASEMENT
로지스틱 회귀분석 1. 정의 - 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측할 때 사용하는 통계 기법 - 새로운 관측치가 있을 때 이를 기존의 범주 중 하나로 분류하는 것이 목적 ex) 제품이 불량인지 양품인지 분류 고객이 이탈 고객인지 잔류 고객인지 분류 - 범주형 반응변수 - 이진변수 (반응 변수값 0 or 1) : y값은 0~1사이의 확률값 - 멀티변수 (반응 변수값 1 or 2 or 3 이상) 2. 과정 - 각 집단에 속하는 확률의 추정치를 예측. 이진분류의 경우 집단 1에 속하는 확률 P(Y=1) - 추정확률 -> 분류 기준 값(cut-off) 적용 -> 특정 범주로 분류 - 순입력 함수의 값을 Sigmoid 함수에 대입 P(Y=1) >= 0.5 -> 집단 1로 분류 P(Y=1) ..
1. Sklearn 머신러닝에 사용되는 지도/비지도 학습 알고리즘을 제공하는 파이썬 라이브러리 from sklearn import datasets# 내장 데이터 사용 from sklearn.model_selection import train_test_split# train, test 데이터 분할 from sklearn.linear_model import LinearRegression# 선형 회귀분석 from sklearn.linear_model import LogisticRegression# 로지스틱 회귀분석 from sklearn.naive_bayes import GaussianNB# 나이브 베이즈 from sklearn import svm# 서포트 벡터 머신 from sklearn import tre..

데이터 전처리 데이터를 분석 및 처리에 적합한 형태로 만드는 과정 - 불완전 : 데이터가 비어 있는 경우, 값이 Null인 경우 - 잡음 : 에러 또는 잡음이 포함된 경우 (ex: 나이 -10살) - 모순된 : 생년월일과 나이가 맞지 않는경우, 복사된 레코드의 불일치 1. 이상치 (Outlier) 1) 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터 2) 잡음과는 다름 - 잡음 : 임의로 발생하는 예측하기 어려운 요인 - 이상치 : 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수도 있음 3) 이상값 처리 데이터/샘플과 동떨어진 관측치로, 모델을 왜곡할 가능성이 있는 관측치이므로 처리해줌 Boxplot이나 Histogram 사용 두 개..

머신러닝 개요 1. 데이터 마이닝 1) 데이터 마이닝이란? 대용량 데이터에 존재하는 데이터 간의 관계, 패턴, 규칙 등을 찾아내고 모형화해서 기업의 경쟁력 확보를 위한 의사결정을 돕는 일련의 과정 2) 데이터 마이닝 관련분야 - 기계학습 : 자동적인 학습 기법 설계, 구현 - 패턴인식 : 문자인식, 이미지 분류 - 통계학 : 다변량 (판별분석, 주성분분석, 군집분석), 회귀분석 등 3) 데이터 마이닝의 절차 데이터 선정 -> 정제 -> 변형 -> 데이터마이닝 -> 해석 4) 데이터 마이닝의 분석 프레임 - 데이터 수집 : 결제 바로 전, 유저의 행동 패턴을 기술할 수 있는 로그 항목 수집 (문서오픈, 편집 등) - 데이터 추출 : Extraction, Preprocessing (SQL필터, 조인 등) -..