BASEMENT
군집화 본문
군집화
1. 비지도학습(Unsupervised Learning)
- 정답이 없음 (label이 없음)
- 목표값을 정해주지 않아도 되고 사전 학습이 필요 없으므로 속도가 빠름
- 지도학습에서의 적절한 feature를 찾아내기 위한 전처리 방법으로 사용됨
구분 | 지도학습 | 비지도학습 |
사용이유 | 예측 모델 생성 | 고차원 데이터 분류 |
성능평가 | 교차 검증 수행 | 검증 방법 없음 |
입력정보 | Labeled Data | Raw Data (Label이 없음) |
유형 | 회귀 (x, y로 f(x)=y 파악) 분류 (그룹별 특징 파악) |
군집 (데이터끼리 묶음) 패턴인식 (여러 그룹 인식) |
알고리즘 | 머신러닝 | K-Means, DBSCAN, Clustering 등 |
예시 | 패턴인식, 질병진단, 주가예측, 회귀분석 등 | 스팸필터, 차원축소, 데이터 마이닝 등 |
2. 종류
1) 클러스터링
- K-means : 임의의 중심점(K) 기준 최소 거리 기반 군집화
- Hierarchical Clustering (계층적 군집화) : 특정 알고리즘에 의해 데이터를 연결하여 계층적 클러스터를 구성해 나가는 방법
- DBSCAN : 반경 내 데이터 벡터 밀도 기반 군집화
2) 차원 축소
- t-SNE
- 주성분 분석(PCA) : 사물의 주요 특징 분석 및 추출. 차원축소, 축 상의 투영으로 표시 (이미지에서 주로 사용)
3. 군집화
- 비슷한 특성을 가진 데이터들끼리 그룹화함
- 같은 그룹내 요소들은 아주 유사하고, 다른 그룹과는 확연히 다름
- 목적 : 데이터 정보가 없는 경우 라벨링을 해줌 -> 라벨링 후 분류 모델 적용 -> 성능비교 가능
- 클러스터링은 눈에 잘 보일 수 있도록 시각화 하는 것이 중요함 (특히 scatter plot)
구분 | Classification (분류) | Clustering (군집화) |
정보 | O | X |
Label | O | X |
종류 | 지도 학습 | 비지도 학습 |
공통점 | 데이터를 비슷한 집단으로 묶는 방법 |
'Programming > Machine Learning' 카테고리의 다른 글
K - means (0) | 2020.10.11 |
---|---|
랜덤포레스트 (Random Forest) (0) | 2020.10.10 |
의사결정트리 (0) | 2020.10.10 |
SVM, SVR (0) | 2020.10.05 |
Naive Bayes (나이브 베이즈) (0) | 2020.10.05 |
Comments