Notice
Recent Posts
Recent Comments
Link
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
Tags
more
Archives
Today
Total
관리 메뉴

BASEMENT

SVM, SVR 본문

Programming/Machine Learning

SVM, SVR

2_34 2020. 10. 5. 18:57

1. SVM (Support Vector Machine)

 

 

1. 개념

 

- 이질적인 두개 또는 그 이상의 데이터 집단을 분류하는 최적의 초평면을 찾는 모델

  -> 분류되지 않은 새로운 점이 나타나면 경계의 어느 쪽에 속하는지 확인해서 분류할 수 있음

- 각 데이터 항목을 n차원 공간상 하나의 점으로 표시함

- 분류 또는 회귀문제에 사용할 수 있는 알고리즘

- 딥러닝 못지 않은 성능, 가벼움

 

- Classification한 다음 Margin이 가장 큰 선을 찾음

- Margin : 초평면 가까이에 있는 서포트 벡터에서 초평면까지의 거리의 합

- 서포트 벡터 : 두 클래스 사이의 경계에 위치한 데이터 포인트

   -> 서포트 벡터들이 결정 경계를 만드는데 영향

 

 

2. SVM 분류

 

- 각각 커널에서는 최적화를 도와주는 파라미터들이 따로 존재함

- 모든 조건을 바꾸며 실험해보면서 최적의 예측률을 보여주는 최적의 파라미터를 찾아야함

 

1) Hard Margin

 

- 두 클래스로 확실하게 분류함

- 정제된 데이터에서 사용

- Objective function (목적함수) : 마진을 최대화함

 

 

2) Soft Margin

 

 

- 오차가 포함됨

- 비선형 분류에서 사용

- 비선형 분류 : 주어진 데이터를 고차원 특징공간으로 사상하는 작업 필요

  -> 커널트릭 (Linear Kernel, Polynomial Kernel, RBF 등)을 사용함

- Objective function

 

 

 

3. SVM 커널트릭

- 비선형 분류에서 사용

- 주어진 데이터를 고차원 데이터로 사상(mapping)하는 것

- 일부 공간에서 점으로 표현

- RBF, Linear kernel, Polynomial kernel 등 

 

 

 

4. kernel의 매개변수

 

1) C (cost)

 

- 얼마나 많은 데이터 샘플이 다른 클래스에 놓이는 것을 허용하는지 결정함

- 오차를 허용할 수 있는 범위

 

2) gamma

 

- 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정함

-> C는 데이터 샘플들이 다른 클래스에 놓이는 것을 허용결정, gamma는 결정경계의 곡률 결정

 

 

 

5. SVM 사용

from sklearn import svm

clf = svm.SVC(kernel='linear')
clf = svm.SVC(kernel='rbf', C=1.0, gamma=0.10)
clf.fit(x_train, y_train)

clf.predict(x_test)
clf.score(x_test, y_test)

- kernel : 기본값 rbf -> 주로 rbf, linear, poly 사용

- C : 기본값 1.0 -> 값을 낮추면 초평면이 매끄러워지고, 높이면 서포트벡터들을 더 잘 분류함

- Gamma : 기본값 auto -> 값을 낮추면 초평면에서 멀리 떨어진 서포트벡터들의 영향이 낮고, 높이면 영향이 큼. 값을 높일 경우 초평면이 울퉁불퉁하게 됨

cf) degree : poly kernel일 경우에만 사용. 다항식 커널 함수의 각도

 

- SVM Overfitting 방지 : 최적 파라미터로 Overfitting 방지

=> Grid Search, 교차검증도로 최적의 파라미터를 찾아야 함

 

 

 

6. SVM 예제

 

1)

from sklearn.svm import SVC

classifier = SVC(kernel='linear')
training_points = [[1,2],[1,5],[2,2],[7,5],[9,4],[8,2]]
labels = [1,1,1,0,0,0]
classifier.fit(training_points, labels)

print(classifier.predict([[3,2]])

-> [3,2]는 클래스 1로 분류됨

 

2) iris 데이터

from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, cross_val_score

iris = load_iris()

col1 = 0
col2 = 1

X = iris.data[:,:2]     # 시각화를 위해 속성 2개만 선정
y = iris.target

# train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

# 모델 정의
model = SVC()

# 학습시키기
model.fit(X_train, y_train)

# 평가하기
score1 = model.score(X_train, y_train)
print(score1)
# 그래프로 확인
import mglearn

plt.figure(figsize=[10,8])
mglearn.plots.plot_2d_classification(model, X_train, cm='summer')
mglearn.discrete_scatter(X_train[:,0], X_train[:,1], y_train)
# C (cost) 적용

model = SVC(C=10)

model.fit(X_train, y_train)

score = model.score(X_train, y_train)
display(score)

plt.figure(figsize=[10,8])
mglearn.plots.plot_2d_classification(model, X_train, cm='spring')
mglearn.discrete_scatter(X_train[:,0], X_train[:,1], y_train)
# gamma 적용

model = SVC(gamma=10)

model.fit(X_train, y_train)

score = model.score(X_train, y_train)
display(score)

plt.figure(figsize=[10,8])
mglearn.plots.plot_2d_classification(model, X_train, cm='spring')
mglearn.discrete_scatter(X_train[:,0], X_train[:,1], y_train)

 

3) breast_cancer 데이터

from sklearn.datasets import load_breast_cancer

breast_cancer_data = load_breast_cancer()

X_Data = pd.DataFrame(breast_cancer_data.data)
y = pd.DataFrame(breast_cancer_data.target)
from sklearn.svm import SVC
import sklearn.metrics as mt
from sklearn.model_selection import cross_val_score, cross_validate

# SVM, kernel = 'linear'로 선형분리 진행
svm_clf = SVC(kernel='linear')

# 교차 검증
scores = cross_val_score(svm_clf, X_Data, y, cv=5)
scores

print('교차검증 평균: ', scores.mean())
print(pd.DataFrame(cross_validate(svm_clf, X_Data, y, cv=5)))
# SVM, kernel = 'rbf'로 비선형분리 진행
svm_clf = SVC(kernel='rbf')

# 교차검증
scores = cross_val_score(svm_clf, X_Data, y, cv=5)
scores

print(pd.DataFrame(cross_validate(svm_clf, X_Data, y, cv=5)))
print('Cross Mean: ', scores.mean())
# GridSearch - kernel='linear'

from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_Data, y, test_size=0.3, random_state=42)

# 테스트하고자 하는 파라미터 값들을 사전타입으로 정의함
svm_clf = SVC(kernel='linear', random_state=42)
parameters = {'C':[0.001,0.01,0.1,1,10,25,50,100]}

grid_svm = GridSearchCV(svm_clf, param_grid=parameters, cv=5)
grid_svm.fit(X_train, y_train)
print(grid_svm.best_params_)        # 최적 파라미터를 보여줌
print(grid_svm.best_score_)

result = pd.DataFrame(grid_svm.cv_results_['params'])
result['mean_test_score'] = grid_svm.cv_results_['mean_test_score']
result.sort_values(by='mean_test_score', ascending=False)
# GridSearch - kernel='rbf'

from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_Data, y, test_size=0.3, random_state=42)

# 테스트하고자 하는 파라미터 값들을 사전타입으로 정의
svm_clf = SVC(kernel='rbf', random_state=42)
parameters = {'C':[0.001,0.01,0.1,1,10,25,50,100],
			'gamma':[0.001, 0.01, 0.1, 1, 10, 25, 50, 100]}	# gamma 추가

grid_svm = GridSearchCV(svm_clf, param_grid=parameters, cv=5)
grid_svm.fit(X_train, y_train)
print(grid_svm.best_params_)        
print(grid_svm.best_score_)

model = grid_svm.best_estimator_     # 최적의 파라미터로 모델 생성
y_pred = model.predict(X_test)

from sklearn import metrics

print("Accuracy: ", metrics.accuracy_score(y_test, y_pred))

result = pd.DataFrame(grid_svm.cv_results_['params'])
result['mean_test_score'] = grid_svm.cv_results_['mean_test_score']
result.sort_values(by='mean_test_score', ascending=False)

 

 

 

 

2. SVR (Support Vector Regression)

 

1. 개념

 

- SVM에 손실함수를 도입하여 회귀식을 구성함

- 손실함수 : ϵ-insensitive, Gaussian 등 

- 회귀선 : 오차를 줄이고 정확도를 높임

 

 

 

2. SVR 사용

from sklearn.svm import SVR

svr_rbf = SVR(kernel='rbf', C=100, gamma=0.1, epsilon=.1)
svr_lin = SVR(kernel='linear', C=100, gamma='auto')
svr_poly = SVR(kernel='poly', C=100, gamma=0.1, degree=3, epsilon=.1, coef0=1)

y_rbf = svr_fbf.fit(X,y).predict(X)
y_lin = svr_lin.fit(X,y).predict(X)
y_poly = svr_poly.fit(X,y).predict(X)

 

 

 

3. SVR 예제

 

1) boston 데이터

from sklearn.svm import SVR
from sklearn.datasets import load_boston
from sklearn.datasets import make_regression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import scale
import matplotlib.pyplot as plt

boston = load_boston()
x, y = boston.data, boston.target

# StandardScale
x = scale(x)
y= scale(y)

xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=.3)

svr = SVR(kernel='rbf', gamma='auto')
svr.fit(xtrain, ytrain)
score = svr.score(xtrain, ytrain)
print("R-squared: ", score)

cv_score = cross_val_score(svr, x, y, cv=5)
print("CV mean score: ", cv_score.mean())

ypred = svr.predict(xtest)

mse = mean_squared_error(ytest, ypred)
print("MSE: ", mse)

x_ax = range(len(ytest))
plt.plot(x_ax, ytest, label='origianl')
plt.plot(x_ax, ypred, label="predicted")
plt.title("Botson test and predicted data")
plt.legend()
plt.show()

 

-> SVR : 선형 회귀보다 비선형 회귀에 적합함(시계열 데이터 등). 오차가 적고 모델 예측 성능이 높음

 

'Programming > Machine Learning' 카테고리의 다른 글

랜덤포레스트 (Random Forest)  (0) 2020.10.10
의사결정트리  (0) 2020.10.10
Naive Bayes (나이브 베이즈)  (0) 2020.10.05
KNN 알고리즘  (0) 2020.09.27
모델 성능 평가 척도, ROC 커브  (0) 2020.09.27
Comments