서포트 벡터 머신(Support Vector Machine, SVM)은 선형 분류에서 커널 기능으로 확장됩니다.


SVM(Support Vector Machine)은 분류 및 회귀 작업에 강력하고 널리 사용되는 지도 학습 알고리즘입니다. 이 기사에서는 선형 분류에서 커널 기능 확장에 이르기까지 SVM의 원리를 깊이 분석합니다.

1. 마진이 최대인 선형 분류

SVM의 핵심 아이디어는 서로 다른 범주의 샘플을 분리하기 위해 기능 공간에서 최적의 초평면을 찾는 것입니다. 선형적으로 분리 가능한 경우 SVM은 분류 경계(초평면)와 두 클래스의 샘플 사이의 분리를 최대화하여 분류를 달성합니다. 이 간격을 최대 간격이라고 하며 SVM이 더 나은 견고성과 일반화 능력을 갖도록 합니다.

2. 지원 벡터

서포트 벡터는 최대 마진 초평면에 가장 가까운 샘플 포인트입니다. 이러한 샘플 포인트는 초평면과 결정 경계를 정의하는 데 중요한 역할을 합니다. 지원 벡터는 SVM 모델의 구조와 성능을 결정합니다.

3. 소프트 구간 및 페널티 팩터

실제 응용 프로그램에는 선형으로 분리 가능한 데이터 세트가 거의 없습니다. 선형 불가분성의 경우를 다루기 위해 소프트 마진의 개념이 도입되었습니다. 소프트 마진을 사용하면 일부 샘플 포인트가 초평면의 잘못된 쪽에 있을 수 있습니다. 분류 경계의 견고성과 일반화 능력의 균형을 맞추기 위해 페널티 계수 C가 도입되었습니다. C 값은 잘못 분류된 샘플에 대한 허용 오차를 결정합니다. C가 작을수록 더 느슨한 결정 경계가 생성되고 C가 클수록 더 엄격한 결정 경계가 생성됩니다.

4. 커널 기능 확장

데이터 세트가 선형적으로 분리되지 않는 경우 선형 SVM은 효과적으로 분류할 수 없습니다. 이 문제를 해결하기 위해 SVM은 커널 함수 개념을 도입합니다. 커널 함수는 저차원 특징 공간의 샘플을 고차원 특징 공간에 매핑할 수 있으므로 원래의 선형 분리 불가능 문제가 선형 분리 가능해집니다. 일반적으로 사용되는 커널 함수에는 선형 커널, 다항식 커널, 가우시안 커널 등이 있습니다.

5. SVM의 장점과 단점

SVM의 장점:

  • 샘플 수가 많은 고차원 기능 공간 및 데이터 세트를 처리할 수 있습니다.
  • 선형 분리 가능한 문제를 처리할 때 견고성과 일반화 능력이 우수합니다.
  • 다양한 커널 기능의 확장을 지원하고 비선형 문제를 처리할 수 있습니다.

SVM의 단점:

  • 대규모 데이터 세트 및 고차원 데이터 세트의 경우 교육 시간이 더 깁니다.
  • 적절한 커널 기능 및 매개변수 튜닝 선택에 민감
  • 시끄러운 데이터 세트를 처리할 때 과적합하기 쉽습니다.

6. SVM 코드 예시

from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建SVM模型
model = SVC()

# 训练模型
model.fit(X_train, y_train)

# 预测结果
y_pred = model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)

코드에서 클래식 홍채 데이터 세트(Iris)를 먼저 로드하고 데이터 세트를 훈련 세트와 테스트 세트로 나눕니다. 그런 다음 SVM 분류 모델을 만들고 교육용 교육 세트를 사용합니다. 테스트 세트를 사용하여 예측하고 정확도를 계산하여 모델의 성능을 평가합니다.

Supongo que te gusta

Origin blog.csdn.net/weixin_43749805/article/details/131312548
Recomendado
Clasificación