상위 10가지 기계 학습 알고리즘 소개

이 기사는 기계 학습을 위한 일반적인 알고리즘에 대한 상식적인 이해를 제공하고, 이러한 알고리즘이 무엇이며 어떻게 적용되는지(주로 분류 문제에 대해), 개별 알고리즘에 대한 이해를 소개합니다. 이 글에서 소개할 상위 10개 알고리즘은 ①결정 트리 ②랜덤 포레스트 ③로지스틱 회귀 ④SVM(서포트 벡터 머신) ⑤나이브 베이지안 ⑥K 최근접 이웃 알고리즘 10 마르코프이다.

1. 결정 트리

몇 가지 특징에 따라 분류하고, 각 노드는 질문을 하고 판단을 통해 데이터를 두 가지 범주로 나누고 계속해서 질문을 합니다. 이러한 문제는 기존 데이터를 기반으로 학습되며, 지아는 새로운 데이터를 입력할 때 트리의 문제에 따라 데이터를 적절한 잎사귀로 나눕니다.
여기에 이미지 설명 삽입

2. 랜덤 포레스트

원본 데이터에서 임의로 데이터를 선택하여 여러 하위 집합을 형성합니다.s
여기에 이미지 설명 삽입
행렬은 원본 데이터로 1-N개의 데이터 조각, ABC는 기능, 마지막 열 C는 범주입니다.M개의
여기에 이미지 설명 삽입
하위 행렬은 임의로 S에 의해 생성됩니다.
여기에 이미지 설명 삽입
이 M개의 하위 집합은 M개의 결정 트리를 얻습니다.
이 M개의 트리에 새 데이터를 넣고, M개의 분류 결과를 얻고, 어떤 범주가 테스트 수가 가장 많은지 확인하고 이 범주를 최종 예측 결과로 사용합니다.
여기에 이미지 설명 삽입

3. 로지스틱 회귀

목표 숫자의 확률을 예측할 때 값 범위는 0보다 크거나 같고 1보다 작거나 같아야 합니다. 이때 정의 도메인이 특정 범위, 값 범위도 초과 간격을 지정합니다.
여기에 이미지 설명 삽입
따라서 현시점에서 다음과 같은 형태의 모델이 필요하면 좋을 텐데
여기에 이미지 설명 삽입
문제는 그런 모델을 어떻게 구하느냐다. 조건: 0보다 크거나 같고
1보다 작거나 같고 0보다 크거나 같은 모델은 절대 값, 제곱 값을 선택할 수 있습니다. 여기서는 지수 함수를 사용하고
모델은 0보다 크고 1보다 작거나 같아야 합니다. 나눗셈을 사용할 수 있고 분자는 자기 자신이고 분모는 자기 자신에 1을 더한 값이므로 1보다 작아야
여기에 이미지 설명 삽입
로지스틱 회귀 모델을 얻을 수 있습니다.
여기에 이미지 설명 삽입
해당 계수는 소스 데이터의 계산을 통해 얻을 수
여기에 이미지 설명 삽입
있으며 최종적으로 로지스틱 그래프를 얻습니다.
여기에 이미지 설명 삽입

4. SVM

두 범주를 분리하고 초평면을 얻기 위해 최적의 초평면은 두 범주의 최대 여백에 도달하는 것이며 여백은 아래 그림과 같이 초평면과 가장 가까운 점 사이의 거리이므로 녹색 초평면이 더 좋음
여기에 이미지 설명 삽입
이 초평면은 선형 방정식으로 표현됩니다. 선 위의 한 클래스는 1보다 크거나 같고 다른 클래스는 -1보다 작거나 같습니다. 점에서 평면
여기에 이미지 설명 삽입
까지의 거리는 다음과 같습니다. 그림의 공식에 따라 계산되므로 총 마진의 표현은 다음과 같으며 목표는 최대입니다 이 마진을 최적화하려면 분모
여기에 이미지 설명 삽입
를 최소화해야 하므로 최적화 문제가 됩니다.
여기에 이미지 설명 삽입
최적의 초평면, 가중치 벡터=(2,3)-(1,1)을 정의하여
여기에 이미지 설명 삽입
가중치를 얻습니다. 벡터는 (a, 2a)입니다. 방정식에 두 점을 가져오고 (2, 3)을 대입하면 그 값은 같습니다. 1에 대입 (1, 1)하고 그 값은 -1과 같으며 a의 값을 풀고 w0을 절편하면 초평면의 표현을 얻습니다.
여기에 이미지 설명 삽입
a를 구한 후 (a, 2a)를 (a, 2a)에 대입하여 얻은 방정식은 서포트 벡터
a이고 초평면에 w0를 대입하면 서포트 벡터 머신

5. 나이브 베이즈

NLP에서 응용 프로그램을 가져옵니다: 텍스트를 제공하고 이 텍스트의 태도가 긍정적이든 부정적이든 감정 분류를 반환합니다.
여기에 이미지 설명 삽입
이 문제를 해결하기 위해 일부 단어만 볼 수 있습니다.
여기에 이미지 설명 삽입
이 텍스트 조각은 몇 가지 단어와 개수로만 나타낼 수 있습니다.
여기에 이미지 설명 삽입
원래 질문은 다음과 같습니다: 문장을 주고,
어떤 범주에 속합니까? 베이즈 규칙을 통해 비교적 간단하고 쉬운 문제가 됩니다
여기에 이미지 설명 삽입
. 문제는 이 확률이 얼마입니까?입니다. 이 범주에 나오는 문장은 물론 공식 잊지마세요 나머지 두 확률
예시: 사랑이라는 단어가 긍정적일 때 나올 확률은 0.1, 부정적일 때 나올 확률은 0.001
여기에 이미지 설명 삽입

6. K 최근접 이웃 알고리즘

새로운 데이터가 주어졌을 때, 가장 가까운 K개의 포인트 중 어떤 카테고리가 더 많은지, 이 데이터는 어떤 카테고리에 속하는지 예시
: 고양이와 개를 구별하기 위해 발톱과 소리의 두 가지 특징으로 판단하면 원과 삼각형은 이미 분류되었으므로 이 별은 어떤 범주를 나타냅니까?
여기에 이미지 설명 삽입k=3일 때 이 세 직선으로 연결된 점들이 가장 가까운 세 점이므로 원이 더 크므로 이 별은 고양이에 속한다.
여기에 이미지 설명 삽입

7. K-평균 알고리즘

데이터 집합을 세 가지 범주로 나누고 싶은데 분홍색 값이 크고 노란색 값이 작습니다.먼저 초기화하고 가장 간단한 3, 2, 1을 각 유형의 초기 값으로 선택합니다. 나머지 데이터에는 각 초기값과의 거리를 계산하여 가장 가까운 초기값의 범주로 분류하고 분류 후
여기에 이미지 설명 삽입
각 범주의 평균값을 중앙점포의 새로운 회차로 계산한다
여기에 이미지 설명 삽입
. 라운드, 그룹화는 더 이상 변경되지 않습니다. 중지할 수 있습니다.
여기에 이미지 설명 삽입
여기에 이미지 설명 삽입

8. 아다부스트

Adaboost는 부스팅 방법 중 하나인데,
부스팅은 분류 효과가 좋지 않은 분류기를 여러 개 고려하여 합산하여 비교 효과가 있는 분류기를 얻게 되는데,
데이터를 넣고 두 결과를 합하면
여기에 이미지 설명 삽입
adaboost의 신뢰도가 높아진다. 필기 인식에서는 시작점의 방향, 파일럿 포인트와 끝점 사이의 거리 등과 같은 많은 기능을 드로잉 보드에서 캡처할 수 있습니다
여기에 이미지 설명 삽입
. 예를 들어 2와 3의 시작은 매우 유사합니다.이 기능은 분류에 거의 영향을 미치지 않으며 가중치는 작을 것이며 이 알파 각도는 인식 속성이 강하고 이 기능의 가중치는 더 커질 것이며
여기에 이미지 설명 삽입
최종 예측 결과는 이러한 특징을 종합적으로 고려한 결과입니다.
여기에 이미지 설명 삽입

9. 신경망

신경망은 적어도 두 가지 범주에 속할 수 있는 입력에 적합합니다.
NN에는 여러 계층의 뉴런과 이들 사이의 연결이 있습니다.
첫 번째 계층은 입력 계층이고 출력 계층에는 자체 분류기가 있습니다.
여기에 이미지 설명 삽입
입력은 계산된 점수는 다음 레이어로 전달되고 다음 신경 레이어가 활성화됩니다. 마지막으로 출력 레이어의 노드에 있는 점수는 각 범주에 속하는 점수를 나타냅니다. 아래 그림의 예는 분류 결과는 class1. 같은 입력이 다른 노드로 전송되므로
자식 노드마다 가중치와 바이어스가 다르기 때문에 다른 결과를 얻을 수 있습니다.
여기에 이미지 설명 삽입

10. 마르코프

마르코프 체인은 상태 와 전이로 구성되어 있습니다
. 한
문장
여기에 이미지 설명 삽입
으로 계산되는 확률입니다 통계에 많은 양의 텍스트를 사용하면 이후에 연결할 수 있는 단어와 해당 확률과 같은 더 큰 상태 전이 행렬을 얻습니다. 삶의 키보드 입력 방식의 결과
여기에 이미지 설명 삽입
도 같은 원리로 모델이 더 발전할 것입니다.
여기에 이미지 설명 삽입

Supongo que te gusta

Origin blog.csdn.net/shoppingend/article/details/123110650
Recomendado
Clasificación