규칙 맞추기
의사 결정 규칙의 형태로 기능 간의 상호 작용을 감지하는 것입니다. (결정 규칙은 참고 4 참조)
두 부분:
- 의사 결정 트리 사이에서 규칙을 만듭니다.
- 원래 기능과 새 규칙은 선형 모델을 일치시키기 위한 입력으로 사용됩니다.
트리의 각 경로는 분할 결정을 규칙으로 결합하여 결정 규칙으로 변환할 수 있습니다:
설명 및 예
RuleFit은 궁극적으로 선형 모델을 추정하므로 해석은 일반 선형 모델과 동일합니다. 유일한 차이점은 모델에 결정 규칙의 새로운 기능이 있다는 것입니다.
자전거 대여 예:
가장 중요한 규칙은 "days_since_2011 > 111 & weathersit in("GOOD", "MITY")"이고 해당 가중치는 793입니다. 해석은 다음과 같습니다. days_since_2011 > 111이고 weathersit in("GOOD", "MITY")이면 다른 모든 특성 값이 일정하게 유지될 때 예상되는 자전거 수는 793만큼 증가합니다.
기능 중요도 측정에는 원래 기능 항목의 중요도와 기능이 나타나는 모든 결정 규칙이 포함됩니다.
1. 이론
1단계: 규칙 일반화
일련의 트리는 다음 일반 공식으로 설명할 수 있습니다.
M: 트리 수 fm(x): 예측 함수
생성 규칙:
Tm: m-tree에서 사용되는 기능 집합 I: 표시 기능
인스턴스화: 자전거 대여 데이터 세트의 가상 예:
2단계: 스파스 선형 모델 (특성 감소)
은 선형 모델과 일치하며 올가미를 도입하고 일반 특성을 추가합니다.
3단계: 기능 중요도:
기능 중요도를 측정하는 몇 가지 방법을 소개합니다.
2. 장점과 단점
이점:
- RuleFit은 선형 모델에 기능 상호 작용을 자동으로 추가합니다.
- RuleFit은 분류 및 회귀 작업을 모두 처리할 수 있습니다.
- 설명하기 쉽습니다.
결점:
- 때때로 RuleFit은 많은 규칙을 만들고 모델의 기능 수가 증가함에 따라 해석 가능성이 점차 감소합니다.
- 선형 모델의 경우 가중치 해석은 여전히 직관적이지 않습니다.