Lasso는 시리즈 4를 반환합니다: Group Lasso, Sparse Group Lasso

Lasso变体:그룹 Lasso,Sparse Group Lasso

Lasso 회귀에 대한 설명은 저의 다른 블로그인 Lasso regression series 2: The principle of Lasso regression/ridge regression을 참조하십시오.

그룹 올가미

Lasso 회귀에서 각 기능은 개별적으로 표시되지만(즉, 기능의 사전 그룹화가 없다고 가정함) 일부 사용 시나리오에서는 변수 자체에 그룹화가 있습니다. 사업 분야는 그룹으로 나눌 수 있습니다. 2006년 [그룹화된 변수를 사용한 회귀의 모델 선택 및 추정] 논문에서는 그룹화 정보에 대한 기능을 도입하여 이러한 종류의 문제를 해결하는 Group Lasso를 제안했습니다. 데이터의 변수 간에 알려진 그룹화 관계가 있습니다.

이전 변수 간의 그룹화 정보에 따르면 가중치 β \betaβ는 mm로 나눌 수 있습니다.m组,电影后β G = β ( 1 ) , β ( 2 ) , ⋯ , β ( m ) β_G={β(1),β(2),⋯,β(m)}=b ( 1 ) ,b ( 2 ) ,,β ( m )β(l) β(l)β ( l )은 ββ로부터의 기를 나타낸다.$1≤l≤m$인 β 의 가중치XX에 대한 추가 데이터X 도 그룹화됨,X(I) X(I)X ( I ) 는 해당β(l) β(l)을β ( l ) 의 부분행렬이 최적화 문제는 다음과 같이 됩니다
. 베타^* = \underset {\beta}{\arg \min} ||y−∑_{l=1}^mX^{(l)}β^{(l)}||^2_2+ λ∑_{ l=1}^m \sqrt p_l ||β^{(l)}||_2=arg _와이 -내가 = 1엑스( l ) b( l )22+내가 = 1 .내가β( l )2
여기서 pl p_l내가대표 β ( l ) β^{(l)}( l ) 의 가중치 매개변수 수

그룹 올가미는 변수 그룹을 전체적으로 취급하는 경향이 있는데, 이 변수 ​​그룹이 의미가 있으면 그룹의 모든 변수가 선택되고 그렇지 않으면 전체 변수 그룹에 해당하는 매개 변수가 0으로 설정됩니다.

여기에 이미지 설명 삽입

위의 그림과 같이 β 11 , β 12 \beta_{11}, \beta_{12}1 1, b1 2는 변수 세트, β 2 \beta_22두 번째 변수 세트입니다.

우리는 여전히 분석을 위해 "미분할 수 없는 장소는 제곱 오차와 교차할 가능성이 더 높다"는 법칙을 사용할 수 있습니다. < β 11 , β 12 > <\beta_{11}, \beta_{12}> 에서<1 1, b1 2> 미분할 수 없는 점이 위치한 평면에 나타날 가능성이 더 높습니다. 이때β 2 = 0 \beta_2=02=0 , 즉 두 번째 변수 그룹은β ββ 의 매개변수 는 0이고 두 번째 변수 세트는 버려집니다.

또한 m=1일 때 Group Lasso는 Ridge Regression과 같고, m=n일 때 Group Lasso는 Lasso Regression이 됨을 알 수 있습니다.

스파스 그룹 올가미

Sparse Group Lasso는 Lasso와 Group Lasso의 선형 조합이며 최종 결과도 Lasso와 Group Lasso의 결과 사이에 있습니다.

Sparse Group Lasso 는 가장 의미 있는 변수 그룹에서 가장 의미 있는 변수를 선택하는 매우 인기 있는 변수 선택 방법입니다 .

이 시점에서 최적화 문제는 다음과 같이 됩니다
. 1 + ( 1 − α ) λ ∑ l = 1 mpl ∣ ∣ β ( l ) ∣ ∣ 2 \beta^*= \underset {\beta}{\arg \min} ||y−∑_{l=1 } ^mX^{(l)}β_{i}||^2_2+\alphaλ∑_{l=1}^n ||β_{i}||_1+(1-\alpha)λ∑_{l=1 } ^m \sqrt p_l ||β^{(l)}||_2=arg _와이 -내가 = 1엑스( l ) b22+_내가 = 1β1+( 1-) 내가 _내가 = 1 .내가β( l )2
여기에는 최적화해야 하는 두 개의 매개변수가 포함되어 있습니다. λ \lambdaλα \alphaα ,λ \lambdaλ는 페널티를 제어하고,α \alphaα는 Lasso와 Group Lasso의 비율에 가중치를 두며 이 두 매개변수의 값은 일반적으로 그리드 검색으로 결정할 수 있습니다.

参考: 파이썬에서
그룹 라소
스파스 그룹 라쏘

Supongo que te gusta

Origin blog.csdn.net/qq_40924873/article/details/128014355
Recomendado
Clasificación