크로스모달 예측 기반의 텍스트 중심 멀티모달 감정 분석을 위한 Shared Private Framework(2021)

论文名称:《A Text-Centered Shared-Private Framework via Cross-Modal Prediction
for Multimodal Sentiment Analysis》 

관련된 일:

      사용된 특징 세분성에 따라 두 가지 작업 범주로 나뉘는데 하나는 문장 수준 특징을 기반으로 한 다중 모드 특징 융합 방법입니다. 문장 수준의 특징을 기반으로 한 다중모달 특징 융합 방법의 장점은 전역 특징을 기반으로 예측을 할 수 있다는 점이지만 단점은 다른 양상의 지역 특징 간의 정렬 관계를 무시한다는 점이다.

      따라서 또 다른 형태의 방법은 단어 수준의 특징을 기반으로 한 멀티모달 특징 융합 방법이다. 처음에 강제 정렬. 강제 정렬은 시간이 많이 걸리고 노동 집약적입니다. 나중에 implicit cross-modal feature alignment를 위한 cross-modal Attention 메커니즘이 등장했는데, 이는 명시적 특징 정렬보다 두 가지 장점이 있습니다 . 두 번째 요점은 명시적 정렬 후 텍스트 기능은 짧은 시간 내에 소수의 기능과만 상호 작용할 수 있어 기능 상호 작용의 범위가 제한된다는 것입니다. Implicit cross-modal feature interaction을 사용하면서 문장 전체의 feature와 상호작용이 가능하다 . 이러한 고려 사항을 기반으로 Tsai 등은 Transformer 아키텍처를 기반으로 하는 다중 모드 Transformer를 구현했습니다. 이 모델은 명시적인 기능 정렬이 필요하지 않으며 세분화된 기능 상호 작용을 캡처할 수 있습니다.

동기 부여:

       이전의 다중 모드 융합 연구는 세 가지 양식을 동등하게 취급한 다음 서로 다른 양식 간의 상호 작용을 암시적으로 모델링합니다.

우리는 대상 작업에 대한 다양한 양식의 기여도에 대한 보다 심층적인 연구와 다양한 모달 기능 간의 관계에 대한 명시적 분석 및 모델링이 모델이 다중 모달 기능 융합을 보다 효과적으로 수행하는 데 도움이 될 것이라고 믿습니다.

        또한 우리는 두 가지 관찰을 제시하는데, 첫 번째는 텍스트 모드가 멀티모달 감성 분석에서 우세한 위치를 차지하고 있다는 점이다. 모드.쇠퇴. 두 번째 포인트는 텍스트 모달과 비교하여 다른 모달은 두 가지 유형의 정보를 제공한다는 것입니다. 한 가지 정보 유형은 공유 시맨틱입니다 .공유 시맨틱은 텍스트 모달 외부에 정보를 제공하지 않지만 해당 시맨틱을 향상시키고 모델을 만들 수 있습니다. 더 견고합니다. 또 다른 유형의 정보는 텍스트 이외의 의미론적 정보를 제공하고 모델 예측을 더 정확하게 만들 수 있는 개인 의미론입니다 .

이 두 가지 관찰을 기반으로 교차 모달 예측을 기반으로 하는 텍스트 중심의 공유-개인 프레임워크를 제안합니다. 이 프레임워크에서는 교차 모달 예측 작업을 사용하여 공유 기능을 개인 기능과 구별하고 다중 모달 기능에서 기능 융합을 수행하기 위해 텍스트 중심 다중 모달 기능 융합 메커니즘을 설계합니다.

디자인을 구현하는 방법

이 방법은 주로 두 부분으로 구성됩니다. 하나는 공유 기능과 개인 기능의 식별(아이디어 1)이고 다른 하나는 공유 기능과 개인 기능의 기능 융합(아이디어 2)입니다.

아이디어 1 출처: 다른 논문을 관찰한 결과 텍스트 양식이 다중 양식에서 중요한 역할을 한다는 결론을 내렸습니다.

아이디어 1: 비텍스트 양식의 공유 기능과 비공개 기능을 얻기 위해 두 가지 교차 양식 예측 모델(텍스트-시각 및 텍스트 음향)을 교육하여 교차 양식 예측 작업을 설계합니다.


구현 단계:

비공개 기능, 공유 ?

비공개 기능: 이 기능에는 텍스트 기능에 포함되지 않은 정보가 포함되어 있습니다. 교차 모달 예측 모델에서 텍스트 특징을 통해 예측하기 어려운 특징, 즉 예측 시 상대적으로 손실 함수 값이 높은 시간 단계의 특징을 말합니다.

공유 기능 : 이 기능에는 텍스트 기능과 관련된 정보가 포함되어 있습니다. 예측 과정에서 특정 시간 단계의 특징을 정확히 예측하기 위해서는 어텐션 메커니즘이 생성되는 특징과 관련된 정보에 주의를 기울여야 하기 때문에 특징이 예측되면 특정 텍스트 특징의 가중치가 이 기능은 이 텍스트 기능의 공유 기능입니다.

교차 모달 예측 모델 : 교차 모달 예측 모델의 입력은 텍스트 특성이고 출력은 오디오/이미지 특성입니다. 주의를 기울여 Seq2Seq를 사용하여 텍스트 비전 및 텍스트 음성 모델을 훈련하기 위해 얻은 모델을 사용하여 공유 및 개인 기능을 구별하고 결과를 공유 및 개인 마스크로 기록하여 Sentiment 회귀 모델로 전달합니다.

공유 마스크: 예측 모델이 텍스트가 아닌 기능을 출력하려면 더 많은 공유 의미론적 입력 텍스트 기능을 포함하고 공유 마스크를 설계했다는 가정에 더 주의를 기울여야 한다는 가정을 기반으로 합니다. 가중치 정렬이 가장 큰 K는 1이고 나머지는 0입니다. 마지막으로 타이밍 smask를 얻습니다.

프라이빗 마스크 : 프라이빗 시맨틱의 표현입니다. 개인 의미 체계는 텍스트 형식으로 예측하기 어렵습니다.

가장 큰 K를 얻기 위해 정렬된 학습 예측 모델의 손실 값 e는 1이고 그렇지 않으면 0입니다. 회귀 모델에서 사용할 비공개 마스크인 pmask를 가져와서 모델이 비공개 기능에 집중하도록 합니다.

아이디어 2 출처: 두 가지 다른 방식으로 의미 체계를 강화하고 감정 분석 모델을 더욱 강력하게 만들 수 있습니다. 이것은 합리적인 추측입니다.

아이디어 2: 감정 회귀 모델을 설계하여 텍스트 기능과 2클래스 기능을 융합합니다.

구현 단계:

입력 레이어 : 발화 수준의 텍스트 특징을 얻는 LSTM. 먼저 프레임 수준의 시각적 또는 청각적 특징을 추출한 다음 평균화하여 발화 수준 특징이라고 하는 최종 특징을 얻습니다. 다중 모달 표현은 융합 후에 얻어집니다.

공유 모듈: 텍스트가 아닌 모달 기능에서 공유 정보를 활용하여 단어 표현을 향상합니다. 교차 모달 예측 모델에서 얻은 공유 마스크를 활용하여 텍스트가 아닌 공유 기능에 집중할 수 있는 마스크 교차 모달 네트워크를 제안합니다.

텍스트-스피치, 텍스트-비전에서 주의 계산을 하고, 마스크를 이용한 점 곱셈으로 단어 표현력을 높였다. 그런 다음 계산된 3개를 어텐션으로 접합하고 융합하여 최종적으로 공유 표현을 얻습니다.

개인 모듈: 모델이 텍스트가 아닌 양식에 포함된 고유한 정보를 캡처할 수 있도록 합니다.

활성화 함수는 계산에 사용되지 않고 직접 선형 계산되며 점수 계산시 합계도 합산되며 내적은 없습니다.

회귀 계층: ReLU 활성화 기능이 있는 2계층 네트워크 구현입니다.

요약하다:

이 두 가지 의미 체계를 구별하기 위해 교차 모달 예측 작업을 설계하고 결과를 공유 및 개인 마스크로 기록합니다. 또한 공유 모듈과 개인 모듈을 활용하여 텍스트 기능과 두 가지 비텍스트 기능을 융합하는 회귀 모델을 제안합니다.

한 가지 유형의 정보는 공유 의미론이며, 이 유형의 정보를 사용하면 텍스트의 해당 의미론을 강화하여 모델을 더욱 강력하게 만들 수 있습니다. 또 다른 유형의 정보는 모델 예측을 더 정확하게 만들기 위해 텍스트 의미를 보완하는 데 사용되는 개인 의미론입니다.

실험 결과는 공유 비텍스트 의미론과 개인 비텍스트 의미론을 구별하고 텍스트 의미론과 두 비텍스트 의미론 간의 상호 작용을 명시적으로 모델링하는 것이 각 비텍스트 기능을 전체 상태 감정 분석으로 처리하는 것보다 다중 양식에 더 유익하다는 것을 보여줍니다. 분석은 회귀 모델이 더 나은 교차 모달 예측 모델에서 더 많은 이점을 얻을 수 있음을 보여 주며 교차 모달 예측 프로세스는 유용한 감독 신호를 생성하기 위해 레이블이 지정되지 않은 데이터만 사용하면 됨을 보여줍니다.

추천

출처blog.csdn.net/qq_41458274/article/details/129492212