[참고] 논문이주의를 요약 :주의의 생각의주의 에센스 + 하드 / 소프트 / 글로벌 / 로컬 양식을

주의 요약 II :

종이를 포함 :

  1. 보기, 참석 및주기 : 신경 이미지 캡션 세대 비주얼 Attentio (用 了 하드 \ 부드러운주의주의)와
  2. 효과는주의 기반 신경 기계 번역 (提出 了 글로벌 \ 지역주의)에 접근

이 문서 참조 기사 :

주의 - 비스는
다섯 개주의 모델과 그 응용 프로그램을 이해했다
의 관심 모델 접근 방법의 개요
--global주의와 지역주의를 읽고주의의 메커니즘을
회사 무료주의 / 지역주의하세요

이 문서 요약

  1. 주의 메커니즘 핵심 아이디어
  2. 각주의 메커니즘 (하드 \ 소프트 \ 글로벌 \ 지역주의를) 요약
  3. 기타주의 관련

1 개주의 본질적 사상 메커니즘

필수 개념, 참조 : 이 기사를 ,이 문서는 또한 자기 관심 말했다.
짧은 대답, 그것은 동일한 기계 번역 키 - 값의 관심 (쿼리, 키, 값)입니다.
PS : 기본적인 아이디어의 응용 프로그램에서주의 NMT 메커니즘은 용지이 요약 참조 Attentin 요약을

관심이 모든 종류의

다른 관심에 대해 말하기 :

  1. 하드주의
  2. 소프트 관심
  3. gloabal 관심
  4. 지역주의
  5. 자기주의 : 대상 = 소스 -> 멀티 헤드주의 - (주의 방전 요약 C)

2.1 하드주의

종이 : 쇼, 참석 및 알려 :. 신경 이미지 캡션 생성을 시각적주의와
하드주의 구조
노트 출처 : 모델 접근주의의 요약

모든 구성 요소를 유지하는 부드러운주의 하드주의 구성 요소 선택 전략의 일부입니다, 가중된다. 하드 관심이 부분에 대해 우려됩니다.
확산에 그 후 훈련에 부드러운 관심.

하드주의的特点:
하드주의 모델이 아닌 미분과 같은 기차에 분산 감소 또는 강화 학습과 같은 더 복잡한 기술을 요구한다

특정

CNN (VGG 망)을 사용하여 인코더 모델은 L 차원 벡터를 추출하는 단계 D 이미지를 AI, I = 1,2, ... L 각 벡터는 화상 정보의 부분을 나타낸다.
디코더는 LSTM가 입력 당 시간 단계 t의 세 부분으로 구성되어있다 : ZT, HT-1, YT -1. 상기 식에서 ZT 및 αti에서 얻은 인공 지능을.
주의 모델 F에 의해 αti AT & T가 계산 될 수있다.
F 본원 ATT 된 다층 퍼셉트론 :
fattention
그것은 ZT를 산출 할 수 ZT
F주의 모델 상기 ATT는 확률 주목 결정적주의 : 두 가지 방법으로 얻는다.

2.1.2 확률 "하드"주의

명세서 t는 관심 포커스 위치 개수 복호화의 시간 t 시점에서의 관심의 위치에주의를 I, STI, 난 1,2- = 여부를 나타내는 STI ... L은 [ST1, ST2, ... STL]를 한 핫 부호화 인 , 연습의주의 시간 초점 위치는 하드의 원천입니다 .
A = 따른 모델 (A1, A2, ... 앨라배마) (Y1이, ..., yC 명명)는 시퀀스 y를 생성 s가 = {S1, S2, ... SC에서 어디 } 시간축상에서 키 포커스 시퀀스는 L ^ C 이론적 가.

PS : 깊은 학습의 생각 : 연구 목적 함수는 다음 목적 함수의 기울기 매개 변수를 연구한다.

목적 함수로 유명한 젠슨 불평등을 사용 (최대화적인 log P (Y | A)), (명시 적 S가 없기 때문에), 변환을 할 수있는 목적 함수는 목적 함수의 하한 얻기 위해,

다음적인 log P (Y | A) 대신 원래 목적 함수의 구배 계산 모델 파라미터, W 후 몬테 카를로 샘플링 방법의 수행.
강화 학습에 관련된 세부 사항이 있습니다.

2.1.3 결정적 "소프트"주의

ZT 미분 및 αti 미분의 ZT의 목적 함수를 사용할 연쇄 규칙에 따라 때문에 전체적인 모델은, 권리 LSTM 중량 αti이 이유는 매우 간단하고, 미분된다 목적 함수 목적 함수 (즉, 부드럽고 미분이고 결정적주의 하에서 αti 목적 함수는 미분)이므로 종단 표준 역 전파를 이용하여 사소한 학습.

하드 주목 내부에서, 각각의 모델 시간 t의 시퀀스 [ST1은 ... STL는, 나머지는 모두 0이고, 단 초점 위치하는 시간을 1 취하고, 위치 모두에 각각 연질 관심 돌볼 것 다른 위치에 딱 맞는 무게가 다릅니다. ZT는 AI의 가중 합이다 :

파인 : ,

LSTM의 HT-1, 특정 중력 YT-1에 대해 컨텍스트 벡터를 조정하는데 사용.

2.1.4 교육 과정

기차에 SGD (확률 그라데이션 하강)를 사용하여주의 모델의 두 종류.


2.2 글로벌 / 지역주의 논문

论文 : 효과적인는주의 기반 신경 기계 번역에 접근

참고 Notes에서 :

  1. --global주의와 지역주의를 읽는주의 메커니즘
  2. 글로벌주의 / 지역주의

논문 계산 컨텍스트 벡터 :

시간 t ->은 t -> C의 t -> 시간 ~ t

세계주의

세계주의

모든 숨겨진 상태 인코더가 생성 될 때 계산 컨텍스트 벡터 CT 글로벌주의 간주됩니다.

요약주의주의의 관점에서 세계의 관심은 비슷하지만 간단하다, 볼 수 있습니다. 둘 사이의 차이를 참조 할 수 이 문서 , 즉도 참고 :
그림 삽입 설명 여기])

모든 숨겨진 상태 HT가 타겟 숨겨진 시간 t 디코더 지칭 인코더 H이다 ~ S , S = 1, 2, ..., N-. 이 호출됩니다 : 주의력 숨겨진 상태 .

모든 시간 동안 ~ S , 중량 T (S)는, 가변 길이 배향 벡터는 길이가 시계열의 인코더 부분의 길이와 동일하다. 전류 비교함으로써 숨겨진 디코더 층 H 상태 TH 인코더 숨겨진 층 STATUS 각각 ~ S가 얻어 :

T (S)는 디코더 얻어진 상태 비교 인코더 상태이다.
: 점수는 용지가 세 개의 다양한 계산 방법 (기사라는 정렬 기능) 제공, 콘텐츠 기반 기능입니다

더 나은 세계주의의 점, 지역주의보다 일반 : 한을.

다른 유일한 H T 점수의 모든 상기 방법 T 워싱턴을 얻었다 (S)이 가중치 행렬에 통합되어, 계산 될 수있는 T :

한 쌍의 T는 가중 평균 연산 (H 만드는 ~ S 콘텍스트 벡터 C 얻을 수있는 가중 가산) T를 , 그리고 후속 단계로 진행

도 세계적인 주목 과정 :

글로벌 주목 과정

지역주의

각 디코더 필요한 상태의 계산에주의 글로벌 모든 인코더 입력, 계산의 더 큰 양에 집중한다.
지역주의가 하드 관심과 부드러운주의 (장점을 혼합)의 혼합물로 간주 될 수 있습니다, 때문에 계산 복잡도의 세계주의, 소프트 관심보다 낮은, 지역주의 거의 모든 곳에서, 미분 하드주의는 다른, 쉬운 훈련합니다.
지역주의

로컬주의 작은 창 (소스 초점 위치마다 작은 부분)의 계산 비용을 줄일 수있는 선택적 콘텍스트의 메커니즘에 초점을 맞추고있다.

이 모델에서, 각각의 시간 t 어휘 모델의 대상이 제 위치에 정렬 (정렬 위치) P를 발생시킨다 t를 .
컨텍스트 벡터 C T 은닉층 산출되는 상태 세트 포인트의 부호화 장치는, 은닉층 인코더 [P 창을 포함하는 T -D, P T + D]의 사이즈 D는 실험적으로 선택된다.

C이 모델 T는 다음과 같이 요약 형성은 다른 글로벌 LOCATION VS .

P 돌아 가기 지역주의, T는 소스 위치 지수, 모델의 매개 변수로 이해할 수있을 것이다주의의 초점이다. P T는 이 개 계산 프로그램을 계산 :

  • 단조 alingnment (로컬 m)

    집합 P T 소스 시퀀스와 실질적으로 일정하게 정렬 된 표적 서열은 그 배향 벡터 가정 = T, T는 로서 정의 될 수있다 :

  • 예측 배향 (로컬 P)

    모델 대신에 소스 및 대상 시퀀스 단조 서열 정렬 가정으로, 정렬 위치를 예측한다.

    W P- 형 및 V ρ- BE 모델 파라미터 교육을 통해 위치를 예측한다. S는 소스 문장 길이,이 계산식 P이고 T ∈ [0, S].
    지지체 (P)를 위해 t 정렬 지점 근방 전세계 거의 P 구비 t 로 그 배향 가중치 αT 있도록 발 표현 될 수 있고, 가우시안 분포 :

    여기 배향 함수 같은 정렬 기능과 글로벌, 그것보다 중앙 PT로부터 알 수있는 원격 위치에서, 가중치에 대응하는 위치에 소스 숨겨진 상태는 더 심각 압축한다.

얻어진 C T의 시간이 이후에 계산된다 ~ T의 벡터 C의 접속 층 문맥, 방법 T 과 시간 T H 통합 ~ T :
H ~ T = TANH (Wc에 여기서 C T , 시간 T ])
H ~ T는 주목이다 벡터, 예측 된 출력 벡터는 다음 식 워드 분포에 의해 발생하는 확률 :

도 지역주의 과정 :
그림 삽입 설명 여기

지역주의 대 2.2.1 글로벌

따라서, 글로벌 / 지역 구별 이있다 :

  • 전 배향이 벡터 T의 입력 시퀀스의 길이 부호화 부에 따라 가변 사이즈;
  • 컨텍스트 벡터 T의 크기를 고정하는 T ∈R 2D + 1이다. ;

세계주의와 지역주의의 장점과 단점, 좀 더 때문에 글로벌의 연습 :

  • 인코더, 긴 계산의 양을하지 않고 감소하지 않는 지역주의
  • 위치 벡터 P T의 예측은 직접 지역주의의 정확도에 영향을 미칠하지 매우 정확

2.2.2 입력 급지 접근

접근 방식을 inputfeeding : 주의력 벡터 시간 ~ t이 다음 단계에 입력으로 공급하는 것은 과거의 정렬 의사 결정 사항에 대한 모델을 알립니다. 이것의 효과는 두 가지이다 :

  1. 이전 정렬 선택을 충분히 인식 모델을
  2. 우리는 수평 및 수직에 걸쳐 매우 깊은 네트워크를 만들
    입력 급전 방식

2.2.3 본 논문은 사용의 기술적 인 관점을 요약

  • 글로벌 \ 지역주의,
  • 입력 급전 방식
  • 더 나은 정렬 기능

2.2.4 종이 실현 팁

개념 및 기술에 관련된 시간의 실현 :
프로그레시브 층 이어서, 상기 제 1 기반 모델로서, + 역방향, + 강하, + 세계적인 관심 + 피드 입력은 + UNK 교체 하고 점수 개선 정도 본다.
역 소스 문장을 반대하고,
같은에서와 위의 공지 기술 : 소스는 반전 , 드롭 아웃 , unknowed 교체 기법 .
에 의해 통합 다양한 설정을, 같은 8 개 가지 모델, 같은 관심과 같은 다른 방법을 사용하여 드롭 아웃의 사용하지 않고

이러한 각 언어 가기 50K 복용로서 어휘 크기,
사용되는 미지의 단어 <unk>의 위치에
채우기, 예컨대 그 때마다 정규화 구배 재배 율화된다 범위의 초기 설계 파라미터 [-0.1, 0.1]에서와 같이 LSTM 층에 문장 규범 5를 초과한다.

교육 방법 : SGD
설계 하이퍼 파라미터 :
LSTM 레이어, 같은 크기 워드 묻어, 획기적인 번호, 미니 배치 크기가 같은 128로, 얼마나 많은 각 100cells, 단위의 수와
같은 일의 시작과 학습 속도가 변경 될 수 있습니다, 각각의 다음과 같은 0.2 강하 반감 에포크 이후, 5pochs
8epochs 학습 속도를 절반으로 한 후뿐만 아니라, 드롭 아웃을 시작 12pochs

실험 분석 :

  • 봐는 학습 곡선을 감소
  • 긴 문장의 효과
  • 주의력 구조
  • 정렬 품질

다른 3

3.1주의 디자인

  • 위치 기반 주목

    위치 기반, 그 의미, 여기에 주목 즉주의 벡터 자체 안녕하세요이며, 관심의 다른 추가 개체입니다.
    SI = F (HI) = 활성 (WThi + b)

  • 일반적주의 (공통되지 않음)

  • 연결 기반의주의

    연결 기반의 의미는 여기에 관심을 다른 개체에 단순히 더 많은 관심입니다.
    그리고 f를 HT 안녕과의 상관 함수를 측정하도록 설계된다.
    SI = F (HI, HT) = vTactivation (W1hi W2ht + + b)

3.2 확장 주목

K2 문서의 문장, 단어로 구성되는 각 문장에 의해 K1 (각 문장의 크기 K1).

첫번째 층 : 관심의 단어 수준은
각 문장 k1k1 단어를 갖고, 대응하는 벡터가 각 문장의 표시 stisti위한 발현 벡터의 결과, 상기 제 장 한 방식을 사용 k1k1 Wiwi있다.
두 번째 계층 : 관심의 문장 수준의
첫 번째 레이어의 관심에 의해, 우리는 얻을 수 k2k2 stisti, 재사용 방법의 두 번째 장에서는 발현 벡터의 결과로, 언급 한 각 문서는 물론, 각 stisti를 얻을 수 있습니다 디디 체중 αiαi에 해당하는 가중치는, 다음이 얻을, 특정 작업을 분석 할 수 있습니다.

게시 63 개 원래 기사 · 원 찬양 13 ·은 40000 +를 볼

추천

출처blog.csdn.net/changreal/article/details/102518702