Резюме Внимание II:

Привлечение бумаги:

Показать, Посещайте и сказать: Neural Image Caption поколение с визуальной Attentio (用了 трудно \ мягкое внимание внимание)

Эффективные подходы к Вниманию на основе нейронного машинного перевода (提出了 глобальное \ локального внимания)

В данной статье Ссылка статьи:

Внимание - бис
было пять Внимание понять модель и ее применение
внимание модели подход Резюме
механизмов Внимание чтения --global внимание и внимание местного
, Ltd. Бесплатно Join Внимание / Local Внимание

Это резюме статьи

внимание механизмы Основная идея
Обобщить каждое внимание механизмы (жесткий \ мягкого \ Global \ локальное внимание)
Другое внимание, связанное с

1 Внимание, по существу, идеологический механизм

Основная идея, см: эта статья , в этой статье также отметила , что само-внимание.
Короткий ответ, это внимание (запрос, ключ, значение) в машинный перевод ключ-значение является то же самое.
PS: Внимание NMT механизм в применении основной идеи см Обобщены: Attentin сводного

2 все виды внимания

Говоря о других внимании:

трудно внимание
мягкое внимание
gloabal внимание
местное внимание
самостоятельно внимание: цель = источник -> Multi-голова внимание - (Внимание резюме разряда с)

2,1 трудно внимание

Бумага: Шоу, Посещайте и Скажите :. Neural Image Caption поколение с зрительным вниманием
трудно структура внимания
Примечания Источника: Обзор модели подхода внимания

мягкое внимание , чтобы все компоненты взвешиваются, трудно внимание , является частью стратегии , выбранной составляющей. трудно внимание обеспокоенные части.
мягкое внимание к обучению после этого распространения.

трудно внимание的特点:
тяжелая модель внимания недифференцируема и требует более сложных методов , таких как уменьшение дисперсии или обучение с подкреплением на поезд

удельный

Модель датчика с помощью CNN (VGG сети), извлекает L-мерные векторы аи D изображения, I = 1,2, ... L, каждый вектор представляет собой часть информации об изображении.
декодер является LSTM, т временного шага на каждый вход состоит из трех частей: ZT, ХТ-1, уг -1. В котором ZT и А. И. получены из & alpha; Ti.
по & alpha; Ti внимание модели F _АТТ рассчитывается.
F в данном _Att представляет собой многослойный персептрон:
fattention
она может быть рассчитана ZT ,
где F Внимание Модель _Att получения Есть два способа: стохастическое внимание и детерминированное внимание.

2.1.2 Стохастический «Hard» Внимание

й т это время фокус внимания номер позиции декодера, STI , указывающий внимание положение интереса в момент времени T I, STI, I = 1,2, ... L, [ST1, ST2, ... СТЛ] является одной горячей кодирование , индикатор внимания позиция время фокусировки на практике, является источником трудно .
Модель в соответствии с а = (а1, а2, ... Аl) генерирует последовательность у (у1, ..., уС) , с которой = {s1, s2, ... СБНО } является ключевой последовательностью фокуса на оси времени, теоретически L ^ C а.

PS: глубокое изучение мысль: исследование целевой функции, а затем изучить объективные параметры функции градиента.

Используется знаменитое неравенство Йенсена к целевой функции (разворачивания LogP (у | а)), целевая функция для выполнения преобразования (потому что нет никакого явного s), чтобы получить нижнюю границу целевой функции,

то LogP (у | а) вместо исходных объективных параметров функции градиента расчетной модели W, а затем методом Монте - Карло Отбор проб методы делают с.
Есть детали , участвующие в обучении с подкреплением.

2.1.3 Детерминированные «Soft» Внимание

Вся модель гладкая и дифференцируема (то есть целевая функция, которая является целевой функцией правого веса LSTM & alpha; Ti дифференцируема, причина очень проста, так как целевая функция ZT дифференцируема, и ZT из & alpha; Ti дифференцируема, по правилу цепи доступной & alpha; Ti целевая функция дифференцируема) в детерминированной внимания, поэтому изучение впритык тривиальна с помощью стандартного обратного распространения.

В жестком внимании внутри, последовательность каждого временная модели т [st1, ... СТЛА] занимает только 1, все остальное 0, время, которое является положением фокуса, и будет заботиться о каждом мягком внимании на все позиции, только правильный вес в разных местах различны. ZT представляет собой взвешенную сумму д.в.:

Штраф: ,

используется для настройки контекста вектора по отношению к LSTM HT-1 и удельный вес уг-1.

Процесс обучения 2.1.4

Два вида моделей внимания с использованием SGD (стохастический градиентный спуск) на поезд.

2.2 Глобальные / Локальные документы Внимание

论文: Эффективные подходы к Вниманию на основе нейронного машинного перевода

Эталонные Записки из:

Внимание Механизмы чтения --global внимания и местное внимания

Global Внимание / Local Внимание

Papers контекст вычисления векторов:

ч _т -> а _т -> с _т -> ч ^~_т

Global Внимание

глобальное внимание

глобальное внимание в контексте вычисления вектора каратов будет считаться, когда все скрытое состояние датчика генерируется.

Можно видеть, глобальное внимание в отношении Резюме Внимания Внимания похоже , но проще. Разница между ними, может относиться к этой статье , то есть на фиг Примечание:
])

Приглашение декодера целевого скрыто время т все скрытые состояний HT, кодер представляет собой Н ^~_S , S = 1,2, ... n - . Это называется: внимани скрытом состоянии .

Для любого H ^~_S , вес _Т (S) , является переменным вектором выравнивания длины, длиной , равной длиной кодера части временного ряда. Путь сравнения текущего скрытого состояния слоя декодера Н _Т и каждый из кодеров скрытого слоя STATUS Н ^~_S , полученный:

_Т (S) представляет собой декодер , и состо ние кодера государственного сравнения полученного.
оценка является функцией на основе содержимого, бумага дает три различные методы расчета (статья называется функция выравнивания):

в которой: усеивают глобального внимания лучше, генерал местного внимания лучше.

Другой только Н _Т бороздки все пути _Т (S) интегрированы в весовой матрицы, чтобы получить Wa, может быть рассчитали _Т :

Пару _Т , чтобы сделать взвешенное среднее операции (Н ^~_S взвешенного суммирования) может быть получен контекстом вектора С _Т , и перейти к следующей стадии

Фигура процесс глобального внимания:

Процесс глобального внимания

Местное Внимание

глобальное внимание при расчете состояния каждого декодер необходимости сосредоточиться на все входной датчик, в количестве , больший расчет.
местное внимание можно рассматривать как смесь твердого внимания и мягкого внимание (смешивания преимущества), из - за свою вычислительную сложность ниже , чем глобальное внимание, мягкое внимание, и отличаются от жесткого внимания, местное внимание дифференцируемо почти всюду, легко поддается дрессировке.

местное внимание сосредоточено на механизме избирательного контекста, в котором небольшое окно (фокус положение источника каждый раз, когда только небольшая часть), что позволяет уменьшить вычислительные затраты.

В этой модели, каждый из них является мишенью для модели времени т словарного генерирует первый выровненную позицию (в выровненном положении) P _т .
Контекст вектор С _Т кодером в состоянии заданного значения вычисленного скрытый слой, скрытый слой содержит кодер окна [Р _Т Д, Р _Т + D], размер D выбран эмпирический.

Эти модели С _Т сформированы разные, как представлено ниже глобального размещения ВС .

Назад местное внимание, где P _T является индексом положение источника, как будет понятно Внимание внимание как параметры модели. P _T вычислили два расчетных программ:

Монотонный alingnment (местные-м)

Набор Р _Т = Т, предполагая , что последовательность источника и последовательность - мишень выравнены , по существу , монотонно, то выравнивание векторов А _Т может быть определен как:
Интеллектуальное выравнивание (локальный р)

Модель предсказывает положение выравнивания, вместо того , чтобы предполагать , что последовательность исходной и целевой выравнивание монотонной последовательности.

Вт _р- и v _р- параметров быть примерными , чтобы предсказать положение путем обучения. S длина исходного предложения, то этот расчет, Р _Т ∈ [0, S].
Для поддержки р _т точка выравнивания вблизи предусмотрен р вокруг _т гауссово распределение, так что вес выравнивания αt (s) может быть выражена как:

здесь та же функция выравнивания и глобальная в функции выравнивания, можно видеть из центра пта дополнительного удаленность, его источник скрыт состояние в положении , соответствующем весов будет сжиматься до более тяжелой.

Получено С _Т ч вычисляется после ^~_T метода, с помощью контекста соединительного слоя вектора С _Т и Н _Т , интегрированной в час ^~_Т :
ч ^~_Т = TANH (Wc из [С _Т ; ч _Т ])
ч ^~_Т является внимание вектор, вероятность того, что предсказанный выходной вектор , порожденный следующее распределение формулы слова:

Фигура местный процесс внимания:
Here Вставка рисунка Описание

2.2.1 Глобальная против местного Attention

Таким образом, глобальное / локальное различие заключается в следующем:

Бывший вектор Расстановка _Т размер переменной, в зависимости от части датчика длины входной последовательности;
Вектор , который контекст _Т размер фиксирован, А _Т ∈R ^{2D + 1.} ;

Global Внимание и местные Внимание преимущества и недостатки, практика Global с немного больше, потому что:

Местное внимание, когда датчик не долго, количество вычислений и не снижает
вектор положения Р _Т предсказание не очень точно, непосредственно влияет на точность местного Внимания

2.2.2 Подход ввода кормления

inputfeeding подхода: вниманите векторы ч ~ т подаются в качестве входных данных для последующих шагов по времени, чтобы сообщить о модели прошлых решений выравнивания. Эффект этого двояка:

сделать модель полностью осведомлены о предыдущем выборе выравнивания
мы создаем очень глубокую сеть, охватывающую как по горизонтали, так и по вертикали

2.2.3 В настоящем документе кратко технической точки использования:

Global \ местное внимание,
Подход ввода вскармливание
лучше функции выравнивания

2.2.4 Советы по реализации бумаги

Реализация времени , необходимого для концепций и методов:
прогрессивных слоев , таких как модели первого на основе, а затем + обратный + отсев, + глобальное внимание + подача входного сигнала + UNK заменить, а затем посмотреть на степень оценки улучшения.
обратное реверс исходного предложения,
вышеприведенные известные методы, такие , как на: Источник реверса , отсев , unknowed Замена Technique .
путем интеграции различных параметров, таких как 8 различных моделей, таких как внимание , используя различные методы, без использования отсева

Словарь размера, например, принимая каждый язык верхнего 50k,
неизвестное слово , используемое <unk>вместо
предложения для заполнения, LSTM слоев, например, в начальных проектных параметрах [-0.1, 0.1] в диапазоне, нормализованный градиент перемасштабирован всякий раз , когда его норма превышает 5.

Методы обучения: синг
разработан гиперпараметры:
LSTM слои, такие как количество единиц каждого 100cells, сколько измерений слов вложения, номер эпохи, мини-размер партии, такие как 128,
скорость обучения может быть изменена, например, в начале 1 , 5pochs каждой последующей эпохи после уменьшения вдвое отсева , таких как 0,2,
а также отсев начала 12pochs, после того, как 8epochs вдвое сократить скорость обучения

Экспериментальный анализ:

Смотри снизился кривой обучения
Эффекты длинных предложений
внимани архитектуры
выравнивание качества

3 другие

Дизайн 3.1 Внимание

на основе определения местоположения внимания

Расположение основе, что означает , что внимание здесь нет других дополнительных объектов интереса, а именно внимание вектор привет сам.
си = е (привет) = активация (WTHI + Ь)
всеобщее внимание (не часто)
конкатенации на основе внимания

Concatenation основе смысл, внимание здесь просто больше внимания на другие объекты.
И е , который предназначен для измерения корреляционной функции между приветом и ХТАМИ.
си = е (привет, ХТ) = vTactivation (W1hi + W2ht + Ь)

Расширение 3,2 Внимания

К2 предложение документа, каждое предложение по k1 (k1 размеров каждого предложения) состоит из слова.

Первый слой: слово-уровень внимания
имеет k1k1 слово для каждого предложения, соответствующие векторы имеют k1k1 Wiwi, используя второй главы упомянутого способ, в результате чего в векторе экспрессии для каждого предложения, обозначаемых stisti.
Второй слой: предложение уровня внимания
вниманием первого слоя, мы можем получить k2k2 stisti, повторное использование способ второй главе уже упоминалось, в результате чего в векторе экспрессии Диди каждый документ, конечно, вы можете получить каждый stisti веса , соответствующие веса αiαi, а затем получить их, анализировать конкретную задачу.

changreal

Опубликовано 63 оригинальные статьи · вона похвала 13 · просмотров 40000 +

Частные письма относится

[Примечания] Обобщены два Внимание: Внимание суть мысли + Hard / Soft / Global / Local форму Внимание