[Примечания] Обобщены два Внимание: Внимание суть мысли + Hard / Soft / Global / Local форму Внимание

Резюме Внимание II:

Привлечение бумаги:

  1. Показать, Посещайте и сказать: Neural Image Caption поколение с визуальной Attentio (用 了 трудно \ мягкое внимание внимание)
  2. Эффективные подходы к Вниманию на основе нейронного машинного перевода (提出 了 глобальное \ локального внимания)

В данной статье Ссылка статьи:

Внимание - бис
было пять Внимание понять модель и ее применение
внимание модели подход Резюме
механизмов Внимание чтения --global внимание и внимание местного
, Ltd. Бесплатно Join Внимание / Local Внимание

Это резюме статьи

  1. внимание механизмы Основная идея
  2. Обобщить каждое внимание механизмы (жесткий \ мягкого \ Global \ локальное внимание)
  3. Другое внимание, связанное с

1 Внимание, по существу, идеологический механизм

Основная идея, см: эта статья , в этой статье также отметила , что само-внимание.
Короткий ответ, это внимание (запрос, ключ, значение) в машинный перевод ключ-значение является то же самое.
PS: Внимание NMT механизм в применении основной идеи см Обобщены: Attentin сводного

2 все виды внимания

Говоря о других внимании:

  1. трудно внимание
  2. мягкое внимание
  3. gloabal внимание
  4. местное внимание
  5. самостоятельно внимание: цель = источник -> Multi-голова внимание - (Внимание резюме разряда с)

2,1 трудно внимание

Бумага: Шоу, Посещайте и Скажите :. Neural Image Caption поколение с зрительным вниманием
трудно структура внимания
Примечания Источника: Обзор модели подхода внимания

мягкое внимание , чтобы все компоненты взвешиваются, трудно внимание , является частью стратегии , выбранной составляющей. трудно внимание обеспокоенные части.
мягкое внимание к обучению после этого распространения.

трудно внимание的特点:
тяжелая модель внимания недифференцируема и требует более сложных методов , таких как уменьшение дисперсии или обучение с подкреплением на поезд

удельный

Модель датчика с помощью CNN (VGG сети), извлекает L-мерные векторы аи D изображения, I = 1,2, ... L, каждый вектор представляет собой часть информации об изображении.
декодер является LSTM, т временного шага на каждый вход состоит из трех частей: ZT, ХТ-1, уг -1. В котором ZT и А. И. получены из & alpha; Ti.
по & alpha; Ti внимание модели F АТТ рассчитывается.
F в данном Att представляет собой многослойный персептрон:
fattention
она может быть рассчитана ZT , ZT
где F Внимание Модель Att получения Есть два способа: стохастическое внимание и детерминированное внимание.

2.1.2 Стохастический «Hard» Внимание

й т это время фокус внимания номер позиции декодера, STI , указывающий внимание положение интереса в момент времени T I, STI, I = 1,2, ... L, [ST1, ST2, ... СТЛ] является одной горячей кодирование , индикатор внимания позиция время фокусировки на практике, является источником трудно .
Модель в соответствии с а = (а1, а2, ... Аl) генерирует последовательность у (у1, ..., уС) , с которой = {s1, s2, ... СБНО } является ключевой последовательностью фокуса на оси времени, теоретически L ^ C а.

PS: глубокое изучение мысль: исследование целевой функции, а затем изучить объективные параметры функции градиента.

Используется знаменитое неравенство Йенсена к целевой функции (разворачивания LogP (у | а)), целевая функция для выполнения преобразования (потому что нет никакого явного s), чтобы получить нижнюю границу целевой функции,

то LogP (у | а) вместо исходных объективных параметров функции градиента расчетной модели W, а затем методом Монте - Карло Отбор проб методы делают с.
Есть детали , участвующие в обучении с подкреплением.

2.1.3 Детерминированные «Soft» Внимание

Вся модель гладкая и дифференцируема (то есть целевая функция, которая является целевой функцией правого веса LSTM & alpha; Ti дифференцируема, причина очень проста, так как целевая функция ZT дифференцируема, и ZT из & alpha; Ti дифференцируема, по правилу цепи доступной & alpha; Ti целевая функция дифференцируема) в детерминированной внимания, поэтому изучение впритык тривиальна с помощью стандартного обратного распространения.

В жестком внимании внутри, последовательность каждого временная модели т [st1, ... СТЛА] занимает только 1, все остальное 0, время, которое является положением фокуса, и будет заботиться о каждом мягком внимании на все позиции, только правильный вес в разных местах различны. ZT представляет собой взвешенную сумму д.в.:

Штраф: ,

используется для настройки контекста вектора по отношению к LSTM HT-1 и удельный вес уг-1.

Процесс обучения 2.1.4

Два вида моделей внимания с использованием SGD (стохастический градиентный спуск) на поезд.


2.2 Глобальные / Локальные документы Внимание

论文: Эффективные подходы к Вниманию на основе нейронного машинного перевода

Эталонные Записки из:

  1. Внимание Механизмы чтения --global внимания и местное внимания
  2. Global Внимание / Local Внимание

Papers контекст вычисления векторов:

ч т -> а т -> с т -> ч ~ т

Global Внимание

глобальное внимание

глобальное внимание в контексте вычисления вектора каратов будет считаться, когда все скрытое состояние датчика генерируется.

Можно видеть, глобальное внимание в отношении Резюме Внимания Внимания похоже , но проще. Разница между ними, может относиться к этой статье , то есть на фиг Примечание:
Here Вставка рисунка Описание])

Приглашение декодера целевого скрыто время т все скрытые состояний HT, кодер представляет собой Н ~ S , S = 1,2, ... n - . Это называется: внимани скрытом состоянии .

Для любого H ~ S , вес Т (S) , является переменным вектором выравнивания длины, длиной , равной длиной кодера части временного ряда. Путь сравнения текущего скрытого состояния слоя декодера Н Т и каждый из кодеров скрытого слоя STATUS Н ~ S , полученный:

Т (S) представляет собой декодер , и состо ние кодера государственного сравнения полученного.
оценка является функцией на основе содержимого, бумага дает три различные методы расчета (статья называется функция выравнивания):

в которой: усеивают глобального внимания лучше, генерал местного внимания лучше.

Другой только Н Т бороздки все пути Т (S) интегрированы в весовой матрицы, чтобы получить Wa, может быть рассчитали Т :

Пару Т , чтобы сделать взвешенное среднее операции (Н ~ S взвешенного суммирования) может быть получен контекстом вектора С Т , и перейти к следующей стадии

Фигура процесс глобального внимания:

Процесс глобального внимания

Местное Внимание

глобальное внимание при расчете состояния каждого декодер необходимости сосредоточиться на все входной датчик, в количестве , больший расчет.
местное внимание можно рассматривать как смесь твердого внимания и мягкого внимание (смешивания преимущества), из - за свою вычислительную сложность ниже , чем глобальное внимание, мягкое внимание, и отличаются от жесткого внимания, местное внимание дифференцируемо почти всюду, легко поддается дрессировке.
местное внимание

местное внимание сосредоточено на механизме избирательного контекста, в котором небольшое окно (фокус положение источника каждый раз, когда только небольшая часть), что позволяет уменьшить вычислительные затраты.

В этой модели, каждый из них является мишенью для модели времени т словарного генерирует первый выровненную позицию (в выровненном положении) P т .
Контекст вектор С Т кодером в состоянии заданного значения вычисленного скрытый слой, скрытый слой содержит кодер окна [Р Т Д, Р Т + D], размер D выбран эмпирический.

Эти модели С Т сформированы разные, как представлено ниже глобального размещения ВС .

Назад местное внимание, где P T является индексом положение источника, как будет понятно Внимание внимание как параметры модели. P T вычислили два расчетных программ:

  • Монотонный alingnment (местные-м)

    Набор Р Т = Т, предполагая , что последовательность источника и последовательность - мишень выравнены , по существу , монотонно, то выравнивание векторов А Т может быть определен как:

  • Интеллектуальное выравнивание (локальный р)

    Модель предсказывает положение выравнивания, вместо того , чтобы предполагать , что последовательность исходной и целевой выравнивание монотонной последовательности.

    Вт р- и v р- параметров быть примерными , чтобы предсказать положение путем обучения. S длина исходного предложения, то этот расчет, Р Т ∈ [0, S].
    Для поддержки р т точка выравнивания вблизи предусмотрен р вокруг т гауссово распределение, так что вес выравнивания αt (s) может быть выражена как:

    здесь та же функция выравнивания и глобальная в функции выравнивания, можно видеть из центра пта дополнительного удаленность, его источник скрыт состояние в положении , соответствующем весов будет сжиматься до более тяжелой.

Получено С Т ч вычисляется после ~ T метода, с помощью контекста соединительного слоя вектора С Т и Н Т , интегрированной в час ~ Т :
ч ~ Т = TANH (Wc из [С Т ; ч Т ])
ч ~ Т является внимание вектор, вероятность того, что предсказанный выходной вектор , порожденный следующее распределение формулы слова:

Фигура местный процесс внимания:
Here Вставка рисунка Описание

2.2.1 Глобальная против местного Attention

Таким образом, глобальное / локальное различие заключается в следующем:

  • Бывший вектор Расстановка Т размер переменной, в зависимости от части датчика длины входной последовательности;
  • Вектор , который контекст Т размер фиксирован, А Т ∈R 2D + 1. ;

Global Внимание и местные Внимание преимущества и недостатки, практика Global с немного больше, потому что:

  • Местное внимание, когда датчик не долго, количество вычислений и не снижает
  • вектор положения Р Т предсказание не очень точно, непосредственно влияет на точность местного Внимания

2.2.2 Подход ввода кормления

inputfeeding подхода: вниманите векторы ч ~ т подаются в качестве входных данных для последующих шагов по времени, чтобы сообщить о модели прошлых решений выравнивания. Эффект этого двояка:

  1. сделать модель полностью осведомлены о предыдущем выборе выравнивания
  2. мы создаем очень глубокую сеть, охватывающую как по горизонтали, так и по вертикали
    Подход ввода вскармливание

2.2.3 В настоящем документе кратко технической точки использования:

  • Global \ местное внимание,
  • Подход ввода вскармливание
  • лучше функции выравнивания

2.2.4 Советы по реализации бумаги

Реализация времени , необходимого для концепций и методов:
прогрессивных слоев , таких как модели первого на основе, а затем + обратный + отсев, + глобальное внимание + подача входного сигнала + UNK заменить, а затем посмотреть на степень оценки улучшения.
обратное реверс исходного предложения,
вышеприведенные известные методы, такие , как на: Источник реверса , отсев , unknowed Замена Technique .
путем интеграции различных параметров, таких как 8 различных моделей, таких как внимание , используя различные методы, без использования отсева

Словарь размера, например, принимая каждый язык верхнего 50k,
неизвестное слово , используемое <unk>вместо
предложения для заполнения, LSTM слоев, например, в начальных проектных параметрах [-0.1, 0.1] в диапазоне, нормализованный градиент перемасштабирован всякий раз , когда его норма превышает 5.

Методы обучения: синг
разработан гиперпараметры:
LSTM слои, такие как количество единиц каждого 100cells, сколько измерений слов вложения, номер эпохи, мини-размер партии, такие как 128,
скорость обучения может быть изменена, например, в начале 1 , 5pochs каждой последующей эпохи после уменьшения вдвое отсева , таких как 0,2,
а также отсев начала 12pochs, после того, как 8epochs вдвое сократить скорость обучения

Экспериментальный анализ:

  • Смотри снизился кривой обучения
  • Эффекты длинных предложений
  • внимани архитектуры
  • выравнивание качества

3 другие

Дизайн 3.1 Внимание

  • на основе определения местоположения внимания

    Расположение основе, что означает , что внимание здесь нет других дополнительных объектов интереса, а именно внимание вектор привет сам.
    си = е (привет) = активация (WTHI + Ь)

  • всеобщее внимание (не часто)

  • конкатенации на основе внимания

    Concatenation основе смысл, внимание здесь просто больше внимания на другие объекты.
    И е , который предназначен для измерения корреляционной функции между приветом и ХТАМИ.
    си = е (привет, ХТ) = vTactivation (W1hi + W2ht + Ь)

Расширение 3,2 Внимания

К2 предложение документа, каждое предложение по k1 (k1 размеров каждого предложения) состоит из слова.

Первый слой: слово-уровень внимания
имеет k1k1 слово для каждого предложения, соответствующие векторы имеют k1k1 Wiwi, используя второй главы упомянутого способ, в результате чего в векторе экспрессии для каждого предложения, обозначаемых stisti.
Второй слой: предложение уровня внимания
вниманием первого слоя, мы можем получить k2k2 stisti, повторное использование способ второй главе уже упоминалось, в результате чего в векторе экспрессии Диди каждый документ, конечно, вы можете получить каждый stisti веса , соответствующие веса αiαi, а затем получить их, анализировать конкретную задачу.

Опубликовано 63 оригинальные статьи · вона похвала 13 · просмотров 40000 +

рекомендация

отblog.csdn.net/changreal/article/details/102518702