Машинное обучение: логистическая регрессия и максимальная энтропия

I. Обзор

(1) Модель максимальной энтропии

Модель максимальной энтропии — это критерий обучения вероятностных моделей, который можно применять к различным вероятностным моделям.

Возьмем в качестве примера модель условного распределения вероятностей:

Модель:

Это также стратегия оптимизации, определяющая максимальное Pw и получающая параметр w 

Стратегия:

Задача оптимизации с ограничениями:

Задача оптимизации в двойственной форме.

В той же модели найдите максимальное значение Pw, чтобы получить параметр w.

 (2) Логистическая регрессия

Модель биномиальной логистической регрессии:

Модель мультиномиальной логистической регрессии: 

оптимизация:

Решите максимальное оценочное значение следующей функции правдоподобия, чтобы получить параметр w

С w модель используется для расчета значений вероятности двух категорий соответственно, и получаются результаты классификации. 

2. Основное содержание

(1) Максимальная энтропия

Принцип максимальной энтропии является критерием вероятностного обучения модели. Принцип максимальной энтропии полагает, что при обучении вероятностной модели среди всех возможных вероятностных моделей (распределений) модель с наибольшей энтропией является лучшей моделью. Ограничения обычно используются для определения набора вероятностных моделей, поэтому принцип максимальной энтропии можно также выразить как выбор модели с наибольшей энтропией среди множества моделей, удовлетворяющих ограничениям.

//================== Дополнение =====================//

Интуитивно принцип максимальной энтропии предполагает, что выбираемая вероятностная модель должна сначала удовлетворять существующим фактам, то есть ограничениям. При отсутствии дополнительной информации эти неопределенные части устанавливают ее как « равновероятную » , то есть вероятность равна, поэтому энтропия является наибольшей . Принцип максимальной энтропии выражает равную возможность, то есть равную вероятность, через максимизацию энтропии. « Равная вероятность » не проста в использовании, но энтропия — это числовой показатель, который можно оптимизировать. 

Следовательно, энтропия является количественным показателем для измерения вероятности равенства.Чем больше энтропия, тем больше беспорядок и тем больше информации он содержит.

На рис. 6.2 представлена ​​геометрическая интерпретация вероятностного выбора модели с использованием принципа максимальной энтропии. Набор вероятностных моделей P может быть представлен симплексом в евклидовом пространстве, таким как треугольник ( 2 - симплекс ) на левом рисунке. Точка представляет собой модель, а весь симплекс представляет собой набор моделей. Прямая линия на правом рисунке соответствует ограничению, а пересечение линий соответствует набору моделей, удовлетворяющих всем ограничениям. В общем, таких моделей еще бесконечно много. Цель обучения состоит в выборе оптимальной модели из возможного набора моделей, а принцип максимальной энтропии дает критерий выбора оптимальной модели.

//=====================================// 

Принцип максимальной энтропии может быть применен к различным вероятностным моделям.Здесь мы берем модель условной вероятности в качестве примера для объяснения процесса решения.

 Ограничения:

Разница между моделью максимальной энтропии и наивной байесовской моделью состоит в том, что она содержит несколько ограничений.

(1) Ниже вводятся ограничения, которые представлены характеристической функцией f(x,y).

Модель может содержать несколько таких ограничений. 

(2) Постройте еще одно логическое ограничение.

 

Потому что, если закон можно получить из обучающего набора, то есть формула: P(X,Y) = P(Y|X)P(X), поэтому есть приведенное выше уравнение, которое также является одним из ограничений быть удовлетворены.

Среди них P(x) и P(X,Y) — известные результаты, полученные из обучающего набора, а P(Y|X) — результат, который необходимо получить.

По сравнению с наивной байесовской классификацией, она суммирует эмпирическое распределение совместного распределения вероятностей и эмпирическое распределение маргинального распределения вероятностей из набора обучающих данных. Условное распределение вероятностей можно получить , используя формулу P(Y|X) =  . Формула расчета та же, что и выше.

 

Это метод расчета модели без ограничений. Если ограничения включены, используется более общий метод: модель максимальной энтропии.

 

//================ Предварительные знания ==================//

Формула для расчета энтропии:

Формула для расчета условной энтропии: 

//=======================================// 

Создайте стратегию оптимизации:

Теперь, когда у нас есть формула расчета и ограничения приведенной выше условной энтропии, наша цель — найти максимальную энтропию при соблюдении ограничений, поэтому есть:

 Небольшая конверсия имеет:

Решение указанной выше задачи с ограничениями является решением модели максимальной энтропии. 

При решении вышеуказанные задачи с ограничениями могут быть преобразованы в задачи без ограничений.

 

 

Внутренняя проблема минимизации состоит в том, чтобы сначала вычислить частную производную от P(y|x), и результатом будет только w 

 

 

Ф: 

Ф: 

Итак, есть: 

 Значение w, полученное путем его максимизации, является параметром модели. Также получите условную вероятность P(y|x)

(2) Логистическая регрессия

Модель:

Стратегия: 

 

//===================== Дополнение ===================// 

 //======================================///

оптимизация:

Использование оценки максимального правдоподобия

 

 Полиномиальная логистическая регрессия

  • Алгоритм: обычно используемый метод Ньютона, метод градиентного спуска, улучшенный метод итеративного масштабирования.

 

рекомендация

отblog.csdn.net/stephon_100/article/details/125242834
рекомендация