10ロジスティック回帰

10ロジスティック回帰

分類アルゴリズム - ロジスティック回帰

シナリオ(バイナリ)

  • CTR(典型的な2クラス問題点又は全く点を得ることができます)
  • これはスパムであります
  • かどうかの病気
  • 金融詐欺
  • 偽アカウント

ロジスティック回帰は、定義されました

  1. ロジスティック回帰:分類アルゴリズムは、入力として、線形回帰式を用いて、確率によりシグモイド関数を変換します。
  2. シグモイド関数:1 /(1 + E ^ -x)、入力値xは、確率値にリンクされ、(0,1)にマッピング

  3. ロジスティック回帰式

線形回帰入力 - >シグモイド変換 - >分類[0,1]の確率値が、閾値と一般0.5

  1. 機能の最適化のロジスティック回帰損失
  • 線形回帰原理と同じで、それは分類問題で、機能の喪失は、同じではありませんだけで勾配降下によって解決することができます
  • 対数尤度関数の喪失:

Y = 1、目標値、予測値の確率が100%であり、損失が最小値(0に近い)である
注:正例ことを特徴とするデータのどのカテゴリに少量の、1

クラス0は大きい損失、予測されたクラス1の確率、より大きな目標値です。(0良好に属するの予測確率)が
カテゴリに属する唯一の確率を決定し、この確率は、それらが、0であり、次いで、小さな確率(閾値未満)、非1である場合は1を、に属します。

  • 例:(完全な損失関数の損失、より高い精度)

損失関数

平均二乗誤差

  • 最低限、これ以上のローカルあり最低点

対数尤度関数

  • 極小の複数、勾配降下を使用すると、グローバルな最小点が、問題となり得るが、効果があることができます。
  • 改善:
    • ランダム初期化、比較結果の最小数
    • 溶液プロセス、学習レート調整

ロジスティック回帰ケース

良性/悪性の乳房データ

  • 生データをダウンロードします。
    https://archive.ics.uci.edu/ml/machine-learning-databases/

  • 説明データ
    (1)699個のサンプル、11個のデータの合計、検索用語IDの最初の列は、図9に示すように、腫瘍の後に記載されている
    薬に関する特性、最後の腫瘍型を示す数値。
    (2)は、 "?"マークを使用し、16の欠損値が含まれています。

from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, classification_report
from sklearn.externals import joblib
import pandas as pd
import numpy as np


def logistic():
    """
    逻辑回归做二分类癌症预测
    :return: None
    """
    # 1.读取数据
    # 构造列标签名字
    column = ['Sample code number','Clump Thickness', 'Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
    data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data', names=column)
    print(data)

    # 2.缺失值处理
    data = data.replace(to_replace='?', value=np.nan)
    data = data.dropna() # 直接删除nan

    # 3. 进行数据分割
    x_train, x_test, y_train, y_test = train_test_split(data[column[1:10]], data[column[10]], test_size=0.25) # 取特征值,目标值

    # 4.标准化处理 (分类问题,目标值不做标准化)
    std = StandardScaler()
    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)

    # 5. 逻辑回归预测
    lg = LogisticRegression(C=1.0)
    lg.fit(x_train, y_train) # 训练lg模型
    print(lg.coef_)
    y_predict = lg.predict(x_test)
    print('准确率:', lg.score(x_test, y_test))
    print('召回率:',classification_report(y_test, y_predict, labels=[2,4], target_names=['良性','恶性']))

if __name__ == '__main__':
    logistic()

ロジスティック回帰概要

  1. 应用:广告点击率预测,是否患病,金融诈骗,是否为虚假账号 (带有概率的二分类问题)
  2. 优点:适合需要得到一个分类概率的场景,简单,速度快
  3. 缺点:不方便处理多分类问题 1 vs 1, 1 vs

生成模型与判别模型比较

  • 有没有先验概率 ( P(C) ) 需不需要总结历史数据

おすすめ

転載: www.cnblogs.com/hp-lake/p/11979505.html