データマイニングのために、データの準備フェーズは、主な機能プロジェクトです。
データおよび特性は、モデル予測の上限を決定し、アルゴリズムはちょうどこの限界に近づい。
グッド機能は、モデルがより簡単かつ正確になりた、簡潔でなければなりません。
構成された機能
1.「一般的な抽出方法
前記テキストデータの抽出
統計的な周波数:言葉ベクトル道のバッグ
特徴画像データを抽出します
RGBピクセル
ユーザー行動の特徴抽出
特徴抽出の概要:
- 非常にターゲットデザイン機能と相関が必要です。
この機能は、予測対象のために有用です
便利な場合は、この機能がどのように重要です
その他の機能で、この機能の情報が重すぎる反映するかどうか
- 特徴は、知識、直感と専門知識のある特定の数学的な領域が必要です
- また、初期特性抽出機能後続の変換処理、及び、モデルアルゴリズムに
- デザインの特徴と抽出が一定の反復検証が非常に時間のかかる作業である必要があり
2.RFM
カスタマー・リレーションシップ(CRM)フィールドには、3人のユーザーは、魔法の指標を描きます:
- 最近の長い(新しさ)間隔たときに、消費者
- 消費頻度(頻度)
- 消費量(通貨)
RFM分析法は五分位法と呼ばれています
次いで、5つのアリコートRFM間隔に個々のカットの数、キューブRFMの組み合わせ
125グリッド
より良い、より良い、FM大きなR小さく
Rは、より大きなので、統一RMFのためのグレード、あるレベルは、より良いです
したがって、ユーザ・レベルの範囲は111から555であります
RFM値:ユーザー・セグメント
111から555まで125基の合計、より多くの、あなたには、いくつかの統合を行うことができます
RFMの値の異なる組み合わせは、ユーザーが差別化戦略を開発するために異なるグループに分けることができます
RFM値:顧客価値と応答は、マーケティングを評価します
第二に、変換特性
1.継続的なプロセス変数無次元
同じ標準スケールに異なる仕様の変換データの規模
目的:
- 無次元特性値が同じ寸法を比較することができるされていないできます。例えば、高さ(cm)、体重(kg)
- 収束の無次元モデルの後(速いランニング)スピードアップします
- 衝撃の無次元モデルのいくつかの結果はnondimensionalizationより良いいくつかのモデルの距離に基づくことになる、そのようなクラスタリングモデルとして、比較的大きいです
共通Undimensionalization - 標準化
効果:0の平均および変数に標準偏差1に元の連続可変
$ {X} '= \ FRAC {X- \バー{X}} {\デルタ} $
共通Undimensionalization - インターバル方式をスケーリング
效果:把原始的连续变量转换为范围在a-b之间的变量,常见的a=0,b=1
${x}'=\frac{x-\min(x)}{\max(x)-\min(x) }$
2.连续变量数据变换
数据变换:通过函数变换改变原数据的分布
目的:
- 变换后更便捷地发现数据之间的关系:从没有关系变成有关系
- 很多数据呈现严重的偏态分布(很多偏小的值聚集在一起),变换后差异可以拉开
- 让数据更符合模型理论所需要的假设,然后对其分析,例如变换后数据呈现正态分布
常用的数据变换方法
- log变换 x=ln(x)
- box-cox变换,自动寻找最佳正态分布变换函数的方法
3.连续变量离散化
把连续型的数值切割为少数的一些区间,例如年龄值切割为5个年龄段
目的:
- 方便探索数据分布和相关性,例如直方图,交叉表
- 离散化后的特征对异常数据有很强的鲁棒性:减少异常数据对模型的影响
- 离散化后可以进行特征交叉组合,由M+N个特征变量变为M*N个特征变量
- 特征离散化后,模型会更稳定
- 特征离散化后,简化了模型复杂度,降低了过拟合风险
- 一些模型(关联模型)要求输入特征是离散的
离散化方法:
非监督离散化方法
有监督的离散化:决策树
一种特殊的离散化:二值化
一种特殊的离散化:Rounding(取整)
4.类别变量编码
把类别型变量编码成数值型的变量
目的:
- 很多机器学习算法无法处理类别型变量,必须转换为数值型变量
- 一定程度上起到了扩充特征的作用(构造了新的特征)
one-hot编码
Counting Encoding
用类别的频数来编码,也可以对频数去量纲化(秩序,归一化等)
Target Encoding
用目标变量(二分类)中的某一类的比例来编码
5.日期型变量处理
6.缺失值处理
缺失值原因
处理方法
7.特征组合
目的:通过特征组合构造出更多/更好的特征,提示模型精度
组合让特征更加精细,反映了原始多个特征之间的交互关系。
特征组合的方法
示例
三、数据降维
在尽量少减少信息量的前提下,采用某种映射方法(函数),把原来的高维(变量多)数据映射为低维数据(变量少)
降维原因:
- 维数灾难:高维情况下容易发生模型的过拟合(泛化能力弱)
- 特征之间有明显的自相关的时候,也要考虑降维,因为自相关会让模型效果变差
- 降维可以对数据中的有效信息进行综合提取,并去除一些无用的噪音信息
- 降维后降低模型复杂度,减少模型训练时间
- 降维之后可以对数据进行可视化分析
维数灾难
维数灾难原因
当特征值(空间)个数趋向无限大时,样本密度非常稀疏,训练样本被分错的可能性趋向于零
降维后发生什么?
线性模型可能精确度会下降,但是也会避免出现过拟合现象
避免维度灾难的一个方法是增加样本量
样本密度:样本数/特征值个数;当增加维度时,保持样本密度不变的方法就是增加样本量
常用降维方法
主成分分析
通过某种线性投影,将高维数据映射到低维空间中表示,并期望在所投影的维度上数据方差最大。使用较少的数据维度,尽量保留住较多的数据信息。
PCA操作流程
线性判别分析法
PCA与LDA
实验结果
总结:
- 如果研究的问题有目标变量(类别型)
优先使用LDA来降维
可以使用PCA做小幅度的降维去噪声,然后再使用LDA降维
- 如果研究的问题没有目标变量
优先使用PCA来降维
四、特征选择
特征选择与降维
特征选择原因:
- 提高预测准确性
- 构造更快,消耗更低的预测模型
- 能够对模型有更好的理解和解释
特征选择的方法
单特征重要性评估
过滤方法
苹果onNet_month与Flag(目标)指标的相关性
信息值(IV)
变量重要性可视化:趋势分析
更多指标