データ処理パイプラインの前記エンジニアリング(3)異なる種類

いくつかの従来の仕上げ工程工学の非常に単純な私が使用する特徴、および特異的に導入されていません。

数値機能

1.前処理

 

       

2.離散値処理

labelEncoder /マップ/ワンホット・エンコーディング/  get_dummy

バイナリ変換特性

特性多項式(SVM付きモデル)

3.前記連続離散

ビニング 

分位のセグメンテーション

前記対数変換(通常のアナログ)

II。日付機能

ts_objs = np.array([pd.Timestamp(item) for item in np.array(df.Time)])

タイムスタンプに標準フォーマット '2015-03-0810:30:00.360000 0000 +'

機能は、より多くの特徴を抽出するために使用することができます

df['Year'] = df['TS_obj'].apply(lambda d: d.year)
df['Month'] = df['TS_obj'].apply(lambda d: d.month)
df['Day'] = df['TS_obj'].apply(lambda d: d.day)
df['DayOfWeek'] = df['TS_obj'].apply(lambda d: d.dayofweek)
df['DayName'] = df['TS_obj'].apply(lambda d: d.weekday_name)
df['DayOfYear'] = df['TS_obj'].apply(lambda d: d.dayofyear)
df['WeekOfYear'] = df['TS_obj'].apply(lambda d: d.weekofyear)
df['Quarter'] = df['TS_obj'].apply(lambda d: d.quarter)

III。テキスト機能

テキストデータセット

1.基本的な前処理

コーパスは、前処理:行を文書または文、文書や文の単語(スペースで区切って、英語の単語ことはできませんが、中国はワードツール・ワードを使用する必要性、一般的なセグメンテーションツールStandNLPに期待され、英語の単語の間のスペースで分離されました、ICTCLAS、Ansj、FudanNLP、HanLP、吃音およびその他の単語、および削除ストップワード)配列形式を形成しました。優しい言葉11のためのストップワードを削除した後、第5条の数を設定します。

2.単語モデルのバッグ(ワード周波数、疎行列5 * 11を考慮して) 

sklearn.feature_extraction.text輸入CountVectorizerから

3.Nグラムモデル(語順を考慮し、行列は非常に希薄です)

BV = CountVectorizer(ngram_range =(2,2))

モデル4.TF-IDF(用語頻度重み* 5 * 11)

前記5.Similarity(5 * 5)

6.LDAモデル

7. Aの単語モデルが埋め込まれている(5 *の指示寸法)

gensim.modelsインポートword2vecから

 

詳細なテキスト処理は、私の以前のブログで見ています

https://blog.csdn.net/weixin_41814051/article/details/104393633

 

 

 

 

发布了10 篇原创文章 · 获赞 2 · 访问量 1788

おすすめ

転載: blog.csdn.net/weixin_41814051/article/details/104408914