ほとんどの機械学習アルゴリズム<<百人のエンジニア>>の顔からのコンテンツの
1.機能の動作
1.1数値型の必要性はなぜ正規化されていますか?
同じ大きさの順に各指標の値は、データ間の影響の大きさを排除します。
例えば、健康への影響、人の身長と体重の分析。
1.2補足知識
データ構造:リレーショナルデータベースのテーブルは、各列があって、明確な定義があり、数値やカテゴリを
非構造化データ:テキスト、イメージ、オーディオ、単純な値を用いて表現することができないが、カテゴリの明確な定義は存在しない、データの各部分のサイズは同じではありません
1.3方法論
線形正規化(最小-最大スケーリング)
その結果はにマッピングされるように、生データの変換、線形オリジナルデータ達成するために、[0,1]の範囲の幾何学的スケーリングを。
ゼロ平均正規化(Zスコア正規化)
これは、元のデータが平均にマッピングされる可能 0と分布の標準偏差1すぎます
1.4 注意
勾配降下アルゴリズムにより、通常の線形回帰、ロジスティック回帰、を含む、正規化を必要と SVM、ニューラルネットワークモデル決定木モデルを正規化していないが、必要
1.2データの前処理をする場合は、カテゴリの特性に対処する方法をすべきですか?
コード番号(順序符号化)
処理のタイプは、典型的には、大小関係を有するデータとの間で使用されます。
そのような結果として高いとして発現3つの高低速に分けることができ、3 2を示し、それが低いとして表され
ホットエンコード(ワンホットエンコーディング)
処理の種類の機能のサイズの関係はありません。
例えば、血液(血液型、B型の血液、AB血液型、O-血液)
血液型(1,0,0,0)、B血液型(0,1,0,0)、AB血液型(0,0,1,0)、O血液型(0,0,0,1 )
カテゴリ値の場合下の詳細は注意してください
1.スペースを節約するためにスパースベクトルクラス
寸法を小さくするために、相手の機能を選択します
バイナリエンコーディング(バイナリエンコード)
各符号化されたカテゴリ用の第1のカテゴリのシーケンス番号付与 ID、及びカテゴリID対応するバイナリを
コーディングの結果として。
1.3の機能の組み合わせは何ですか?機能の高次元の組み合わせをどのように扱いますか?
それは、多くの場合、2つの機能の一次離散組み合わせを特色にするプロジェクト内の複雑な関係に合わせて能力を向上させるためには、機能の高次の組み合わせを構成しています。
ご注意ください
導入されたときの機能のIDタイプは、問題が発生した場合。
ソリューションの行列因数分解
1.4は、どのような機能の効果的な組み合わせを見つけるには?
一つの方法は、決定木に基づいています
1.5テキスト表現モデルは何ですか? 彼らは、自分の長所と短所を持っていますか?
テキスト表現モデル
言葉モデルのバッグ(言葉のバッグ)
TF-IDF
トピックモデル(トピックモード)
Wordの組み込みモデル(Wordの埋め込み)
バッグ単語モデル(単語の袋)とN-gramモデル
各記事は、各ワードの出現の順序を無視して、単語のバッグとして見られることです。
重量計算式
IDF登場している多くの記事内の単語は、それはおそらく、より一般的なものであれば小さいセマンティック特別拠出のルールと記事の区別、および特定の罰をやり直すため、権利のために、用語
Nグラム
将文章用单次级别进行划分不好,所以可以通过词组来划分。一般会对单词进行词干抽取(Word Steamming)处理,即将不同词性的单词统一成为同一词干的形式
主题模型
从文本库中发现有代表性的主题(得到每个主题上面词的分布特效),并且能够计算
出每篇文章的主题分布
词嵌入与深度学习模型
词嵌入就是将词向量化的模型的统称,核心思想是将每个词都映射成低纬空间(通常
k=50~300维)上的一个稠密向量(Dense Vector),K维空间的每一维度都可以看作一个
隐含的主题,只不过不像主题模型中的主题那样直观。
Word2Vec
CBOW SKip-gram
1.6图像数据不足时的处理方法
迁移学习(Transfer Learning),GNN,图像处理,上采样技术,数据扩充
1.6在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?
带来过拟合问题
解决方法
一是基于模型的方法,
简化模型(如将非线性模型简化为线性模型)
添加约束项以缩小假设空间(L1/L2正则项)
集成学习
Dropout超参数等
二是基于数据的方法
数据扩充(Data Augmentation)
除了直接在图像空间进行变换,还可以先对图像进行特征提取,然后
在图像的特征空间内进行变换,利用一些通用的数据扩充或上采样技术。
例如SMOTE
迁移学习进行微调(fine-tune)