機械学習は7つの一般的な間違いを避ける必要があります

転載、リンクします。http://blog.csdn.net/mmc2015/article/details/47322121

溶液の数十がある与えられたそれぞれのモデリング機械学習の分野では、各モデルは、単に妥当異なる仮定が存在するかどうかを決定することは困難です。この場合、ほとんどの従業員が自分の使い慣れたモデリングアルゴリズムを選択する傾向があり、著者は、モデルアルゴリズムの仮定は必ずしも手元のデータには適用されないと考えている、最適なパフォーマンスモデルを追求し、それを選択することが重要ですデータ・セットのモデルアルゴリズム(特に「ビッグデータ」)です。

以下は、テキストです。

統計的モデリングとエンジニアリングの開発は非常に似ています。

各モデルには異なる仮定を持って使用するために設計された値のストレージ・システム、 - プロジェクトの開発では、人々は、キーのセットを構築するためのさまざまな方法があります。統計的モデリングにおいて、そこ仮説の各データ・セットの分類器アルゴリズムを構築する多くのアルゴリズムが存在します。

テストは、低コストので、少量のデータを扱う場合、我々は、アルゴリズムの最適な効果を選択するためのアルゴリズムの可能Aの多様な限りしてみてください。しかし、「ビッグデータ」、事前にデータ分析への参照は、その後、適切な設計「パイプ」モデル(前処理、モデリング、最適化、製品の評価は)乗数です。

私の以前の記事で述べたように、そこに与えられたそれぞれのソリューションをモデル化の数十あります。各モデルは、視覚的に合理的な仮定が何であるかを区別することが、我々はまた難しい、様々な仮定の上に表示されます。業界では、ほとんどの従業員ではなく、最も適切なデータセットよりも、使い慣れたモデリングアルゴリズムを選択する傾向があります。この記事では、私はいくつかの一般的な誤解を共有する(回避します)。次の記事では、我々は(やるべき)のベストプラクティスをいくつか紹介します。

1.デフォルトの損失関数を仮定します

多くの専門家は訓練し、最適なモデルを選択するために、(例えば二乗誤差など)のデフォルトの損失関数を使用したいです。実際には、デフォルトの損失関数はめったに私たちのビジネスニーズを満たすません。不正検出のために取ります。私たちは不正な取引を検出した場合、当社のビジネスニーズは、詐欺による損失を最小限に抑えることです。しかし、既存のバイナリ分類器のデフォルト損失関数偽陽性と偽陰性の危険性の平等な待遇。当社のビジネスニーズのために、だけでなく、無数の損失関数のための偽陽性を処罰するよりも、だけでなく、詐欺や比例の無数の量に対する処罰の程度。また、不正検出トレーニングデータセットは、正と負のサンプルは非常に不均一であることが多いです。この場合、損失関数は、(アップスルー/ダウンサンプリング、などなど)レアの世話をする傾向があります。

非線形問題2.プロセス一般線形モデル

あなたがバイナリ分類器を構築する必要がある場合、それは非常に簡単ですので、多くの人々はすぐに、ロジスティック回帰を用いて考えます。しかし、彼らはロジスティック回帰モデルが線形であることを忘れ、クロス機能非線形要因は、手動コーディング処理に依存する必要があります。戻る例だけで不正行為の検出に、良いモデルの結果を得るために、我々はとのように、高次クロスオーバー機能「住所&&取引値<$ 50送料請求先住所を=」を導入する必要があります。したがって、クロスを含ま対処する上で、我々は、このようなSVMのカーネル関数として、非線形モデルとして選択するか、分類ツリーに基づいて必要があります。

3.外れ値を無視します

外れ値は非常に興味深いです。状況の文脈によると、彼らはいずれかの特殊な治療であることが必要、または完全に無視されるべきです。収益予測を取ります。あなたが収入異常なスパイクを見れば、我々は彼らにもっと注意を払い、これらのピークの理由の原因を分析する必要があります。外れ値は、機械的な誤差、測定誤差、または任意の他の非一般化要因に起因している場合でも、我々はトレーニングデータの前にこれらの異常値で最高のうち、フィルターに準備します。

いくつかのモデルアルゴリズムは、外れ値に非常に敏感です。例えば、かなりの重量値を与え、彼らは「重大な関心」を持つのAdaBoost。代わりに、単純に対処するための誤分類として、木の上にそれらを置きます。データセットは、異常値のかなりの数が含まれている場合は、外れ値アウト堅牢なダイレクトモデリングアルゴリズムまたはフィルタの使用は、それが重要な外れ値です。

4.高分散のモデル番号、サンプル請求の数よりもはるかに小さいです

SVMは、最も人気のあるモデリングアルゴリズムの1、モデルに合うように異なるカーネル関数とその電力嘘の一つです。SVMカーネル前自発的特徴の組み合わせ、より高い次元の特徴空間を形成するための方法であると考えられます。この力を受けた対価はほとんど無視できるとして、ほとんどの人は、SVMのトレーニングモデルのデフォルトのカーネル関数を使用します。医療データに共通の - - 学習サンプルの数がはるかに少ない特性寸法(N << P)より大きい場合しかし、高次元の特徴空間データに対するフィッティングリスクが増大します。実際には、上記の場合には、我々は、高分散モデルの使用は避けるべきです。

5. L1 / L2正則化を標準化していません

使用L1又はL2正則化又はロジスティック回帰は、従来の方法を介して大重量のペナルティ重み係数値の線形回帰です。しかし、これらの正則化法の使用の多くの人々は、標準化の重要性を認識していません。

不正検出に戻るには、取引金額の機能として、線形回帰モデルを想像してみてください。あなたが正則、米ドルでの取引金額をしない場合は、それが要因が100回米国を単位に分割されているフィットします。同時に、大型商品重い罰のためにL1 / L2正則化係数値、トランザクションの金額ため手段として、この寸法は、より多くの罰を受けることになる場合。したがって、正則化は、それがより小さなスケールでの特徴を罰する傾向があり、差別的ではありません。この問題を軽減するために、我々は、彼らが同じ位置にあるように、前処理工程ですべての機能を標準化する必要があります。

直線線形モデルの使用に関連していない考えてみましょう6

線形モデルの構築は、X1とX2は、2つの変数を含んでいることが前提とされ、実際のモデルは、Y = X1 + X2です。データはノイズを少量しか含まれている場合に理想的には、線形回帰モデルは、実際のモデルを復元することができます。X1及びX2ただし、線形相関が存在し、最も最適化アルゴリズムに関係なく、Y = 2 * X1の、Y = 3 * X1-X2またはY = 100 * X1-99 * X2結果が丁度良いようです。このセクションでは、私たちの予想を偏らませんが、それは問題ではしていないように見えます。しかし、それは重み係数を説明することができないため、問題は、病気になります。

7.線形モデル又は解釈ロジスティック回帰モデルの係数の絶対値が特徴付け重要です

各p値のリターンの多くの既製の線形回帰係数なので、多くの人々が大きな機能を対応する係数の絶対値が、大きな役割を果たしすると信じています。()スケール可変係数の絶対値が変化するので、真実ではない;(ii)の機能は、直線、その係数に関連している場合、他の特徴の寸法に一次元から転送されてもよいです。また、より多くの特徴次元データセットが含まれている、より多くの可能性が高い特徴間の線形相関係数の重要性は、信頼性の低いを説明することを特徴とします。

これらは、7一般的なミスで機械学習の実践的な操作です。このリストは完全ではない、それはモデルアルゴリズムは、必ずしも手元にデータには適用されないと仮定して、考える読者を鼓舞だけです。最適なパフォーマンスモデルの追求では、あなたが最も精通しているではないことを、適切なデータモデルのアルゴリズムを選択することが重要です。

オリジナルリンク:http://ml.posthaven.com/machine-learning-done-wrong

元の記事を公開 ウォンの賞賛0 ビュー1800

おすすめ

転載: blog.csdn.net/happygirl_wxq/article/details/105202443