ガイドは、数理科学データを知っておく必要がありますはじめに

科学的なデータは、あなたがピットにしたいが、私はそれを開始する方法がわかりませんか?この入門ガイドの数学の科学的データを見てみましょう、それを使用!

数学はタコのようなものです:その「触手」は、ほぼすべての学問分野に到達することができます。一部の被験者は、単にエッジ点数学を浸しますが、いくつかの科目は数学でしたが、「触手」をしっかりと包まれました。科学的データは後者に属します。あなたは科学的な作業データに従事したい場合は、数学の問題を解決する必要があります。あなたは数学や数学の能力重視の他の度合いの学位を持っている場合、あなたはこの知識を学ぶ必要があるかどうかを知りたいことがあります。あなたは、関連するバックグラウンドを持っていない場合や、あなたが知りたいことがあります。どのように多くのデータ科学と数学での仕事は本当に必要?この記事では、我々はどのようなデータ手段理科、数学を探る、我々は最終的に必要とするどのくらいの知識について説明します。さんは話し始めた「科学的データ」の実際の意味を見てみましょう。

 

科学的理解のためのデータは、「見る人の目に、賢明な参照知恵」の事です!規律と予測する高度な統計データの使用:データクエストでは、我々は科学的なデータは次のように定義されるだろう。これは、(科学者が解決しているものの、データの問題は異なります)その時々いくつかの混乱と矛盾したデータを理解して焦点を当て、プロの規律です。統計数理は、私たちが、この定義に言及しただけですが、科学的なデータは、多くの場合、数学の他の分野に関与しています。統計を学ぶことは良いスタートですが、また予測するアルゴリズムを使用して、科学的データ。これらのアルゴリズムは、数百種の数、機械学習アルゴリズムと呼ばれています。

 

数学的知識の多くの深さの調査は、各アルゴリズムのこの記事ニーズの範囲に属していないどのように、この記事では、以下の一般的に使用されるアルゴリズムのために必要な数学的な知識について説明します:

  • ナイーブベイズ

  • 直線回帰

  • ロジスティック回帰

  • K平均クラスタリング

  • ディシジョン・ツリー

 

今、各アルゴリズムの数学的な知識の実際のニーズどのようにのを見てみましょう!

 

単純ベイズ分類器

 

定義:ナイーブベイズ分類器は、アルゴリズムの一連の同じ原理に基づいて独立して任意の他の特徴量特性、すなわち、一定の値です。してみましょう私たちのナイーブベイズ確率事象は、我々は、イベント関連の条件を知っていることに基づいて予測することができます。:名前は次のように数式がある、ベイズの定理から導かれます

 

 

そこイベントA及びB、及びP(B)が0に等しくありません。それは複雑に見えますが、我々はそれを三つの部分に分解入れることができます。

 

  • P(A | B)は条件付き確率です。すなわち、Aが発生し、イベントBの条件下で発生するイベントの確率です。

  • P(B | A)は条件付き確率です。すなわち、イベントBの確率は、Aが発生したイベントの条件下で起こります。

  • P(A)およびP(B)は、それぞれ、発生したイベントAとイベントBの確率が、前記二つの相互に独立しています。

 

あなたはナイーブベイズ分類アルゴリズムの基本原則を理解したい場合は、およびベイズの定理、十分な確率論コースのすべての使用:数学的知識が必要。

 

直線回帰

 

定義:線形回帰は、リターンの最も基本的なタイプです。それは、私たちは2つの連続変数間の関係を理解するのに役立ちます。単純な線形回帰は、データポイントのセットをプロットし、今後のトレンドラインを予測するために使用することができ得ることです。線形回帰は、機械学習のパラメータの一例です。機械学習のパラメータでは、機械学習アルゴリズムは、フィットのパターンは、トレーニングセットで見つかったことを数学関数になるために訓練プロセスを作ります。あなたは、将来の結果を予測する数学関数を使用することができます。機械学習では、数学関数は、モデルと呼ばれています。線形回帰モデルの場合は、次のように表すことができます。

 

前記A_1、A_2、...、A_Nパラメータデータの特定のセットを表す値、X_1、X_2、...、我々は最後の列に用いたモデルを選択し、yはターゲット列を表すことx_nに関する機能手段。線形回帰の目標は、機能と先列間の関係を記述することができ、最適なパラメータ値を見つけることです。言い換えれば、それは最高のは、トレンドラインに基づいて将来の結果を予測するために最適なデータに適合していること直線を見つけることです。

 

線形回帰モデルの最適なパラメータを見つけるために、我々は、二乗残差とモデルの合計を最小限に抑えたいです。また一般に呼ば残留誤差は、予測値と真値との差を説明します。二乗方程式の残差和は次のように表すことができます。

 

Y ^は、ターゲット列の予測値であり、yは実際の値です。

 

数学的知識が必要:あなただけの線形回帰を簡単に見たい場合は、その上のコースの基本的な統計を学びます。あなたは概念の深い理解を持っているしたい場合は、最も先進的な統計のコースで説明されている二乗式の残差の和を導出する方法を知りたいことがあります。

 

ロジスティック回帰

 

定義:ロジスティック回帰は、2つの値(すなわち、2つだけの値が、0と1が出力される)従属変数を取る場合のイベントに着目する確率を推定します。線形回帰と同じように、ロジスティック回帰は、機械学習のパラメータの一例です。したがって、これらの機械学習アルゴリズムの訓練結果は、最高のトレーニングセットモードを近似することを数学関数を得ることです。違いは、線形回帰モデルの出力は実数であり、且つ出力ロジスティック回帰モデルの確率値であることです。

 

線形関数としてモデルを生成するために線形回帰アルゴリズムとして、ロジスティック回帰モデルアルゴリズムは、ロジスティック関数を生成します。またシグモイド関数と呼ばれ、それは0と1の結果との間の全ての入力値の確率にマッピングされます。次のようにシグモイド関数を表すことができます。

 

なぜシグモイド関数は、常に0-1の間の値を返しますか?、四角の逆数倍に等しい。この数の代数負のパワーの任意の数を覚えておいてください。

 

必要な数学の知識:ここでは議論していると確率指標は、あなたがロジスティックアルゴリズムの仕組みを理解するために、代数や確率を十分に理解しておく必要があります。あなたが概念を理解したい場合は、私はあなたが離散数学と確率論や実解析を学ぶお勧めします。

 

K平均クラスタリング

 

定義:K手段アルゴリズムをクラスタリングして分類された非標識データの教師なし機械学習(すなわちない定義されたカテゴリまたはグループ)です。アルゴリズムの動作原理は、クラスタkのクラスタによって表される数のクラスタのクラスタデータを、発見することです。次いで、反復機能は、クラスタk番目に、各データ点を割り当てます。アルゴリズムクラスタリングK-手段異なるクラスタに「割り当てられた」距離データ点の概念全体に依存しています。これは、与えられたアイテムには、2つのスペース間の距離の概念です。数学では、セットの任意の2つの要素間の距離を記述する関数は、距離関数またはメトリックと呼ばれています。ユークリッド距離とマンハッタン距離:2つの一般的な種類があります。次のように標準的なユークリッド距離が定義されます。

 

ここで、(x1、y1)と(x2、y2)がデカルト平面上の点の座標です。ユークリッド距離は非常に広範なアプリケーションが、いくつかのケースでは動作しません。あなたが大都会の中を歩くとし、巨大な建物がパスをブロックがある場合、あなたは、「私と目的地が6.5単位である」意味がないと言います。この問題を解決するために、我々は、マンハッタン距離を使用することができます。マンハッタン距離の式は次の通りであります:

 

 

ここで、(x1、y1)と(x2、y2)がデカルト平面上の点の座標です。

 

必要な数学の知識:実際には、あなただけの加算と減算を知っている、と代数の基本を理解する必要があり、我々は距離の式を把握することができます。しかし、含まれている対策の各タイプの基本的な幾何学を理解するために、私は幾何学について学ん示唆ユークリッド幾何学と非ユークリッド幾何学が含まれています。メトリクスと空間の意味を理解するために、私は数学的解析と実際の分析で選択科目を読み込みます。

 

ディシジョン・ツリー

 

定義:決定木は、フローチャートと同様のツリー構造であり、この方法は、それぞれの可能な決定のための分岐結果を使用するについて説明します。ツリー内の各ノードは、特定の変数のテストを表し、各ブランチは、試験結果です。決定木は、それらが構築されている方法を決定するために、情報理論に依存しています。情報理論では、イベントのより多くの人々の理解は、あまり新しい情報がそこから取得しました。情報理論の重要な指標の一つは、エントロピーと呼ばれています。エントロピーは確実性の量が測定値を定量化する与えられた変数ではないです。エントロピーは次のように表すことができます。

 

上記式において、P(X_I)は、ランダムイベントX_Iの発生確率です。ベースBの数が0以外の任意の実数大きくてもよい。通常ベース値2、E(2.71)および10で。「S」シンボルのような下位の追加および上限の数の和に応じて、総和記号和外ことができる連続関数空想シンボル、の合計です。エントロピーを計算した後、我々は情報を使用して得ることができます方法は、エントロピーを最小限に抑えることができますどの部門かを決定するために決定木を構築するために始めました。次のように情報利得の式は次のとおりです。

 

 

情報は、情報の量の測定値を得ることができる利用可能な情報の「ビット」の数。決定木のケースでは、列がこの列に分割し、その後、最大の情報ゲインを提供してくれるであろう見つけるために情報利得の各列のデータ・セットを計算することができます。

 

数学的知識が必要:決定木の予備的な理解を単に代数や確率の基本的な知識をしたいです。あなたは、確率や概念の理解の深さにログオンしたい場合は、私はあなたが確率論と代数を学ぶことをお勧めします。

 

最終的な考え

 

あなたは学校に残っている場合は、私は非常にあなたの純正・応用数学の選択科目の一部をお勧めします。時には彼らは確かに人々が恐怖を感じるようになりますが、良いニュースがありますが、これらのアルゴリズムが発生し、どのように最大限に活用彼らにするとき、あなたはより多くのことができるであろう。あなたは学校で、現在されていない場合、私はあなたがこの記事で言及した書籍の最寄りの本屋に行くお勧めします。あなたの本は、確率論、統計と線形代数を伴う見つけることができれば、私は強くあなたの本が本当にこの紙とアルゴリズムが関与していない機械学習の背後にあるものをに関与原理を理解するために、これらのトピックをカバーする選択をお勧めします。

 

オリジナルリンク:https://www.dataquest.io/blog/math-in-data-science/

公開された363元の記事 ウォン称賛74 ビュー190 000 +

おすすめ

転載: blog.csdn.net/sinat_26811377/article/details/104584583