ML_day01
1.概要機械学習
機械学習入門
- 先祖代々の家
- アラン・チューリング、人工知能の父。その最大の成果は、チューリングテストです。男とあなたとチャットするマシンは、あなたがお互いを人間または機械であるかわからない、チャットした後、あなたはチューリングテストでマシン、マシンである人物が誰であるかを伝えることができない場合。
- 人工知能と機械学習の違いは?
- 人工知能、機械学習は、必要な技術的手段を達成することです
- 機械学習とは何ですか?
- 公式の説明:
- [データ]から機械学習を自動的に法の使用を[予測する] [(モデル)の法則]を得るために分析し、未知のデータれます。
- 公式の説明:
- ボーボボ説明
- アルゴリズムモデル:
- 特別なオブジェクト。オブジェクトは、方程式の解のいくつかの種類を見つけることができません良いパッケージ内に統合されました
- ロールモデル:
- 見通し
- 分類
- 結果を分類または予測される得られた最終内部モデル式
- サンプルデータ:
- トレーニングモデル:
- 最終溶液または予測モデルの分類結果が理解判定後のサンプルデータは、その内部動作の方程式を解く、モデルアルゴリズムにもたらされるべきです。
- サンプルデータの構成は次のとおりです。
- 特性データ:引数
- 通常、多次元
- 対象データ:従属変数
- 一般に一次元又は低次元
- 特性データ:引数
- トレーニングモデル:
- モデル分類:
- 教師付き学習:
- 使用するサンプルデータモデルは、特徴データが含まれている必要があり、ターゲット・データ・モデルは、教師付き学習分類のモデルであれば
- 教師なし学習:
- ただ特性データを持っているために使用されるサンプルデータモデル
- 教師付き学習:
- アルゴリズムモデル:
[]内:
面积 楼层 采光率 售价
100 3 78% 100w
120 1 33% 78w
- キャリアのサンプルデータ(データセット):
- 通常の場合のサンプルデータは、データベースに格納されているが、ファイル(CSVファイル)に格納されません。
- ストアデータの問題への既存のデータベース:
- パフォーマンスのボトルネック:データの順序は、読み取りと書き込みのデータを大規模かつ効率的な保管することは困難です。
- データ・ストレージ・フォーマットは、機械学習データ形式の要件を満たしていません
- サンプルデータを取得する方法:
- kaggle
- UCIデータセット:機械学習は、一般的に使用される標準的なテストデータセットである、カリフォルニア大学アーバイン校(CaliforniaIrvineの大学は)機械学習のためのデータベースを提案
- sklearn
- なぜ機械学習
- 生産力を解放:たとえば、インテリジェントな顧客サービスは、(24時間休むことなく、彼らの賃金を支払わない)の代わりに、顧客サービスを行っていることができます。
- プロ問題解決:そのようなヘルスケアの医療態様として[ET]を、関連症状を決定する際に医師を補助することができるアルゴリズムの現在の精度は85%に達したが、データは、人間の医師の平均正解率60%-70%ことを示しています。
- 社会的便益の提供:杭州市の脳、無スーパーマーケット、そして上のようにします。
- 機械学習の価値を反映
- 値は、すべての面で反映:医療、航空、教育、物流、電気・プロバイダー......
- 機械学習プログラムは、ビジネスのコストを削減し、手動の手順を置き換えるだけでなく、企業の効率を改善します。
- 例:新しい車を促進するための適切なタイミングで自動車販売、通常パンフレットは、ターゲットとする顧客の位置、そこから、すべてのお客様に提供しました。あなたが指定された顧客を分類するために機械学習を使用している場合でも、その後、マニュアルでは、さまざまなカテゴリの分類、それほど大幅に増加ビジネスチャンスに基づいて顧客に提供することができます。
2.プロジェクトの特徴
プロジェクトの特徴
- 特徴抽出
- データ特性を前処理
次元削減データ
- なぜ機能の動作
- サンプルデータが存在する可能性の欠損値、重複した値、外れ値、等とすることができる、我々はノイズデータに関連する機能に必要処理され、その後、治療の目的は、より純粋なサンプルセットを作成することですそのデータのこのセットに基づくモデルは、より良い予測力を持つことができること。もちろん、だけでなく、機能は、上記の操作を扱う作品!
- レシピだけでなく、歌詞があるたとえば、両方のデータAlphaGoはチェスを学び、その後、いくつかの干渉のためのデータは、間違いなくAlphaGo学習に影響を与えます。
- このプロジェクトの特徴は何ですか
- フィーチャー・プロジェクトは、未知データの予測の精度を向上させるために、より良いモデルの機能に代わって潜在的な問題を予測する生データを変換するプロセスです。
- 重要性のエンジニアリング特性
- モデル予測の結果に直接影響
- 機能の動作を実現する方法
- ツール:SK-学びます
- skleanはじめに
- Pythonは簡単に使用する、達成するために、よく知られた機械学習アルゴリズムの数、およびそのマニュアル完全含めて、ツールを学習言語のマシンです。
- 特長:
- 分類モデル
- 回帰モデル
- クラスタリングモデル
- プロジェクトの特徴
特徴抽出
- 目的:
- ここで我々は、文字列または他のタイプのデータに傾向があるために多くの時間を収集したデータサンプルは、我々は、コンピュータが読み取ることができない場合、コンピュータはコンピュータだけに、数値のバイナリデータ列を認識することができることを知っています。学習データを機械学習が非数値データである場合には、それが認識されません。
- デモンストレーション効果:
- デジタルに文字列を変換します
1で]:
from sklearn.feature_extraction.text import CountVectorizer
vector = CountVectorizer()
res = vector.fit_transform(['lift is short,i love python','lift is too long,i hate python'])
print(res.toarray())
[[0 1 1 0 1 1 1 0]
[1 1 1 1 0 1 0 1]]
- プレゼンテーションの終了後:
- このような特徴値のテキストとして特徴抽出データ。マシンの特性値は、データをより良く理解できるようにすることです。
辞書特徴抽出
- 作用:对字典数据进行特征值化
- API:from sklearn.feature_extraction import DictVectorizer
- fit_transform(X):X为字典或者包含字典的迭代器,返回值为sparse矩阵
- inverse_transform(X):X为sparse矩阵或者array数组,返回值为转换之前的数据格式
- get_feature_names():返回类别名称
IN [11]:
from sklearn.feature_extraction import DictVectorizer
alist = [
{'city':'BeiJing','temp':33},
{'city':'GZ','temp':42},
{'city':'SH','temp':40}
]
d = DictVectorizer() #构造方法使用的是默认参数
#将字典进行特征抽取:将字典中的非数值型的数据进行特征值化
result = d.fit_transform(alist) #特征值化
print(d.get_feature_names())
print(result)#result表示的是一个sparse矩阵
['city=BeiJing', 'city=GZ', 'city=SH', 'temp']
(0, 0) 1.0
(0, 3) 33.0
(1, 1) 1.0
(1, 3) 42.0
(2, 2) 1.0
(2, 3) 40.0
- どのようにスパース行列の理解は何ですか?
- 設定されていないスパース行列スパース= Falseの場合、コンストラクタDictVectorizerクラスに戻ったが、配列されます。
- get_feature_namesは():カテゴリ名を返します。
- スパース行列は、アレイ又はリストの偽装形態で、目的は、メモリを節約することです
- 設定されていないスパース行列スパース= Falseの場合、コンストラクタDictVectorizerクラスに戻ったが、配列されます。
[7]:
from sklearn.feature_extraction import DictVectorizer
alist = [
{'city':'BeiJing','temp':33},
{'city':'GZ','temp':42},
{'city':'SH','temp':40}
]
d = DictVectorizer(sparse=False) #进行特征值化后返回的不是sparse矩阵,而是一个数组
#将字典进行特征抽取:将字典中的非数值型的数据进行特征值化
result = d.fit_transform(alist) #特征值化
print(d.get_feature_names())
print(result)#result返回的就是一个数组
['city=BeiJing', 'city=GZ', 'city=SH', 'temp']
[[ 1. 0. 0. 33.]
[ 0. 1. 0. 42.]
[ 0. 0. 1. 40.]]
IN [12]:
print(d.inverse_transform(result))
[{'city=BeiJing': 1.0, 'temp': 33.0}, {'city=GZ': 1.0, 'temp': 42.0}, {'city=SH': 1.0, 'temp': 40.0}]
- コーディングOneHot
- 0and1は疎行列コーディングonehotあります
- なぜ我々はそれをコーディングonehot必要なのでしょうか?
- 特徴抽出の主な目的は、特徴量の非数値型のデータになることです!今、あなたは4にエイリアン人間のフィギュアとエイリアンのマニュアル次の固有値、1人が必要な場合。1と4何ら優先するかの小さな右の主要なポイントはありませんか?
- その後、ワンホット・エンコーディングする必要があります。
- ワンホットエンコーディングベースのパンダを達成するために
- pd.get_dummies(DF [ 'COL'])
IN [13]:
import pandas as pd
df = pd.DataFrame([
['green', 'M', 20, 'class1'],
['red', 'L', 21, 'class2'],
['blue', 'XL',30, 'class3']])
df.columns = ['color', 'size', 'weight', 'class label']
df
アウト[13]:
色 | サイズ | 重量 | クラスラベル | |
---|---|---|---|---|
0 | 緑 | M | 20 | class1に |
1 | 赤 | L | 21 | クラス2 |
2 | 青い | XL | 30 | Class3に |
[14]:
pd.get_dummies(df['color'])
アウト[14]:
青い | 緑 | 赤 | |
---|---|---|---|
0 | 0 | 1 | 0 |
1 | 0 | 0 | 1 |
2 | 1 | 0 | 0 |
[]内:
抽出機能
- 作用:对文本数据进行特征值化
- API:from sklearn.feature_extraction.text import CountVectorizer
- fit_transform(X):X为文本或者包含文本字符串的可迭代对象,返回sparse矩阵
- inverse_transform(X):X为array数组或者sparse矩阵,返回转换之前的格式数据
- get_feature_names()
- toarray():将sparse矩阵换成数组
IN [15]:
from sklearn.feature_extraction.text import CountVectorizer
- 中国語テキストの特徴抽出
- 中国語のテキストに句読点特徴抽出を持っています
では[23]:
text_list = ['你猜我猜你猜不猜','我非常喜欢吃中餐']
c = CountVectorizer()
#使用实例化好的对象进行特征值化
result = c.fit_transform(text_list)
print(c.get_feature_names())
print(result) #返回的是sparse矩阵
['你猜我猜你猜不猜', '我非常喜欢吃中餐']
(0, 0) 1
(1, 1) 1
[19]:
text_list = ['你猜 我 猜你 猜不猜','我 非常 喜欢 吃 中餐']
c = CountVectorizer()
#使用实例化好的对象进行特征值化
result = c.fit_transform(text_list)
print(c.get_feature_names())
print(result) #返回的是sparse矩阵
['中餐', '你猜', '喜欢', '猜不猜', '猜你', '非常']
(0, 3) 1
(0, 4) 1
(0, 1) 1
(1, 0) 1
(1, 2) 1
(1, 5) 1
IN [68]。
text_list = ['你猜 我 猜你 猜不猜','我 非常 非常 喜欢 吃 中餐']
c = CountVectorizer()
#使用实例化好的对象进行特征值化
result = c.fit_transform(text_list)
print(c.get_feature_names())
print(result) #返回的是sparse矩阵
['中餐', '你猜', '喜欢', '猜不猜', '猜你', '非常']
(0, 3) 1
(0, 4) 1
(0, 1) 1
(1, 0) 1
(1, 2) 1
(1, 5) 2
- 中国の区切りのテキスト処理機能を備えた句読点や行のスペース
IN [22]:
text_list = ['你猜,我,猜你 猜不猜','我,非常:喜欢 吃 中餐']
c = CountVectorizer()
#使用实例化好的对象进行特征值化
result = c.fit_transform(text_list)
print(c.get_feature_names())
print(result) #返回的是sparse矩阵
['中餐', '你猜', '喜欢', '猜不猜', '猜你', '非常']
(0, 3) 1
(0, 4) 1
(0, 1) 1
(1, 0) 1
(1, 2) 1
(1, 5) 1
- 現在CountVectorizerだけ句読点とテキスト特徴抽出を、対応する区切り文字を持つことができ、それは明らかである私たちの日常のニーズを満たしていません。
- 自然言語処理では、我々はいくつかの中国語テキストの関連する単語、イディオム、形容詞が......描かれなければならない必要があるため、
- jiebaワード
- 中国語の単語分割処理に関する記事
- ピップjiebaをインストール
- ワードjiebaの基本的な使用
IN [30]:
import jieba
jb = jieba.cut('你到底有没有听我说话?')
jb_list = list(jb)
centense = ' '.join(jb_list)
print(centense)
你 到底 有没有 听 我 说话 ?
IN [40]:
c1 = CountVectorizer()
result = c1.fit_transform([centense])
print(c1.get_feature_names())
print(result.toarray())
['到底', '有没有', '说话']
[[1 1 1]]
IN [42]:
#测试应用
text_1 = '在承接万达商业的全部地产业务后,万达地产集团已经悄然做大,在大开大合进行布局后,万达地产近期也做了些调整'
text_2 = '界面新闻独家获悉,近期万达地产将中区拆分,南京并至北区,杭州并至南区。'
text_3 = '目前,万达地产集团核心管理层为,总裁吕正韬,副总裁兼北区项目管理中心总经理黄国斌,地产集团副总裁兼北区项目管理中心总经理曲晓东。'
#分词
text_1_list = list(jieba.cut(text_1))
text_2_list = list(jieba.cut(text_2))
text_3_list = list(jieba.cut(text_3))
centence_1 = ' '.join(text_1_list)
centence_2 = ' '.join(text_2_list)
centence_3 = ' '.join(text_3_list)
co = CountVectorizer()
result = co.fit_transform([centence_1,centence_2,centence_3])
print(co.get_feature_names())
print(result.toarray())
['万达', '业务', '中区', '中心', '做大', '全部', '北区', '南京', '南区', '吕正', '商业', '地产', '大开大合', '已经', '布局', '总经理', '总裁', '总裁兼', '悄然', '承接', '拆分', '新闻', '曲晓东', '杭州', '核心', '独家', '界面', '目前', '管理层', '获悉', '调整', '近期', '进行', '集团', '项目管理', '黄国斌']
[[3 1 0 0 1 1 0 0 0 0 1 3 1 1 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0]
[1 0 1 0 0 0 1 1 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 1 0 1 1 0 0 1 0 1 0 0 0 0]
[1 0 0 2 0 0 2 0 0 1 0 2 0 0 0 2 1 2 0 0 0 0 1 0 1 0 0 1 1 0 0 0 0 2 2 1]]
前処理特性:数値型のデータ処理
- 意味:特徴抽出の後、我々はそれに対応する数値サンプルデータを取得することができ、そのデータを処理することができます。
- 概念:特定の統計的手法(数学的方法)を介して、データ・アルゴリズムの要件にデータを変換します
- 方法:
- 正規化されました
- 標準化
ケーススタディ:
- あなたはすべての機能が同じサイズ重量の権利を持っていると仮定した場合も同様に重要であり、それは正規化されなければなりません。
KNNアルゴリズムは、特性説明に影響を与えるために使用することができます!!
実装の正規化:
- API:インポートMinMaxScalerをsklearn.preprocessingから
- パラメータ:feature_rangeは、(0,1)は通常、ズーム範囲を示し、
役割:最終結果の特定の特徴は大きな影響は発生しません作ります
IN [45]:
alist = [[1111,2,0.1],[2222,5,0.3],[3333,6,0.2],[4444,8,0.7]]
alist
アウト[45]:
[[1111, 2, 0.1], [2222, 5, 0.3], [3333, 6, 0.2], [4444, 8, 0.7]]
では[48]:
from sklearn.preprocessing import MinMaxScaler
m = MinMaxScaler()
m.fit_transform(alist)
アウト[48]:
array([[0. , 0. , 0. ],
[0.33333333, 0.5 , 0.33333333],
[0.66666667, 0.66666667, 0.16666667],
[1. , 1. , 1. ]])
- 質問:外れ値は、データ中に存在する場合引き起こす種類インパクトのものをより多くの結果ですか?
- 計算正規方程式が示すオリジナル最大値と最小値の外れ値の影響が大きい機能それと組み合わせて、及び従って、正規化後の値に影響を与えます。また、これは欠点ではなく、良いハンドル外れ値を正規化します。
- 正規化された概要:
- 最大値および特定のシーンの最小値を変化させ、追加の最大値と最小値が異常に感受性であるので、この正規化方法は一定の限界があります。したがって、より良い方法へのリード線が呼び出されます。標準化!!!
- 標準化された治療
- 治療後、各列0の平均および標準偏差で収集されたデータのすべてが近い1の範囲にある - あなたが式から分かるように、平均値と標準偏差の異常値にほとんど影響を及ぼしません
- 正規化と標準化要約:
- 外れ値の最小値と最大応答特性が表示された場合の正規化のために、その後、最終的な結果は、比較的大きな衝撃であろう
- 標準化のために、外れ値が発生した場合、データの特定の量は、外れ値の数が少ないことにより、標準偏差が比較的小さい変化、平均値に大きな影響はありません。
- API
- 治療後、各列に収集されたデータの全てが1付近の範囲の0と標準偏差の平均値
- 标准化API:sklearn.preprocessing輸入StandardScalerから
- fit_transform(X):X-標準化
- mean_:平均
- var_:分散
IN [56]。
from sklearn.preprocessing import StandardScaler
s = StandardScaler()
print(s.fit_transform(alist))
[[-1.34164079 -1.5011107 -0.98787834]
[-0.4472136 -0.11547005 -0.10976426]
[ 0.4472136 0.34641016 -0.5488213 ]
[ 1.34164079 1.27017059 1.6464639 ]]
- 標準化の概要:
- 今騒々しいビッグデータのシーンのために、十分な数のサンプルでは比較的安定している[推奨]
次元削減
配列の次元の寸法が示されているが、多数の特徴れません。例えば、4つの特徴、サンプル4の寸法を有するサンプル。
- 図に示す三次元特徴は、次元の特徴を減少2
次元削減方法:
- 機能の選択
- 主成分分析
[]内:
楼层 面积 采光率 高度 人口数量 长相 售价
特徴選択:入力機能を機械学習からの最終データの一部として選択機能!
- 特徴選択の理由:
- 冗長性:相関の高い機能は、コンピュータのパフォーマンスを消費しやすい(主成分分析で説明しました)
- ノイズ:予測された結果に偏執的な影響の一部の機能
- 実装の特徴選択:
- 主観的に関係のない人工の機能が放棄します
- いくつかの重い重量以下役に立たない機能アウトフィルタに関連するツールの使用に基づいて既存の機能と予測された結果に対応します
- ツール:
- フィルタ(フィルタリング)メイン説明]
- 組み込み(組み込み):正則、決定木。[サプリメントを説明する後期モデル]
- ツール:
- フィルタフィルタの種類:
- 原理:主な機能は、特性を廃棄するかどうかを決定するために、分散列に基づいています。分散の大きさは平均特性値からの偏差の程度を示します。小振幅変動特性は、特性が予測結果にはほとんど影響がしばしばである分散カラム小さいです。
- API:sklearn.feature_selectionインポートVarianceThresholdから
- 全てを除去するVarianceThreshold(閾値= X)が閾値分散値は、分散が、Xの下のすべての非ゼロ分散の0手段保持機構のデフォルト値である特徴
- fit_transform(X)#:Xが特徴であります
IN [60]:
from sklearn.feature_selection import VarianceThreshold #使用过滤式实现特征选择
v = VarianceThreshold(threshold=2)
v.fit_transform(alist)
アウト[60]:
array([[1.111e+03, 2.000e+00],
[2.222e+03, 5.000e+00],
[3.333e+03, 6.000e+00],
[4.444e+03, 8.000e+00]])
主成分分析PCA:データセットの低減技術の分析
- 私は考えた:最高の3次元オブジェクトに二次元を表現する方法!
- もちろん、第二次元画像は、良好な立体ケトルを識別することができます。オブジェクトを表すために、低緯度と高緯度を使用する場合だけでなく、それをクリアし、情報のいくつかの違いを行います。低緯度が正しく違いで物事高緯度、または最小限の情報を表現することができることができます。
- 目的:データの最適化を検討し、数百、数千に到達するための機能の数。寸法ようにソースデータ(複雑さ)の寸法を可能な限り、情報の小さな損失を低減するデータ圧縮、。
の役割:あなたは、回帰分析やクラスター分析機能の数を減らすことができます
- PCAの一般原則:共分散行列
- 前記縮小寸法は一次元のラインにマッピング5つの赤オリジナルの特徴、とすることができる場合、元の赤サンプル、二次元の特徴は、4つの特徴となります。
- PCA文法
- sklearn.decompositionインポートPCAから
- PCA = PCA(n_components =なし)
- n_componentsは小数(百分率保持機能)、整数(特徴の数を減らすために)であってもよいです
- pca.fit_transform(X)
IN [62]。
alist
アウト[62]:
[[1111, 2, 0.1], [2222, 5, 0.3], [3333, 6, 0.2], [4444, 8, 0.7]]
では[67]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
result = pca.fit_transform(alist)
print(result)
[[ 1.66650314e+03 -3.95477823e-01]
[ 5.55499613e+02 7.02545532e-01]
[-5.55500445e+02 -2.18656506e-01]
[-1.66650230e+03 -8.84112038e-02]]
3.機械学習の基礎
sklearnデータセット
- データがにセット
- データセットインターフェイス説明
データがにセット
- 前提:データから機械学習を自動的に法律を得るために分析され、そして未知のデータは、法律の使用を予測します。言い換えれば、我々のモデルは、彼らが未知のデータを予測することができる前に訓練しなければならないサンプルデータを通過することです。
- 質問:私たちはデータを取得した後、モデルにデータが使用されているすべてのかどうかを訓練するために?
- もちろんありません!データが来ているから、我々は(ルールデータ)をモデル化する場合ので、その後のモデルの性能評価はどのように行うには?または過去のデータに基づいて、それを予測するには?元のデータモデルが予測する場合のモデル(ルールデータ)は常にデータから取得されているため、予測精度は、ほぼ百パーセントである、と考えることはできません。あなたは、モデルの品質を評価したいのであれば、モデル評価のための新しいデータセットを使用する必要があります。
- だから我々は2つの部分に元のサンプルデータの分割が必要になります。
- トレーニングセット:トレーナー
- テストセット:評価モデル
- モデルに対応した評価方法の異なる種類は同じではありません
- データがAPIに設定しました
- sklearn.model_selectionインポートtrain_test_splitから
- train_test_split(X、Y、test_size、random_state)パラメータが導入されました。
- X:特性
- Y:目標
- レシオテストセット:test_size
- random_state:動揺ランダムシード
- 戻り値:トレーニング機能、テスト機能、トレーニングの目的は、テスト対象
データセットインターフェイス説明
- sklearn.datasets.load _ *():小規模なデータセットを取得します。
- sklearn.datasets.fetch _ *(data_home =なし、サブセット):求める大規模なデータがダウンロードディレクトリを表しdata_homeデータセットを設定し、いずれもホームディレクトリ/ scikit_learn_data(自動的にフォルダを作成する)であるデフォルト値で示されていません。データセットをダウンロードするにはネットワークの必要性からダウンロードする必要が.Subsetすべて、電車、テストかもしれ
[]内:
[16]:
#datasets
import sklearn.datasets as datasets
from sklearn.model_selection import train_test_split
iris = datasets.load_iris()
feature = iris.data
target = iris.target
train_x,test_x,train_y,test_y = train_test_split(feature,target,test_size = 0.2,random_state = 33)
[]内:
#fetch大数据集
datasets.fetch_20newsgroups()
Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)
機械学習の基礎
- 機械学習の開発プロセス
- 機械学習アルゴリズムの分類
機械学習モデルとは何ですか
- 明確な事前にすべき。
- 機械学習は、最終的な結果は、関連するアルゴリズムによって計算された結果のうち、実際にある予測します!だから、機械学習アルゴリズムではコアである、データは計算の基礎です。
- 右の位置を見つける:アルゴリズム設計は、最も複雑なモデルのアルゴリズムエンジニア(博士課程、修士課程)やっているしている、と私たちはする必要があります。
- 対応する需要を完了するために、機械学習アルゴリズムの使用に関連した問題を分析することを学びます
- アルゴリズムの基本的な考え方を持ち、問題を解決するために、異なるアルゴリズムに対応する選択することを学びます
- 問題解決のためのフレームワークやライブラリを使用することを学びます
機械学習データ型
データの異なるセットを次の図に観察されました!
- 機械学習のデータ型は、に分かれています。
- 離散データ:
- また、カウントデータとして知られて得られた個々のデータを、記録の異なる種類の数。したがって、これらのデータは、すべての整数であり、分解することができない、さらにその精度を向上させていません。例えば、車の数カウント数の具体的な範囲は数ある、壊れていない、カウント数の精度を向上させることはありません。
- 継続的なデータ:
- 一定の範囲内で達成することができる変数の数のいずれか、すなわち、変数の値が連続しています。そのような長さ、時間、および他のデータ品質として。これらのデータは、通常、データを含む整数、小数ではありません。
- 注:離散間隔は不可分であり、継続的な間隔が分離可能です。
- 離散データ:
アプリケーションの異なるタイプのデータ
最後に猫や犬の画像を区別するために、画像認識、その後、機械?
記事のカテゴリ、別の記事を分類するために、マシンをしましょう!
- 興行予測は、マシンが来月興行収入を予測することができます!
- テスト:問題がどうあるべきかのカテゴリの下に?
- 明日の予想気温
- 明日の予報晴れまたは曇りの日
- 顔認識
機械学習の開発プロセス
- 1.データ集録
- 内部で生成された企業データ
- そして、他の企業がデータを取得し
- データの購入
- されたデータは、ニーズに対応したものを分析したり、問題を解決するため2.?推論回帰または分類に属する対象のデータによると!
- 3.基本データ処理
- データクリーニング
- 合併
- カスケード
- 工学4前記の処理特性
- 特徴抽出
- 前処理の特性
- 次元削減など
- 適切なモデルを選択5.して、訓練を受けたこと
- 6.評価モデル
- 7.上のラインの使用