CHANG機械の研究ノート-12:半教師付き学習半教師あり学習

機械学習機械学習の4つのカテゴリに分け、人工知能の中核であります:

1.教師付き学習

教師付き学習機械は、ラベルとラベルを決定することとの間の関係によって特徴付けられ、さらにタグなしで、特性(機能)とラベル(ラベル)です。たとえば、子供が理解するために:大学入試の標準的な答えは、試験の前にあり、学習と質問をして、答えは問題の方法を見つけるを分析し、制御することができます。大学入試が質問に答えなかった場合は、だけでなく、適切なソリューションを与えることができます。これは教師あり学習です。
文:データ、タグ予測を考えます。
入力データと出力データの既存の部品との間の対応により、関数は、入力は、分類として、適切な出力にマッピングされ、生成されます。

2.教師なし学習

教師なし学習だけで、何のラベルを備えていません。例えば、子供が理解:入り口の前にいくつかのシミュレーションの論文を、そこには言及が正しいか間違っているんです標準的な答えは、ありませんが、我々は言語を分離することができ、数学、英語は、これらの問題の間のリンクによると、このプロセスは、ポリ呼ばれますクラス。機能だけで、ラベルなし訓練データセット、データ、およびいくつかのカテゴリに分かれて自分の類似性との間に本質的なリンクによって。
一つの文にまとめ:隠された構造を探して、データを与えられました。
ダイレクトモデリングデータセット。
上記二つの違い:教師あり学習は唯一の唯一の非標識サンプルセットを使用する教師付き学習せずに学習するマーカーのサンプルセットを使用しています。

3.半教師付き学習

ラベルされた、部分的には、データを使用することを学ぶ半教師、そしてほとんどはマークされていないです。そして、教師付き学習と比較して、半教師付き学習は、低コストで、より高い精度を達成することができます。
適切な分類機能を生成するために、何の利用に基づく目標と対象のクラスデータがありません。
データは、時々価格タグは、生物学のように、高いので、データマーカーの少量のみがタンパク質の構造または機能識別の分析は、通常、存在可能性があり、実用上問題:半教師付き学習は、バックグラウンドを生じます生物学者は、作業の多くの年を過ごす、とラベルなしデータの多くは得ることは非常に簡単です。

4.強化学習

強化学習はラベルなしデータを使用することですが、いくつかの方法であなたが近づいたり遠くに正解(インセンティブ機能)から取得していることを知っています。正しく遅延、まばらな形に答える報酬関数として見ることができます。あなたは、遅延フィードバックを得ることができ、あなたからの唯一の即答は離れて近づいたり遠くなってきています。

ブロガーから上記内容@目を覚まし夢想

半教師あり、この推測との関係のいくつかの推測、良いか悪い結果を行うための半教師付き学習を行うことの4つの場合があります
ここに画像を挿入説明

1.生成モデルのための学習を半教師(生成模型)

まずC1は、第二は、C1の確率を計算する数であるされたタグデータに属さない確率を計算し、あなたのモデルを更新するために行きます
ここに画像を挿入説明
ここに画像を挿入説明

2.Low密度分離(仮定密度分離)

分離は、データ密度は、黒と白、データの2つのクラス間の明らかなギャップがあることが想定されているものとする、すなわち、低い(すなわち良好なデータの量)は、2つのクラス間の境界でのデータ密度で

トレーニング(セルフトレーニング)から2.1

首先根据有标签的数据训练出一个模型,将没有标签的数据作为测试数据输进去,得到没有标签的数据的一个为标签,之后将一部分的带有伪标签的数据转移到有标签的数据中,在进行训练,循环往复。其中选取哪一部分的伪标签数据转移至有标签数据需要自己定义,甚至可以自己提供一个权重。ここに画像を挿入説明
在做分类问题中,一个输入数据可能0.7概率属于a,0.3概率属于b,在自训练中是不行的,起不了作用,因为不对标签进行改变的话,将这些放入带标签的数据中对于数据的输出一点改进都没有,输出的还是原来的数据。当有0.7概率是a时,就要把这个标签设置为a(非黑即白
ここに画像を挿入説明

2.2基于熵的正则化(Entropy-based Regularization)自训练的进阶版

我们希望一个数据是一个类比较明显,而不是每个标签都有点像,我们怎样去衡量一个数据的无序状态程度,可以通过方程来计算ここに画像を挿入説明
在L中加入的无标签的那项就可以当做是正则项,L的两项也可以加入一些权重来重视与有标记数据或者无标记数据

ここに画像を挿入説明

3. 平滑性假设(Smoothness Assumption)

这种假设就是
ここに画像を挿入説明

3.1聚类标记

在距离上虽然 x2 与 x3 的距离更接近,但是 x2 与 x1 位于同一个高密度的区域中。可以认为同一个高密度区域之间的数据可以很好的接触连接,具有相同的标签值,而不同的高密度区域无法相互接触,所以标签值不相同。
ここに画像を挿入説明
ここに画像を挿入説明
一种直观的方法是首先对数据进行聚类,看没有标签的数据落在哪一个部分,然后对其及进行标注
但是,在图片上把一类放在一起是有难度的,只有聚类足够好,结果才不至于太差
ここに画像を挿入説明

3.2基于图的方法

定性描述

グラフ上の2点間の通信は、タグがそれらの間に同じである場合、すべてのデータの完了は、図ポイント。それでは、どのようにそれのビューを形成しない、いくつかの図は、例えば、Webページ間の接続、または論文の間で相互に参照し、自然であるが、時には自分のマップを構築する必要があります。ここに画像を挿入説明
図良いか良いか悪いかに関係悪い結果は、それがこの図にそれを構築する方法ですか?

  • まず、X1、X2間の類似度を計算します
  • そして、あなたは、チャート、ダイアグラムを作成することができ、多くのある
    ネイバー最寄りの最初のK:私たちは、知人度を算出した後であれば、K = 3は、ほとんどの三点彼と一緒に利用したいと思います
    ここに画像を挿入説明
    第二は、近隣最寄りのEです:類似性がeよりも大きく、ここに画像を挿入説明
    プラスいくつかの機能が近い図のオレンジ色のドットにX1、X2は一緒にリンクされてみましょう、とオレンジと緑の大きな違いは一緒ではないでしょう
    ここに画像を挿入説明
    次の定量的な説明:

方程式計算S、S小さい平滑
ここに画像を挿入説明
R&LT:ラベルデータ
U-:データラベル付け解除
L = DW
Wである:A11がX1重量に対してX1権があり、A12は、類推のX2重量に対してX1の権利である
Dは:DNN = WN1 + WN2 + ... + 行の末尾

ここに画像を挿入説明
ここに画像を挿入説明
別は教師なし学習で言及されます。

公開された16元の記事 ウォンの賞賛0 ビュー949

おすすめ

転載: blog.csdn.net/qq_44157281/article/details/98315178