データのタグ付け自動化ツールシュノーケル

しかし私は、まだデータを手動でラベル付けされ、すでに最も先進的な深い学習モデルへのアクセスを持って知っていますか?それは少し時代遅れのです!データラベルアーティファクトに基づいて、最新の大規模な訓練弱い教師あり学習 - 次のシュノーケルを理解するために来て!

ここに画像を挿入説明

すぐに機械学習の推薦Ebizalネットワークアプリケーションの開発を把握するために、機械学習のチュートリアルシリーズを

今、機械学習の深さは、特に学習モデルは非常に強力ですが、ラベルされたデータセットをこれらのモデルを訓練の多くを必要とします!手動注釈の伝統的な方法は非常に高価で、非常に時間がかかり、例えば、それはプライバシーの問題に関連していくつかのケースでは、単に非現実的です。あなたがデータに注釈を付けることができるように分野の専門家が必要な場合は、問題が悪化します。そして、時間が経つにつれて、それはタスクが変更されますマークすることが可能であり、これらの手動ラベル付き訓練データは静的であり、変更は以前の投資が無駄になり、タスクに適用されない場合があります。

スタンフォード大学でシュノーケルシステム、データラベリング機械学習やソリューションの開発のボトルネックの問題を解決することであり、その基本的な考え方は、データポイントの膨大な量をマークするようにプログラムされています。

私たちは、そのようなので、上の仮定、アナロジー、ルール、知識ベース、およびの使用などのデータ書き込みプログラムを、マークするいくつかの方法を使用することができます。このようにして得られた訓練データのセットが弱い監督(弱い監督)と呼ばれている:正確ではない標識、信号衝突の複数標識または存在していてもよい重なります。

弱い監督源が含まれるような例を見ることができます。

  • 例えばヒューリスティック検索フィールド、:コモンモード、親指のルールなど
  • 正しい現在のタスクに完全に適用されないが、既存のデータのラベル付け、が、特定の役割があります。これはされて
    伝統の遠隔監視と呼ばれます。
  • 信頼できない非専門家の人々は、例えば、マーク:クラウドソーシングマーク

シュノーケルシステムを迅速に作成、管理、トレーニングデータセットのための学習モデルとマシンのデータプログラミングパラダイム(データプログラミングパラダイム)を中心に構築されています。

データプログラミングパラダイムは、シンプルでありながら強力な方法である、我々はあなたがこれらのアノテーション機能を書くためにPythonスクリプトなどの標準機能を使用することができ、タグ付けの関数として監視信号の多様性を与えるために専門家を尋ねました。推論規則の関連分野でエンコードされた標準的な機能は、あなたが一般的な経験ルールが標識されている正規表現パターンを使用することができます。こうして生成されたノイズを含む示され、そして互いに衝突することができます。

シュノーケルでは、これらはマークされた機能(ラベリング機能)をマークすることが推察され、次は注釈機能のいくつかの一般的な種類があります:

  • ハードコードされた派生:通常の正規表現
  • 意味構造:例えば、使用スペイシー依存構造を得ました
  • 遠隔監視:例えば、外部の知識ベースを使用して
  • 騒々しい手動注釈:なクラウドソーシングなどの注釈
  • 外部モデル:その他のモデルは、有用な信号が表記されて与えることができ

ここに画像を挿入説明

あなたは注釈機能を書かれたら、シュノーケルは、これらのラベルの異なるトレーニング機能間の競合を使用する異なる標識機能を標識の精度を推定するためのモデル(ラベルモデル)をマークします。互いの間の整合性をマーク機能を観察することで、各ラベル付きモデルは、ソース精度を監督することを学ぶことができます。

たとえば、常に他の承認されたラベルの機能を取得し、コールアウト注釈結果関数ならば、この関数は、高い正解率をマークしているだろう、と他の結果マーク機能付きラベル機能が常に一貫性のない場合は、この機能がマークされます精度が低いです。(重みとしてその精度を推定)投票結果マーク機能のすべてを統合することで、私たちは各データサンプルは、ノイズのマークが割り当てられていることを考えることができる(0と1の間)が含まれ、代わりにハードラベル(いずれか0の、どちらか1)。

次に、ときに新しいデータポイントラベル、各ラベル機能は、分類のために投票する:正、負または棄権しました。これらの見積りと投票ラベリング機能の精度に基づいて、アノテーションモデルは確率的データポイントの数百万人としてマーク与えるようにプログラムすることができます。究極の目標は、タグ付け機能の一般化を超えて行くことができる分類器を訓練することです。

ここに画像を挿入説明

このアプローチの三つの主な利点は以下のとおりです。

  1. 大規模なラベル、各ラベル関数は、データ・サンプルの数百を標識するために使用することができます。
  2. 完璧ではないものの、多数を構築するために、非標識膨大な量のデータを利用するが、大規模なトレーニングデータセットには十分することができます
  3. これらのラベルは、強力な判別分類器より大きな機能セットを訓練するために使用することができます。我々だけ使用する場合でも
    100のマーク機能を、各データサンプルは、まだ機能の数千人を有することができます。

したがって、この方法は、低品質監督の洪水により得られ、その後、騒々しいマークと統計的手法の契約を使用している、我々は高品質のモデルを訓練することができます。


オリジナルリンク:アーティファクトマークスノーケルプログラマブルデータ-ワイズネット

おすすめ

転載: blog.51cto.com/13692892/2430548