現在と質問応答システムの事前存在

リウィウス
先在
アプリケーションの分野、通常手動インターフェースが行われる自然言語を追加生成知識ベースから本質的になる、非常に狭い専門領域に限定されるもの:質問応答システムは、従来のAI(人工知能AI)です。フィールドを狭くするため、語彙の総量は、あいまいな言語と効果的に制御することができる実用的な問題に限定されています。問題は、従うべき法律があるもちろん、対応する答えの合成にも閉集合予測可能です。アポロ計画に関連する問題によって返された月の石のサンプルを答えるために地質学的分析に特化した前世紀に開発された1960年代LUNARシステムの有名なプロジェクト、。 SHRDLEは、  人工知能に基づいて他のエキスパートシステムで、ロボットのシミュレーションは世界でおもちゃのビルディングブロックを操作し、ロボット言語命令に耳を傾け質問に幾何学的な世界のおもちゃの状態、および法的に答えることができます。
空想科学小説は、人々の想像力と好奇心を鼓舞、おとぎ話の世界を明らかにするようにこれらの初期のAI探査は、非常に洗練されたように見えますが、これらは基本的にラボシステムのおもちゃ(おもちゃ・システム)に限定され、実用的ではありません可能性と工業的価値。(一部の専門家システムは実用的な、常識に達し、知識ベースの推論システムは困難であるが)人工知能の分野のように道路が狭くなると、そのQAシステム上の寄生は、基本的には自然な死をされています。それは人間のインタラクティブな対話システム(といくつかのマシン持っている 人工無脳 時々故意正しい道狡猾な質問、応答プログラムを尋ねる、、)これまでに開発ダウンすべての方法を私の娘は、ロボットの対話を求めてインターネットを気に入って(子供のオンラインのおもちゃになりますそれは賞賛それであるが、より頻繁にロボット馬鹿と笑いを探しているが、私は個人的にこの方法でも大きな可能性を秘めていると信じて、言語学や心理学の知識のブレンドは、品質を働いたことがなければならないとき優れたロボットセラピスト。実際には、高い競争の今日の高ペース時代に、多くの人々は、多くの場合、まさにそのようなシステムは、地域社会のニーズに応えることができ、忠実なリスナーを必要とする、圧力を緩和する必要性に直面している。事がにありますユーザー「月にハウリング」既成の偏見をなくす、あるいは対話が引き離しの心を開き、停止に来ることができるように巧みにロボットの身元を隠すためにしてみてください。)
 
二つの復活
産業的意義のオープン質問と回答システムは、それがされて入ってきたインターネットや検索エンジンの開発であり、完全に別の方法です。、検索業界の質問を追加して、コンテストのシステムを答えることにしました、米国防総省のDARPAのプロジェクトは有名な資金提供:むしろ、オープン-Qシステムは、第八議会(テキスト検索会議TREC-8)年には、1999年に誕生しましたこの新しい質問と回答システムとそのコミュニティを出産した標準規格の実装の米国民局が主催。Q&非常にエキサイティングなレースで書かれた広告のシステムは、右のは、検索エンジンの欠如を指摘し、検索フィールドに値を命題Qシステムを確立します。これは、(一般的に)書かれている覚えている:あなたが問題を抱えている、彼らは答えを必要とします。検索エンジンは、情報検索(情報検索)で、実際に情報を求めたが、唯一の十関連ファイル(のURL)へのリンクの数千人の、答えはこれらのファイルにはできないことがあります取得されていないんと主張しています。いずれの場合も、必ず答えを見つけるために、これらの文書を読むために人々を頼みます。Qシステムは、情報検索の問題を解決するための鍵です。QAシステムの場合、入力が問題であり、出力は答えは、簡単なことです。
ここでは、未解決の問題を紹介し、時間の誕生のシステム産学背景に答えるために必要です。
学術的な観点からは、伝統的な意味での人工知能は、実際のコーパスと統計的研究に基づいて大規模な機械学習から置き換えられ、もはや人気がありません。ルールシステムの言語感覚は、まだ機械学習の補足として、自然言語の分野での役割を果たし、そして基本的な知識や推論に純粋に基づいて、いわゆるスマートルールシステムは、(のようないくつかの専用の学者、以外の学界を放棄した ダグラス・レナット  さん  はCyc )。アカデミアオープン質問と回答で非常に重要な開発は、情報抽出(情報抽出)プロの方向とコミュニティの発展と成長は、つまり、システムの誕生前にそこにあります。各タスクの定義:伝統的な自然言語理解(自然言語理解)、言語を通して海に面し、それぞれ異なる文のその意味解析を見つけようとすると、情報抽出には、タスクが不可欠と値の意味抽出を超えていない、タスクを案内され、空欄に記入し、学生の読解力をテストするために類似した、例えば、このイベントの会議テーブルがテーマ、時間、場所、参加者やその他の情報を記入する必要があり、事前に設定されたテーブルの情報を求めます。突然のすべての距離で実用的な言語技術を短縮するというアイデア導かれたようなタスクは、研究者は象の言語を飲み込むしようとしている、過去にシステムではなく、徹底的に最適化するためのポイントに合わせて作業に集中することができます。1999年までに、情報抽出大会やセミナー第7回開催されている(MUC-7:メッセージは、会議の理解 )、 米国をリードする米国DARPA資金によるプロジェクトのも、製品(DARPAがあれば、情報産業の研究と実用的なトレンド、全く過大評価)、この領域での作業、及び方法の制限が比較的明確です。その上の地名、組織名、時間、割合とを含む、:最も洗練された情報抽出技術の開発は、(NEタギングエンティティ名前)は、いわゆる実体名詞自動注釈です。かかわらず、その方法の良いシステムのルールの準備の機械学習、言語や方法の使用、その包括的なインデックス精度のリコールは、品質マニュアルの注釈に近い、90%と高くなっているされています。スタートアップと良いスタート応答システムの新世代の最初の分野における若手技術の進歩は重要な役割を果たしています。
1999年では、工業的観点から、キーワードマッチングとリンクページに基づいて、インターネットの普及と急速な発展と、検索エンジンは、検索アルゴリズム熟した形状を基に、方法論の革命がない限り、キーワード検索フィールド探索すべての側面は、ほぼ終わりに近づいてきました。決して終わることのない検索技術のための情報爆発の期待の時代以来、高い上のキーワードの音声以外の新技術に対する業界の検索。不注意なユーザーは、検索結果が社会的ニーズの改善(よりきめ細かい結果)を必要と、検索結果にますます不満を持っている、少なくとも単位として代わりに記事(URL)の単位(スニペット)として段落に、それが直接の答えを出すのがベストですその足をドラッグしないでください。質問と回答は、システムを待つことが、仕事の全文検索から検索された段落を洗練する必要が直接回答研究は、業界で実装されているが、検索ルーチンの結果は、検索キーワードを一つずつ強調するために、単純なWebリンクから進化しています段落。
Q&A新たな研究システム上の業界、学界のために、このような緊急の呼び出し中とは、状況の基礎を築いた歴史の舞台になりました。システムの標準テスト要件の米国局はすべての問題に対する最善の答えを与える、短い答え(50バイト以上ではない)と長い答え(これ以上250バイト以下)2種類があります。ここでは、競争の最初の質問と回答のサンプルの質問です:
宇宙で最初のアメリカ人は誰でしたか?
タージ・マハルはどこにありますか?
何年にジョー・ディマジオは、彼の56試合の打撃連勝をコンパイルしたのですか?
 
三夜咲くセレウス
成果と意義応答システムの競争それ?良好な結果が非常に重要であることを指摘しておかなければ。最高のシステムは、3つの質問のそれぞれは、システムは、文書内の言語から干し草の山2つの正解に針を検索することができることを、60%以上の精度を実現しています。非常に有望な結果である学術システムを、オープンする最初の試みとして。これは、ドットコム、革命的な変化の検索を実現するために、製品に転送し、この最新の学術研究情報を入れて熱望IT産業の全盛期でした。面白い話の多くは、私のブログの記事を参照してください、があります。 「モーニンググローリー午後ピック:起業家パス」
今年の作品を想起し、主催者、学界と産業界であることが判明することができるシステムの奇跡に即効性に答えるような適切な場所に貢献しました。設計上の問題では標準の米国局、自然言語の問題は(英語の質問、上記参照)、むしろ単純なキーワードクエリよりも、結果は、これらの質問はかなり長いことパッセージ検索のために非常に適していること。強調 彼らはスクリーニングを行うには、ライブラリの言語の問題について合意したときには、それぞれの質問には答えを持っていることを確認します。その結果、同様の文章がなければならないと文のテキストが一致している段落に対応して(あるいは文が一致)客観的(実際には、限り、テキストは巨大であるとして、確かな文があるでしょう)ヒット率。もし1つか2つのキーワードを想像して、関連する段落や文は多くの困難への回答が含まれていてもよい見つけます。もちろん、対応する段落や文を見つけることが、非常に答えを見つけるために範囲を減少するが、質問応答システムが本当に答えをロックする最初のステップである、声明に対する答えとして、その単語やフレーズを特定、さらに洗練する必要があります。このとき、学術情報抽出技術は、ちょうど来る上に実名ラベルの機が熟しています。客観性の質問応答システムを争うための努力では、主催者は、故意にその答えに、名前、時間や場所などの比較的簡単な質問に、選択しました。これは、土地とのスキルを表示するには、先の技術の一歩を作り、ターゲット実名ラベルに正確に対応します。「?ジョー・ディマジオが彼の56試合打つ連勝をコンパイルしたものを年に」という質問については、例えば、段落文検索は、ステートメントの次のテキストに似て見つけるのは簡単である:ジョー・ディマジオの56試合の打撃連勝は1941年5月15日および1941年7月16日の間でした。実名タグシステムはまた、1941時間単位をロックするのは非常に簡単です。その答えは、大規模なドキュメントで検出された正確な質問に対する正確な答えは、干し草の山の一般的な魔法の針のように、でした。道に沿って、IBMピーナッツ研究センターは、11年のクイズの後に成功し、人間の脳を倒すためのコンピュータシステムを開発した受賞スマートテレビJeopardy状態!チャンピオンのグランプリ(レポートを参照してください  HUMANはCOMPUTER「Jeopardy状態を!」押しつぶすCHAMPS )、米国の聴衆の前で大部分が脚光を浴びるのうち、エキサイティングとしてチェスの初優勝を獲得する年のコンピュータプログラムのように。
より良い質問応答システムを獲得し、それは必ず実名ラベリング技術および段落検索を組み合わせたものです:限り、大規模な文書があるとして、スニペット+ NEテクノロジーは、自動的にその答えの簡単な質問を検索することができることを証明しています。
 
4つのステータス
1999 QAシステムにおける学術初期の勝利は、我々勝者としても栄光、成蹊大学から次の、ベンチャーキャピタリストは、業界に群がりました。ウォールストリートはすぐに気持ちが本当に産業革命の新しい時代のようなものだった、ベンチャーキャピタルで数百万ドルを得ました。しかし、唯一のインターネットバブルの崩壊、IT業界は不況の奈落の底に落ち、長い時間を復元することはできません。金融政策を引き締めるために投資家迅速な成功は、のけ者応答システム(業界の寵児ご覧になっています 「 -バッファロー状況朝顔の午後ピックを」 )。まあ、伝統的なキーワードのインデックス作成と検索、質問応答システムに比べて、誰業界の主流の技術は、(堅牢ではありません)あまりにも壊れやすい、不安定なようでいない、スケールアップすることは困難であり、業界のシフトフォーカス深い広がりから、インデックスを増やすことに注力いわゆる深いウェブを含むカバレッジ。Q&システムは、ほとんど開発された業界から姿を消したが、この新しいフィールドは、継続的な発展と、学界にルーツを発芽している、それは自然言語研究の重要な枝となっています。IBM後で解決スケールアップ(マシンの数百または数千に分散並列処理を行う)の問題と適応訓練は、優れた技術的準備のためのグランプリを受賞しました。同時に、学者は、質問応答システムの様々なタイプを要約し始めています。一般的な分類は、問題の種類に基づいています。
私たちの多くは先生に聞いて、中学校の言語クラスであるWHのいくつかをつかむために読解することの重要性を強調した。(誰が何をしたか、いつ、どこで、どのように、なぜ?)誰が/何を/とき/どこ/どのように/なぜ記事の中央内容をつかむことができ、これらのWHをつかみます。男の読解力のシミュレーションとして、システム設計クイズは、WHをこれらの質問に答えるためには、正確です。これらの問題は困難に簡単にWHことは注目に値する、大まかに2つのカテゴリに分類することができますいくつかのWHは、そのような質問に答えることは比較的容易な/ /場合など実体固有名詞、、に対応し、技術が成熟してきました。他の問題は、たとえば、何/どのように/なぜ、学術的な質問と回答への挑戦として、質問に答えるために、ではありません。次のように簡単にはこれら三つの問題について説明します。
Xとは何ですか?問題の種類は、そのようなiPadのII(?:ビル・クリントンはあるもの定義として含まれる)が何であるとして、いわゆる定義された問題です ?。問題のこのタイプの特徴は、(システムの質問と回答のタイプは、検索前に問題のその理解を使用して、ストップワードと呼ばれる検索コミュニティ、検索の前にフィルタリングする必要がある)言葉の外の単語を削除するためのリンクは何ですか、短い発行することで、一つだけXとして入力は、従来のキーワード検索を助長されていません。このような質問に答えるために最小要件は、定義文の拡張と種(というよりも、単語やフレーズ)です。あらゆる人や物が他のエンティティとの複数の関係に位置しているので、この質問へのより完璧な答え、単純な定義本当にこの実体を理解するために、(マルクスは、人間が社会的関係の和であることを言った覚えています)それは十分ではありません、すべての最高一緒にこの重要な情報の実体を置くために、それは言うことができる(ヒト会社のプロフィールのような、同じ再開)包括的な概要を与えるという人は何/への本当の答えXの問題。明らかに、この手順を実行すると、従来のキーワード検索は完全に無力が、この目標を達成するのを助けることができます追加奥行き情報抽出は容易ではありません、我々は、抽出された文書に散らばっすべての重要な情報は、(統合することを望むことができなければならない [議員を人気の科学:情報抽出] )。
問題の種類が良い答えではありませんどのように、それは解決策のための検索です。同じ質問、多くの場合、このような疾患の治療として、あなたはまた、他の治療で使用することができる薬のさまざまな種類を使用することができるソリューションアーカイブの多様性を、持っています。したがって、この種の質問に、より完璧な答えを認め問題の質問と回答の一つとなっている方法。

なぜ問題の種類は、原因や動機の現象を見つけることです。これらの理由の明示的な表現は、それがより劣性式であり、ほとんどすべての理由は、単純な単語やフレーズではありませんこれらの質問に対する答えを見つけるために、明確に表現することができ、ユーザを統合するための適切な方法で、非常に自然でありますが、大きなパズル。

私が二つの製品の設計と開発を展開を支援するために9年間、シリコンバレーに来た、自然の最初の製品がどのように、質問への答えであり、第二関わる鉱業や世論がなぜ、質問の背後に世論に答えるために、ということが挙げられます。システムに答える2つの最大の問題は解決するために、私たちの深い解析技術により考慮することができます。

 

 

著者について:博士李威、自然言語処理(NLP)、シニアアーキテクト、シリコンバレー、ビッグデータの意見の鉱山会社のチーフサイエンティストnetbaseの、研究開発Cymfonyの元副社長は、質問と回答システムの最初のセッション(TREC-8 QAトラック)で第一位を獲得し、そして17米国防総省の情報抽出プロジェクト(17 SBIRs用PI)を獲得しました。その深い自然言語解析(深い構文解析)が最もJiangong李は、正確かつ効率的なコマンドチームは、言語理解と応用システムの18種類を開発しました。特に、ワ​​ールドクラスの分析精度で、中国語と英語で、堅牢で、ワイヤスピードを達成するため、大規模なデータにスケールアップ。競争の重要な先行を特定し、サードパーティ製の品質システム評価があります。など大規模なデータマイニング、顧客インテリジェンス、情報抽出、知識マップ、質問応答システム、インテリジェントなアシスタント、セマンティック検索、知性を閲覧、機械翻訳など、世論の印加方向、

おすすめ

転載: www.cnblogs.com/shujuxiong/p/11131554.html