【検索エンジン】ドキュメントのインデックス作成と検索: ドキュメントのインデックス作成と検索

著者: 禅とコンピュータープログラミングの芸術

1 はじめに

インターネット情報取得の重要な手段の一つである検索エンジンは、PC、モバイル端末、コンピュータを問わず、目的の情報を素早く見つけることができます。検索エンジンの文書情報のインデックス構築に関しては、より複雑な問題になります。

ドキュメントのインデックス作成と検索 (DIR) の目標は、インデックスを構築し、ドキュメント情報を保存し、検索を通じてユーザーが必要とするドキュメントを迅速に見つけることです。簡単に言うと、大量の文書からキーワード、トピック、要約などの情報を抽出して索引を作成し、ユーザーが入力したクエリ文に従って索引を照合し、最終的に関連文書のリストを生成します。DIR の利点は、高精度、高速、ストレージ容量の節約です。DIR の欠点は、ユーザーが重み付け、ソート方法、クエリ結果の数、クエリ結果の品質、検索エラー率を制御することが難しいことです。DIRは医療・健康分野、教育テクノロジー分野、政府機関などさまざまなビジネス分野で活用できますが、その中でも医療・健康分野は特に重要です。

2. 中心となる概念と用語

1. 期間

形態素または単語記号とも呼ばれる用語は、文字列をコンピューターが認識および処理できる形式に変換することを指します。語彙項目は 1 つの文字で構成されているか、複数の文字で構成されている単語である場合がありますが、通常、語彙項目は個々の文字に分割されます。

たとえば、文書内に「中国」と「国」という単語が出現する場合、「中国」と「国」はそれぞれ 2 つの用語です。

用語には主に 2 つの機能があります: 1 つは文書内のトピックを決定すること、もう 1 つは文書を迅速に検索することです。

2. 書類

文書(Document)、つまり「テキストファイル」は、通常、プレーンテキストまたはその他の形式で保存されます。通常、ドキュメントには、テキスト、画像、オーディオ、ビデオなどのさまざまな形式のコンテンツが含まれています。通常、文書には何らかのテーマやテーマがあると理解できます。

おすすめ

転載: blog.csdn.net/universsky2015/article/details/132706238