情報検索 - 再現率と精度

        情報検索の分野において、情報検索システム (IRS) は、特定の情報ニーズに応じて確立された情報の収集、処理、保管、検索のためのプログラムされたシステムを指し、その主な目的は人々に情報サービスを提供することです情報ストレージ (Information Storage、IS) と情報検索 (Information Retrieval、IR) 機能を備えたシステムを IRS、つまりユーザーに IR サービスを提供するシステムと呼ぶことができます。

        IRS(文書IRS、書籍IRSなど)を設計・開発する際には、システム利用時の実際の効果を考慮する必要があるため、IRSシステムの情報検索効果を反映する指標がいくつか提案されていますが、本ブログでは、検索効果を反映する重要な指標である再現率と適合率の概念と計算ルールについて紹介しますこのブログでのインジケーターのシンボルと説明を以下の表に示します。

インジケーター記号 説明
システム内の情報の総量
システム内の関連情報の量
R 取得される情報の量
Rr 取得される関連情報の量
精度比 精度
再現率 想起

 図1 再現率と適合率の計算図

精度

        ユーザーが IRS を利用する場合、(入力内容とユーザーの実際の期待との乖離を無視して) 入力された入力を通じて関連情報を見つける必要がありますが、検索された情報は必ずしも実際の入力関連情報であるとは限りません。検索された情報に対する検索された関連情報の割合、つまり、検索された情報の妥当性と正確性を示すために、特定の検索システムの信号対雑音比、つまりパーセンテージを測定する精度比 (precision、Precision Ratio) が提案されています。取得された関連ドキュメントの数から取得されたドキュメント合計適合率の計算式は次のとおりです。

精度率=\frac{Rr}{R}\cdot 100%

      

想起

        適合率だけでは情報検索の効果を十分に反映できないため、システム内の全関連情報のうち、検索された関連情報の割合を表すために、ある検索システムが文書集合から関連文書を検出する成功率、つまり、検索システム内の関連文書の総量に対する検出された関連文書の割合を測る指標である再現率(再現率、Recall Precision)が提案されています。再現率の式は次のとおりです。

再現率=\frac{Rr}{Ir}\cdot 100%

情報検索における再現率と精度の調整の重要性

         通常の状況では、 RrR、および Irの関係は図 1 に示されていますが、極端な場合には、検索で返される情報が少ないか、関連する情報のみになり、適合率は 100% になり、再現率は低くなります。平たく言えば、たとえば、ユーザーがすべての果物の写真を検索するために「fruit」と入力すると、IRS はリンゴの写真のみを返します。精度は 100% ですが、非常に不完全です。多くの果物の写真はリンゴの写真しか返さないため、ユーザー エクスペリエンスが低下します。モデル効果は次のとおりです。 

        同様に、反対の極端な場合、IRS からすべての関連情報を結果セットとして返すシステムは、再現率が 100% ですが、精度が低くなります。一般的に、たとえば、ユーザーがすべてのリンゴの写真を検索するために「apple」と入力すると、IRS はシステム内のすべての果物の写真を返します。これは非常に包括的であり、ユーザーが取得したいリンゴの写真はすべての果物の写真と混合されて返されます。モデル効果は次のとおりです。

        完璧な IRS は Ir と R が等しいことを追求しており、理想的な IRS モデルは次のとおりです。

         この時点で以下の関係が成り立ちます。

適合率=再現率=100%

しかし、それを実現するのは明らかに困難です。再現率と精度の間には相互関係があります。IRS システムの設計と開発中に、精度再現率        に従ってシステムの PR 曲線を描くことができ、その曲線に従ってシステムの品質を判断し、両者のバランスをとることができます通常、IRS の有効性を再現率と適合率で測定する場合、必ず再現率が適切な値であると仮定し、適合率に基づいてシステムの有効性を測定します。一般性の強い検索言語(上位カテゴリ、上位主題など)を使用し、検索項目を変更し、限定条件を減らすと再現率は向上しますが、適合率は低下します。具体性の高い検索言語(上位カテゴリ、上位主題語など)を使用すると適合率は向上しますが、再現率は低下します

ソフトウェア評価における再現率と精度の応用

        ウイルス対策ソフトウェアの評価は、比較的大規模な専門フォーラムや権威ある国際機関によって行われることが多く、その方法は、一定数の人気のあるトロイの木馬ウイルスのサンプルを新しいコンピュータ システムに配布し、テスト対象のウイルス対策ソフトウェアをインストールし、駆除結果の分析を通じて、ウイルス対策ソフトウェアがすべてのトロイの木馬ウイルスを検出するかどうか、およびウイルス対策プロセス中にトロイの木馬が正確に除去されるかどうかを判断します。一般的に、完全なウイルス データベースやインテリジェントな分析エンジンを備えたウイルス対策ソフトウェアは、ウイルスを包括的にチェックして検出でき、ウイルス対策の精度は比較的高く、誤って死滅させることはほとんどありません。通常は殺害速度や殺害率が使われ、再現率や命中率などとも呼ばれます。

参考リンク:再現率と精度 - 百度百科事典

おすすめ

転載: blog.csdn.net/m0_51660523/article/details/121651367