論文の読み取り - 単純化された収集とラベル付けの慣行により、Twitter のベンチマーク データセットの有用性が制限される

論文リンク: https://dl.acm.org/doi/pdf/10.1145/3543507.3583214

まとめ

        オンライン プラットフォームの安全性と完全性のためには、正確なボット検出が必要です。また、選挙におけるボットの影響、誤った情報の拡散、金融市場操作を研究するためにも重要です。

        プラットフォームは、自動化されたアカウントにフラグを立てたり削除したりするためのインフラストラクチャを展開しますが、そのツールやデータは一般公開されていません。したがって、一般の人々はサードパーティのボット検出に依存する必要があります。

        これらのツールは機械学習を採用しており、多くの場合、既存のデータセットでほぼ完璧な分類パフォーマンスを達成しており、ロボット検出が正確で信頼性が高く、下流のアプリケーションに適していることを示唆しています。

        我々は、そうではないという証拠を提示し、高いパフォーマンスがツールの複雑さではなく、データセットの収集とラベル付けの制限によるものであることを示します。

        具体的には、単純な決定ルール (少数の特徴でトレーニングされた浅い決定ツリー) が、利用可能なほとんどのデータセット (ロボット検出データセット) で最先端のパフォーマンスを達成できることを示します。データセットを組み合わせた場合でも、サンプル外のデータセットにはうまく一般化できません。

        私たちの結果は、予測がロボットと人間の基本的な違いではなく、各データセットの収集とラベル付けの手順に大きく依存していることを示しています。

        これらの結果は、サンプリングとラベル付け手順の透明性と、前処理に既存のロボット検出ツールを使用した研究における潜在的な偏りに対して重要な意味を持ちます。

序章

        他の人とつながり、情報を共有するための重要な手段としてオンライン ソーシャル メディアが台頭するにつれ、ボットや自動アカウントの影響が社会的に懸念される重要なトピックになっています。一部のボットは無害で、興味深いコンテンツを提供したり、サイトのアクセシビリティ (プラットフォームにない動画の字幕) を直接強化したりしますが、影響力を行使したり、誤った情報や嫌がらせを広めたりするボットも多数あります。ユーザーの人気、サイト上で政治的候補者や製品を宣伝するスパマー、選挙の信頼性を損なったり、二極化を悪化させたりする悪意のある自動アカウント。ボットは、2016 年の米国大統領選挙 [4,36]、Brexit 国民投票 [3,36]、新型コロナウイルス感染症に関する誤った情報の拡散 [25]、金融市場 [11,52] に影響を与えたと報告されています。これらのアカウントに正確にラベルを付けることができる(またはできない)ことは、選挙、公衆衛生、および機関に対する国民の信頼に非常に現実的な影響を与える可能性があります。

        プラットフォームは、本物ではないとみなした多数のアカウントを削除しますが、これらの削除システムは秘密にされており、ボットの影響や蔓延を誤って伝えるよう動機付けられている可能性があります。実際、ボット検出はイーロン・マスクの Twitter 買収交渉の中心でした。Twitter は収益化可能なユーザーの 5% 未満がボットであると主張しています [66] 一方で、マスクはその数ははるかに多く、もっと多いと主張しています [51]。社内のボット検出技術は一般に公開されていないことが多いため、研究者、ジャーナリスト、一般の人々は、ボットと実際の人間のユーザーを区別し、社会現象に対するボットの影響を理解するために研究者が開発したツールに依存しています。

        Twitter やその他のオンライン ソーシャル メディア プラットフォームでのボット検出ツールの開発は、活発な研究分野です。過去 10 年間、サードパーティのボット検出を可能にするために、大規模なユーザー データ セットが収集されてきました。これらのデータセットでは、アンサンブル ランダム フォレストやディープ ニューラル ネットワークなどの表現力豊かな機械学習技術と、プロフィール メタデータ、エンゲージメント パターン、ネットワーク機能、ツイート コンテンツ、センチメントなどの数百の機能を使用して、高い (場合によっては完璧に近い) パフォーマンスが実現されます。

        重要なことは、研究者は社会現象を研究し、人間のユーザーをボットから分離し、人間とボットの一方または両方に関連する現象を研究するための前処理ステップとしてボット検出を使用することがよくあります。これには、誤った情報や偽情報の拡散 [6,40,53,61–63,67]、選挙 [2,4,24,41,54,64]、エコー チェンバー [7] などの主題分野が含まれます。 Science [67]、Nature [53]、PNAS [64] などの主要な科学研究サイトに掲載されています。たとえば、Broniatowski ら [6] はボットがワクチン接種の信頼を損なうと観察し、González-Bailón ら [35] は政治的抗議活動中にボットが不釣り合いな量のコンテンツを共有すると結論付け、Vosoughi ら [67] は次のように結論付けた。人間とボットはフェイクニュースを広める方法が異なります。これらの結果の堅牢性と妥当性は、正確で信頼性の高いロボット検出に依存します。

        サードパーティのボット検出ツールも容易に入手可能であり、一般に広く使用されています。最新バージョンの Botometer [60] は、そのパブリック API [74] に対して 1 日に数十万のクエリを受信すると報告されており、BotSentinel [5] は次のことを提供します。 a ブラウザ拡張機能と、ボットとして分類されたアカウントを簡単にブロックする方法。

        ロボット検出は解決された問題ですか? 一見すると、ロボット検出の研究は機械学習の成功例のように見えます: 研究者は、明確に定義された分類タスク、ランダム フォレスト、ニューラル ネットワーク、その他の表現力豊かな機械学習のためにさまざまなデータセットを収集しました。モデルはデータに対してほぼ完璧なパフォーマンスを達成します。さらに、これらの方法は学術文献や公共用途の両方で広く採用されています。ボット検出ツールはデータセットの組み合わせでトレーニングされることが多く、研究者らは、既存の手法は既存の分類器の欠点や、より人間に近いロボットの進化に簡単に適応できると主張しています。

        それでも、ボット検出ツールは完璧には程遠いという兆候があります。それらは互いに矛盾し [47]、時間の経過とともに信頼性が低いことが証明され [56]、疑わしいラベル [26、27] に依存している可能性があります。ここで、成功したと思われる Twitter ボット検出を調整し、体系的に説明しようとする私たちの試みには、重大な限界があるようです。

        サードパーティのボット検出データセットとツールを評価することは本質的に困難です。一般の人々が知らない、またはアクセスできない「グラウンド トゥルース」であり、Twitter がボットを検出できる唯一の窓口はデータセットそのものです。ただし、評価ができないわけではありません。これらのデータセットとそれらの間の関係を注意深く分析することで、これらのデータセットが何を伝えているかをより深く理解できるようになります。

        Cresci et al. [10] (cresci-2017) によって公開され、学術文献で最も広く使用されているデータセットを例に挙げます。データセットは、実際の人間のユーザーのプール、偽のフォロワーのコレクション、およびドメイン内のさまざまなアカウントのコレクションである数種類の「スパム ボット」で構成されています。最先端のモデルは、テキスト データを使用するディープ ニューラル ネットワークであり、このデータセットで基本的に完璧なパフォーマンスを実現します [43]。しかし、詳しく見てみると、驚くべきことがわかります。データに対して「はい/いいえ」の質問のみを行う分類器を使用すると、ほぼ最先端のパフォーマンスを達成できます。実際、人間とロボットをほぼ区別する明確な「はい/いいえ」の質問が少なくとも 2 つあります。図 1 に示すように、これらの分類子はデシジョン ツリーの左側と中央に表示されます。

         : creci-2017 の 2 つの浅いデシジョン ツリー (左、中央) の精度は 0.98、caverlee2011 の 1 つの浅いデシジョン ツリー (右) の精度は 0.91。

        後で説明するように、左側のツリーは Cresci ら [16] による便宜サンプリングの産物であり、Twitter を使用した自然災害に対する社会的認識が関係していると私たちは主張します。図 1 の右側には、別の人気のあるデータセット、[44] で公開されている Caverlee-2011 の高性能分類器を示しています。同様に、少数の「はい/いいえ」の質問によって、人間とボットを高い精度で区別できました。これらの例は特別なものではありません。これから示すように、私たちが分析する他のほとんどすべてのベンチマーク データセットは、非常に単純な分類器で高いパフォーマンスを示します。

        これらの結果と、ボットの検出は難しい問題であるという直観をどのように調和させるべきでしょうか? 一方で、ボットの検出は予想よりも簡単である可能性があり、単純な決定ルールで十分です。一方で、おそらくデータセット自体はボット検出の真の複雑さを捉えることができません。この場合、単純な決定ルールは、サンプルでは良好なパフォーマンスを示しても、展開するとパフォーマンスが大幅に低下します。私たちは、広範な Twitter ボット検出データセットを通じて、後者の仮説を支持する証拠を提供します。

        私たちの貢献。この研究では、広く使用されている Twitter ボット検出データセットを精査し、その限界を調査します。まず、単純な決定ルールがベンチマーク データセット上で最先端のモデルとほぼ同じパフォーマンスを発揮することを示します。したがって、各データセットは、限られた複雑さの予測信号のみを提供します。シンプルな決定ルールにより、分類器のパフォーマンスが高い理由を透過的に調べることができるため、データセット内の予測信号が特定の収集およびラベル付けプロセス(アカウントを収集し、各アカウントに人間またはボットのラベルを割り当てる) を反映している可能性が高いことがわかります。

        次に、データセットの組み合わせを調べます。多くのボット検出ツールはデータセットを組み合わせており ([17、37、75] を参照)、暗黙的または明示的に、Twitter 上に出現するボットの分布をカバーするためにそうしています。以前の研究 [18,60] に基づいて、1 つのデータセットでトレーニングされた表現力豊かな機械学習モデルは、他のデータセットでテストするとパフォーマンスが低下し、1 つを除くすべてのデータセットでトレーニングされたモデルはテスト時に適切にパフォーマンスしないことを示します。データセットによって提供される情報を他のデータセットに一般化することはできず、データセットの分布に応じてデータセットの異なる分布が示唆され、異なるサンプリング (つまり、収集とラベル付け) 手順が示唆されます。

        最後に、各データセットにいくつかのタイプ (スパム ボットや偽のフォロワーなど) のいずれかのボットが含まれているという構造的な仮定をデータに課すことで、Sayyadiharikandeh ら [60] と Dimitriadis の方法のように、より一般化できるかどうかを検討します。ら[17]が示した。私たちは、単純な決定ルールで各タイプのロボットと人間を正確に区別できることがわかりました。したがって、1 つのタイプの各ロボット サンプルは本質的に情報の複雑さが低くなります。また、特定のボット タイプのアカウントでは、単純な決定ルールで特定のボットがどのデータセットから来たのかを特定できることも示します。したがって、特定のロボット タイプのデータセットは非常に異なる分布から抽出されており、やはり異なるデータ収集プロセスが示唆されています。総合すると、これらの結果は、個々のデータセットにはほとんど情報が含まれておらず、各データセットの予測信号は、特定のタイプのロボットを表すデータセットであっても、他のデータセットの予測に寄与しないことを示唆しています。したがって、既存のデータセットがロボットの代表的または包括的なサンプルを提供する可能性は低く、これらのデータに基づいてトレーニングされた分類器が導入されたときに適切に機能する可能性は低いです。

        ボットの検出に加えて、データセットの単純な決定ルールを調べ、データセット全体のパフォーマンスを測定するという私たちのアプローチは、さまざまな機械学習アプリケーションにおける単純なデータのサンプリングとラベル付けプロセスの検出に役立つ可能性があります。データセットが高精度の単純な決定ルールを許可する場合、データセットはそれ自体は情報の複雑さが低いです。さらに、一部のデータセットでトレーニングされた表現力豊かな機械学習モデルが他のデータセットに一般化しない場合、基礎となるシステムは単純ではないと思われ、そのデータセットが問題領域全体に対する洞察を提供する可能性は低くなります。

        また、これらの発見は、Twitter やその他の分野での将来のボット検出研究に直接的な影響を与えると考えています: ボット検出データセットの作成者は、サンプリングとラベル付けの手順を透過的に報告し、正当化する必要があります; ボット検出技術を開発する研究者は、トレーニングと分析が簡単である必要があります。ロボット検出を前処理ステップとして使用する研究者は、ロボット検出が結果にどのような影響を与えるかを考慮する必要があります。

バックグラウンド

        ロボット検知技術。分類能力を向上させるために、研究者らは一連の最先端の機械学習技術を使用して、さまざまな種類のデータを検出しました。1 つのアプローチは、ランダム フォレスト [32,72] と、データのサブセットでトレーニングされた分類器の予測を組み合わせたランダム フォレストのアンサンブルを適用することです。もう 1 つの一般的なアプローチは、テキスト データを活用して、事前にトレーニングされた大規模な言語モデル [38] または研究者自身がトレーニングしたモデル [28、39、43、46、48] を適用することです。3 番目のアプローチは、ネットワーク データを使用してグラフ ニューラル ネットワークをトレーニングするか [1、20、23]、異常なネットワーク構造からボットネットの検出を試みます [70]。最後に、4 番目のアプローチは、行動学 [30,34] または生物学的にヒントを得た技術 [13–15,58] を使用して、他の分野から洞察を求めます。新しい予測モデルに加えて、ロボット検出に情報を提供する可能性のある輪郭、テキスト、またはネットワークの特徴を導出または探索することに多大な労力が費やされてきました[39、49]。上記で引用したすべての論文は、私たちの研究で分析されたベンチマーク データセットに依存しています。

        ボット検出ツールの制限。いくつかの論文はロボット検出技術の限界を調査しましたが、これらの限界を説明する証拠を提供した論文はほとんどありませんでした。私たちの知る限り、私たちの研究は、単純なサンプリングとラベル付け戦略に対するボット検出の限界を追跡した最初の研究です。Martini ら [47] は、ボット検出用の 3 つの公開ツールを比較し、異なるツール間の予測に大きな違いがあることを発見しました。これに関連して、Rauchfeisch と Kaiser [56] は、アカウント アクティビティの変化により、単一のツールが時間の経過とともに異なる結果を生成する可能性があることを発見し、Torusdaul ら [65] は、既存のボット検出フレームワークを確実に回避できるツールを作成しました。Elmas ら [19] は、ボット アカウントが最近作成されたことが多い、または高レベルの活動によってフラグが立てられたなど、以前の研究で得られた定性的な観察が、論文のために収集されたデータには当てはまらないことを発見し、蔓延率 A は次のように結論付けました。分類子は一般化できない可能性があります。Gallwitz と Kreil [26、27] は、一般的なデータセットで「ボット」として誤ってラベル付けされた個々のアカウントを手動で特定し、誤検知の蔓延を指摘し、グラウンド トゥルースと考えられるラベルに誤りがある可能性があると主張しました。

データとメソッド

        このセクションでは、分析したデータセットと、各データセットを分析に含める基準について説明します。文献にあるほとんどのベンチマーク データセットは、さまざまなコンテキストにわたって収集されたデータの集合体であり、私たちが調査したベンチマーク データセットは表 1 にリストされています。

データ収集        

        ベンチマーク データセットのリストを収集するために、Google Scholar でボット検出に関連する査読済みの論文と、見つかった論文の参考文献を検索しました。分析に含めたデータセットの少なくとも 1 つを使用している論文が合計 58 件あり、そのうち 22 件は執筆時点で Google Scholar で少なくとも 50 件引用されており (いくつかの論文は少なくとも 500 件引用されていました)、そのうち 26 件は2020年以降に出版。私たちの分析では、検索で見つかった精度と F1 スコアを報告する、査読済みの複数のロボット検出論文で使用されたデータセットのみを含めましたが、ほぼすべてのデータセットは 2 つ以上の論文で使用されていました。いくつかのデータセットは Botometer Bot リポジトリを通じてアクセスされました
。残りのデータセットについては、関連論文の著者に連絡して元のデータ (twibot2020 および yang-2013) へのアクセスをリクエストするか、オンラインで公的にアクセス可能なデータを見つけました (caverlee の場合) -2011 年と汎-2019 年)。

        また、元の研究で使用された gilani-2017 の拡張データも著者から受け取りました [30–32]。ただし、Bot リポジトリでは、縮小された機能セットが利用可能です。gilani-2017 と caverlee-2011 の場合、著者によって提供された元のデータ [32、44] には、Bot リポジトリに含まれるユーザーよりも少なくとも 35% 多くのユーザーが含まれており、結果ではより大きな元のデータ セットを使用しています。Bot リポジトリで公開されている astroturf および varol-2017 データセットの場合、データはユーザー ID のリストとしてのみ表示されます。生成されてから長い時間が経過しているため、このデータを復元したり、分析に使用したりしませんでした。

        特徴。すべてのデータセットには、通常、スクリーン名、ツイート数、フォロワー数、お気に入り数、言語、場所、タイムゾーン、ユーザーを含む Twitter リストの数などのプロフィール特性が含まれています。さらに、一部のデータセットには、データセット内の各ユーザーのツイートのコーパスも含まれています。オンライン関係および関連するフォロー/フォロワーの行動が記録されることがあります。

        注釈付けメソッド。ロボット検出の「グラウンド トゥルース」ラベルを決定することは、困難な作業です。ほとんどのデータセットでは、人間 (論文の著者であれ、雇われたクラウドワーカーであれ) が各アカウントに「ロボット」または「人間」のラベルを手動で割り当てます。以前の研究では、ヒューマン アノテーターは互いに高度に一致していることが判明し [32]、一貫性のないアカウントはデータセットから除外される場合がある [22]。ヒューリスティックを使用したり、有名人のアカウント [celebrity2019] や公開ブラックリストのツイートへのリンクを投稿するアカウント [yang2013] などの外部ソースに依存してそれらを割り当てる人もいます。手作業でラベル付けされたデータセットとヒューリスティックにラベル付けされたデータセットの品質は、人間が分類タスクに非常に優れているという暗黙の前提に大きく依存しますが、データセット自体も広範な文献も、これが事実であるという強力な証拠を提供しません。対照的に、最近の証拠は、ヒューマン・アノテーターは一貫性のないアカウントをボットとみなす傾向に系統的に偏っていることを示唆しています[69、71]。同様に、半自動アカウントや企業や大学などの組織体を表すアカウントなど、ボットや人間のラベルが適さないアカウントもいくつかあります [8]。ただし、他の研究ではデータ内のラベルが本物であると仮定しており、これより良い注釈付け方法が利用できないため、同じ仮定を立てます。

データセットの説明

        私たちが検討するデータセットは、単一のカテゴリ (人間またはロボット) アカウントで構成されるコンポーネント データセットと、コンポーネント データセットの組み合わせで構成される複合データセットの 2 つのカテゴリに分類されます。28 個のデータセットのそれぞれについて、以下に簡単に説明します。データセットは、特に明記されていない限り、関連論文の著者によって手動でラベル付けされました。

        Social-spambots-1 [10] は、2014 年のローマ市長選挙中に特定の候補者を宣伝するために使用されたスパム アカウントです。Social-spambots-2 [10] は、ハッシュタグ #TALNTS を使用して Talnts アプリケーションを宣伝するスパマーです。Social-spambots-3 [10] には、正規の製品リンクや悪意のある URL など、Amazon の製品へのスパム リンクを送信するアカウントが含まれています。classic-spambots-yang [72] は、Twitter ネットワークをクロールして収集されたスパム内の既知の悪意のあるリンクのアカウントです。true-accountsyang [72] は、従来の spambot-yang と同じクローリング プロセスから取得された、Twitter に悪意のあるリンクを投稿していないアカウントです。classic-spambots-2 [10] には、悪意のある URL を共有するアカウントや、そのようなコンテンツを共有しているとして繰り返しフラグが立てられるアカウントが含まれます。Legacy-spambots-3 [10] および Legacy-spambots-4 [10] は、求人情報をスパム送信するアカウントです。pronbots-2019 [73] は、ポルノ サイトへのリンクをまれに投稿する Twitter ボットです。elezioni-2015[12] は、ハッシュタグ #elezioni2013 が手動でタグ付けされたイタリア語のアカウントです。political-bots-2019 [73] Josh Russell (@josh_emerson) によって収集され、2018 年の米国中間選挙で右翼の影響力を拡大するように設計された個人によって実行される自動アカウントとして特定されました [75] 関連するハッシュタグを使用したアカウントが含まれます。 2018 年の米国選挙中の #2018midterms。trueaccounts-cresci [10] は、人間の Twitter ユーザーのランダムなサンプルであると主張しており、自然言語の質問への応答によってその信頼性が確認されます。これらはすべて、セクション 1 で言及し、セクション 4 で説明した「地震」をツイートするアカウントです。twibot-2020 [22] は、有名なユーザーをシードとして使用して Twitter ネットワークをクロールすることによって収集されます。これらのアカウントには、雇われたクラウドワーカーによって手動でフラグが付けられました。

        rtbust-2019 [49] には、データ収集期間中にイタリアのツイートをリツイートしたすべてのアカウントからサブサンプリングされた手動でラベル付けされたアカウントが含まれています。fake-followers-2015 [10] およびvendorpurchased-2019 [73] は、さまざまな Twitter オンライン マーケットプレイスから購入した偽のフォロワー アカウントです。Caverlee-2011 [44] はハニーポット Twitter アカウント経由で収集され、研究者らは人間とコンピューターの相互作用の自動プロセスを使用してボットと人間のアカウントにフラグを立てました。Celebrity-2019 [73] は、検証済みの有名人のアカウントを手動で収集したものです。the-fake-project-2015[12] は、@TheFakeProject をフォローし、キャプチャを正常に完了したアカウントで構成されます。botwiki-2019 [75] は、ジェネレーティブ アートを投稿したり、世界の祝日をツイートしたりする自動アカウントなど、自己識別された無害な Twitter ボットのリストです。Feedback-2019 [73] は、Botometer ユーザーがツールによって誤ってラベル付けされたとしてフラグを立てた約 500 のアカウントのコレクションです。

        私たちが調査するいくつかのデータセットは、上記のコンポーネントを組み合わせたものです。cresci-2015 [12] には、the-fake-project-2015、elezioni-2015、fake-followers-2015 が含まれています。cresci-2017 [10] は、fake-followers-2015、true-accounts-cresci、3 つのソーシャル スパム ボット データセット、および 4 つの従来のスパム ボット データセットで構成されます。yang-2013 [72] には、従来のスパム ボット (yang) のボットと、リアル アカウント (ヤン) の人間がいます。pan2019 [55] には、cresci-2015、cresci2017、varol-2017 のすべてのコンポーネントに加えて、caverlee-2011 と、それらのいずれにも見つからない手動で注釈が付けられたロボットと人間の追加のコレクションが含まれています。このデータセットには、元のコンポーネントには存在しないツイート データも含まれています。

方法

        シンプルな意思決定ルール。高度な機械学習モデルは、入力データ パターンとそのラベルの間の複雑な関係を学習できますが、その柔軟性は多くの場合、透明性と解釈可能性を犠牲にします。

        「単純な決定ルール」を浅い決定ツリーとしてインスタンス化することを選択したのは、その透明性により、各データ ポイントにラベルが割り当てられた理由を簡単に確認できるためです。主にロボット検出で使用される複雑で不透明なモデルでは、同様の分析がはるかに困難であるか、実行不可能です。研究者は、LIME [57] や SHAP [45] などの現在標準的な解釈可能な機械学習ツールを使用して、ロボット検出モデル [12、42、75] を構築しています。ただし、これらのどれも、基になるデータセットが、私たちが行っているように、少数の特徴に依存するシンプルで高性能な分類器を可能にしていることを証明するものではありません。線形回帰、平均、最近傍分類器などの他の単純な機械学習モデルも、浅い決定木に同様の解釈可能性を提供できる可能性がありますが、特定の手法の選択は私たちの分析にとって重要ではありませんでした。

        scikit-learn のバイナリ決定木実装 2 を使用し、データを 2 つのグループに最適に分類する特徴としきい値のペア (ノードで表される) を選択し、数値データに対して決定木を再帰的にトレーニングして各グループを分離します。私たちの場合、固定再帰深さ (ツリーの深さに対応) の後、分類器はグループ内の例の大部分に対応するラベルを出力します (これらはツリーの葉です)。樹木の検査を容易にし、過度の使用を避けるために、深さが 4 以下の樹木のみを考慮します。ベンチマーク データセットでトレーニングされた浅い決定木のいくつかの例については、図 1 を参照してください。

        パフォーマンス。文献で最も一般的に報告されている指標は、精度と F1 スコアです。精度は、正しくラベル付けされた例の割合として定義されます。単純なモデルは常に多数クラスを予測することで高い精度を達成できるため、データセットがクラス間で不均衡である場合、精度が誤解を招く可能性があります。二項分類における F1 スコアは、モデルの精度と再現率の調和平均です。このコンテキストでは、F1 スコアが低いということは、分類器が高い割合のロボットを検出できなかったか、大部分の人間に誤ったラベルを付けたことを示しています。F1 スコアには、真の陰性者、つまり人間が人間として正しくラベル付けされた人の数は含まれていません。これは、ボットの数が人間の数を上回っている場合に誤解を招く可能性があります。

        2 つの指標は補完的ですが、両方ともデータ内の人間とボットの割合に依存します。これらの理由により、ロボットと人間の比率が異なるモデルやデータセットの精度と F1 スコアの結果を比較することは困難です。さらなる明確さと比較可能性を提供するために、分類子のバランスの取れた精度 (bal.acc.)、つまり真陽性率と真陰性率の算術平均を報告します。分類器が展開される環境におけるロボットと人間の相対的な割合が事前にわかっている場合、バランスの取れた精度はあまり有用な指標ではありません。

おすすめ

転載: blog.csdn.net/qq_40671063/article/details/132026462