(WWW2023) 論文の閲覧 - 低リソース言語でのソーシャルメディア操作の検出

論文リンク: https://arxiv.org/pdf/2011.05367.pdf

まとめ

        ソーシャル メディアは、政治的操作や偽情報などの悪意のある目的に意図的に使用されます。ほとんどの研究は高リソース言語に焦点を当てています。ただし、悪意のある攻撃者は、リソースの少ない言語を含む、国や言語を超えてコンテンツを共有します。

ここでは、低リソースの言語設定で悪意のあるアクターが検出できる        かどうか、またどの程度検出できるかを調査します2016 年の米国大統領選挙後、Twitter による干渉取り締まりの一環として、タガログ語で投稿した多数のアカウントが停止されたことが判明しました。

        テキスト埋め込みと転移学習を組み合わせることで、私たちのフレームワークは、タガログ語での悪意のあるコンテンツに関する事前の知識やトレーニングがなくても、タガログ語で投稿した悪意のあるユーザーを正確に検出できます。

        まず、各言語、つまり高リソース言語 (英語) と低リソース言語 (タガログ語) の埋め込みモデルを個別に学習します。

        次に、2 つの潜在空間間のマッピングを学習して、検出モデルを転送します

        私たちは、提案された方法が BERT などの最先端のモデルを大幅に上回り、オンライン プラットフォームでの悪意のあるアクティビティの検出を扱う際の標準である非常に限られたトレーニング データの設定で大きな利点をもたらすことを実証します。

導入

        偽情報と政治的操作には長い歴史があります。たとえば、ソーシャル メディアの時代よりずっと前の 1984 年に、HIV は生物兵器として米国政府によって作成されたと主張する記事が世界中に広まりました。今日、ソーシャル メディアは、かつてないほど情報の流れを増幅し、加速させています。Twitter や Facebook などのオンライン ソーシャル ネットワーク (OSN) は、オンラインでの言説の信頼性と信頼性を損なう悪意のあるコンテンツの大幅な増加に直面しています [1、21、24、32、74、77]。

        さまざまな研究は、OSN が悪意のある目的に使用され、地政学的な出来事 [22、27、44、58、63] から公衆衛生 [14、25、28、 52、78]。ボットと荒らしは、ソーシャル メディア操作と偽情報キャンペーンの主要なプレーヤーであり [3、11、26、45、62]、多くの場合、組織的な方法で行われます [29、51、53、64、67、76]。

        政治的文脈における大規模な世論操作のリスクには特に注意が払われており、2016 年の米国大統領討論会選挙におけるサイバー干渉が最もよく例証されています [4、6]。それ以来、OSN は不正行為と闘い、プラットフォーム上での信頼と健全な対話を維持するために懸命に取り組んできました。努力にもかかわらず、荒らしやボットの活動は依然として続いているようです[36、43、72]。たとえば、Twitter はロシア、イラン、バングラデシュ、ベネズエラを含むさまざまな国の悪意のあるアカウントを特定して停止しました [71] ことは、国や言語を超えてオンライン上の言論を操作するための協調的な取り組みを示唆しています。最近では、Pieri ら [58] が、ウクライナとロシアの間で進行中の紛争に関連して、プラットフォームの悪用とその後の Twitter 介入の証拠を文書化しました [57]。他の人は悪意のあるユーザーを検出するために高リソース言語 [41、43、69、70] を使用してさまざまな戦略を検討していますが [12、13、33、49]、ここでは転送を使用した方法を提案します。悪意のあるユーザーを検出すると、リソースの少ない言語で不正行為を行っているアカウントが自動的に識別されます。

この作品の投稿

        私たちの目的は、リソースの少ない言語でメッセージを共有しているアカウントに特に注意を払い、ソーシャル メディア上の悪意のあるアクティビティを検出するためのプロキシとしてテキスト コンテンツを使用できるかどうか、またどの程度まで使用できるかを調査することです。全体として、私たちは次の 2 つの主要な研究上の疑問に答えることを目指しています。

        RQ1: 共有内容のみに基づいて、アカウントを悪意のあるアカウントとして分類できますか? 私たちは、停止されたアカウントを特定するためにツイートから単語表現を学習することの有効性を調査します。

        RQ2: 停止されたアカウントを検出するために、高リソース言語 (英語) からモデルを学習し、低リソース言語 (タガログ語) に知識を移すことはできますか? 私たちは、2 つの独立してトレーニングされた単語埋め込み間のマッピングを学習することが、不正行為を行っているアカウントを特定するのに有益であるかどうかを調査します。

数字で見る: 2016 年米国大統領選挙

        この調査では、2016 年の米国大統領選挙に焦点を当てた悪意のあるアカウントのアクティビティを検出するためのテスト プラットフォームとして Twitter を使用します。このデータセットは、約 600 万人の異なるユーザーによる約 4,200 万件のツイートで構成されており、最初に公開されたのは [6] です。23 の選挙キーワード (ドナルド トランプ 5 件、ヒラリー クリントン 4 件、第三党候補者 3 件、本選挙用語 11 件) を使用して Twitter ストリーミング API 経由で収集されたツイート。収集は2016年9月16日から2016年10月21日まで実施されました。収集されたツイートのセットから、Twitter API への予期しない冗長なクエリによって検出された可能性のある重複ツイートが削除されました。表 1 は、最も人気のあるキーワードと関連ツイートの数を示しています。キーワードはすべて英語ですが、他の言語でのツイートも収集されました。

        私たちは 60 以上の異なる言語を特定しましたが、最も多くのツイートがヨーロッパ言語で書かれていました。そのうち、500万人近いユーザーが3,760万件以上のツイートを英語で投稿した。オーストロネシア語のタガログ語でのツイートが多数見つかりました。タガログ語は、フィリピン人口の 4 分の 1 の第一言語であり、フィリピン人口の半数以上にとって第二言語です。タガログ語は話者数で米国で 4 番目によく使われている言語であり [73]、英語、スペイン語、中国語に次ぐ言語であり、ツイート数ではデータの中で最もリソースが少ない言語です。米国はまた、フィリピン国外で最大のフィリピン移民人口を抱える国の一つでもある。さらに、タガログ語のリソース不足の状況は、言語のデジタル リソースの量を見積もる一般的な指標であるウィキペディアのサイズの分析によってさらに確認されました。タガログ語のウィキペディアは現在、記事数で 101 位にランクされていますが、私たちのデータセットでの人気とはまったく対照的です。そこで私たちは、この作業の対象言語としてタガログ語に注目しました。

4 方法論

4.1 単語表現

        単語の埋め込みを学習し、分類モデルをトレーニングするには、FastText フレームワークを使用します。FastText は単語をテキストの原子単位として扱うのではなく、文字 n グラムのバッグとして単語を表します [8]。ここで、各 n グラムは独自のベクトル表現を持ち、単語はその構成文字 n グラム Sum として表されます。これにより、モデルは形態学的に豊富で語彙が多い言語に適応し、小さなトレーニング コーパスからより適切に一般化することができます。

        ニューラル ネットワーク ベースのモデルはテキスト分類タスクで大きな成功を収めていますが、トレーニングと展開には依然としてかなりの費用がかかります。FastText は、階層的なソフトマックスを利用して、特定のクラスの確率分布を計算するためのソフトマックス分類器への高速近似として機能します [38]。特徴の枝刈り、量子化、ハッシュ、再トレーニングを使用して、精度や速度を犠牲にすることなくモデルのサイズを大幅に削減するこのアプローチにより、ニューラル ネットワーク ベースのアプローチよりもはるかに高速に大規模なテキスト コーパス上でモデルをトレーニングすることが可能になります [37]。

4.2 転移学習

        自然言語処理のための従来の機械学習手法は、特定のタスクに特化したモデルをトレーニングすることに重点を置いています。ただし、これには大量のデータが必要であり、リソースの少ない言語では取得が困難です。これは歴史的に、高リソース言語 (主にヨーロッパ言語) に関するさらなる研究を引き起こし、それらの言語のためにより多くのリソースを生み出すことによってこのサイクルを加速してきました。転移学習は、ソース言語 (またはソース タスク) から学習した知識を取得し、それを使用してターゲット言語 (またはターゲット タスク) のパフォーマンスを向上させる方法として最近登場しました。

この研究で分析されたターゲット言語データの不足に対処するために、異なる言語からの単言語単語の埋め込みを同じ空間に配置し、それらの間の知識の伝達を可能にする        フレームワークである MUSE を使用します。MUSE は、Procrustes アライメントを使用してソース空間からターゲット空間へのマッピングを学習し、2 つの言語の類似した単語間の距離を最小限に抑えます [40]。これは、事前トレーニングされた単言語単語埋め込み (FastText によって学習されたものなど) の 2 セット (言語ごとに 1 セット) を入力として受け取り、教師ありまたは教師なしの方法でそれらの間のマッピングを学習できます。教師あり手法では、共有空間内で近くにあるはずの類似した単語のペアを識別することで 2 つの埋め込みを位置合わせするために、二か国語辞書を使用する必要があります。このような辞書が存在しない場合、教師なし代替では逆トレーニングを利用してソース空間とターゲット空間の間の線形マッピングを初期化し、合成並列辞書を生成します。[15] は、この方法を使用して、並列データを使用せずに教師なし単語翻訳を実行できること、および結果が場合によっては以前の教師あり手法を上回ることを示しています。

4.3 学習タスク

        単一言語のテキスト分類。最初のアプローチでは、各言語独自のデータセットを使用して、個別のテキスト分類モデルを最初からトレーニングします。分類の目的で、テキストを Bag-of-Words (BoW) として表現し、それらの個々の表現を平均して結合されたテキスト表現にする FastText フレームワークを使用します。このテキスト表現は、予測用のラベル クラスの確率分布を計算するソフトマックス関数を備えた線形分類器への入力として使用されます。

おすすめ

転載: blog.csdn.net/qq_40671063/article/details/132245272