論文を読む|ヒューリスティック著者情報の難読化

論文のアドレス:https : //www.aclweb.org/anthology/P19-1104/

 

既存の研究活動:

記事の著者スタイルを変更するための信頼できる方法はありません。ルールベースの方法は十分に柔軟ではなく、特定の著者にとって十分なルールセットがありません。単言語機械翻訳に基づく十分なデータセットの欠如、多言語翻訳をリサイクルする方法は、それは無効であることが判明し、同時に、これらの方法はテキストの品質を制御できませんでした。

この記事の作業と革新:

焦点は、著者の身元確認、つまり、2人のテキストが同じ著者によって書かれているかどうかの問題にあります。この記事の主な作業は2つの部分に分かれています。n-gram間のJensen-Shannon距離としての書体の違いのモデル化、およびヒューリスティック検索を使用して著者の書体を変更します。記事の変更が最小であることを前提に、著者の識別難読化方法を使用して検証方法を無効にします。

調査方法:

まず、検証の観点から混乱に対処するために:同じ著者による記事が与えられた場合、記事の1つは著者によって書かれましたが、一般には知られていません。目標は、この記事を書き直して検証方法を無効にすることです。

紛らわしいテキストをいつ停止するかを知るには、テキスト間の距離を測定する必要があります。距離が特定のしきい値を超えると、ぼかし処理を停止できます。ここでは、文字の3つの文字の頻度を使用して、語彙、句読点、字句の特徴などを含むテキストを表します。スタイル距離尺度として、Kullbach-Leibler divergence(KLD)を使用します。式は次のとおりです。

 

このうち、PとQのタイムシェアリングは、処理されるテキストと既知のテキスト内の対応する文字トリプレットの離散確率分布です。

KLD自体にはいくつかの問題があります(たとえば、非対称です)筆者の改善方法は、対称Jensen-Shannon divergence(JSD)を使用することです。定義は次のとおりです。

 

 

 

実験で、著者は、固定されたしきい値が適切ではないことを発見しました。実験により、下図に示すように、テキストの長さに反比例することがわかりました。

 

したがって、特定のしきい値は次のように定義されます。

 

JSDの相違は、テキスト間の距離を測定するために前部で定義されています。トリプレットの長さは、派生によってソートできます。式は次のとおりです。

 

次に、貪欲な思考に基づく単純な難読化ステップは、最大の微分値を持つトリプレットがしきい値に達するまで削除することに起因する可能性がありますが、これは簡単に逆転され、意味が変わる可能性があるため、合理的な検索戦略が必要です。

この記事では、置換戦略には次の3つの目標があります。

1.各用語について、全体に影響を与えずにJSDを最大化します。

2.無料の翻訳によるテキスト品質の低下を最小限に抑えます。

3.テキスト操作の数を最小限に抑えます。

h(n)を目的のしきい値に到達するための検索の最適コストとし、g(n)を元のテキストノードsからnへのパスコストとします。定義演算子とそれに対応するコストは次のとおりです。

 

対応する式は次のとおりです。

 

 

 

貪欲な検索戦略の代わりに、発見的検索戦略を使用します。

実験結果:

 

テキスト修正の実際の例:

 

評価:

最初に、JSDの相違を定義することによって2つのテキスト間の距離が測定され、次に記事を変更するための発見的検索アルゴリズムが開発されます。このプロセスには、まだ多くの改善点があります。たとえば、検索スペースが大きいため、著者は深さ方向と幅方向の検索の間の方法を使用して検索効率を向上させます。このプロセスでは、いくつかの未検証の仮定が使用されます。ただし、この記事の詳細は、実験の評価部分で説明しています。

おすすめ

転載: www.cnblogs.com/bernieloveslife/p/12741620.html