テキストドメインAの調査で堅牢なディープニューラルネットワークに向けて

 

概要

この記事では、攻撃と防御の方法を含め、テキスト、に対してサンプルをまとめたもので、それぞれの長所と短所を比較します。

最後に、課題やこの分野の発展の方向。

 

1はじめに

2つのコアサンプルの対立が存在する一の摂動が十分に小さい、第二は、正常のネットワークを偽装することです。

すべてのDNNSベースのシステムは、潜在的な攻撃をされています。

例えばDNNモデルを使用して多くのNLPタスク、:テキスト分類、感情分析、質問応答システム、など。

上記は、に対する攻撃の一例です。また、サンプルはネットワーク環境に対する被毒され、悪意のある情報を妨げ[21] - 検出[23]。

近年の攻撃と防御方法に対してコントラストに加えて、加えて、記事もCVとNLPなぜ普遍的ではない(評価方法を含む)、フィールド内のメソッド、およびテストと検証の重要性を話します。

本論文では、構造化されています。最初のセクションIIで対決例に関するいくつかの背景知識を与えます。3番目のセクションでは、テキストの分類と対立攻撃他の実用的なNLPタスクを検討しました。防御を中心部5,6が導入は、防衛の既存の方法でテキストの一つの研究は、第二は、別の角度からDNNSのロバスト性を改善する方法を研究することです。考察と本論文の結論は、第7、第VIIIを参照してください。

 

2背景

サンプルに対する式

テキストに対する攻撃と防御に対するサンプルの分類

1.攻撃の分類

一例として、テキスト分類問題。

 

ブラックボックス。ネットワーク構造を知っているか、少しだけを知っておく必要がありません。

ホワイトボックス。完全なアーキテクチャ、各種パラメータや重みを含め、対象モデルを理解しています。

ブラックボックスとホワイトボックス方式は、データとトレーニングモデルを変更することはできません。

 

標的型攻撃。対象試料に対して首尾カテゴリトン(特定のカテゴリ)に割り当てられています。主なカテゴリには、tの信頼を高めることです。

攻撃を標的にされていません。間違ったカテゴリに割り当てられたサンプルのみをターゲット(このカテゴリは、特定のではありません)。目標は、主に本当の自信のカテゴリを減らすために、モデルを欺くことです。

 

攻撃手法に対する防御の2分類

次のように主な二つの方法)は、要約されています。

2つの守備の方向につながった最悪の場合、これらのシステムの堅牢性を評価するためにDNNベースのシステムに対する攻撃から保護するために。

一つは経由で修正、テスト、トレーニングやモデルに直接拮抗防御攻撃。一般的に、直接のプロセスで使用される方法があり、変化検出、および対立学習サンプル拮抗損失関数は

第二に、DNNS増加させることにより、テストと検証方法を含む、堅牢性を

 

判断基準

画像を評価する方法

画像では、ほぼすべての対立攻撃に関する最近の研究のでは感知できない対立の例と類似性を定量化するための距離尺度としてのLP距離を採用しています。距離のための広範な用語をLP:

△xは外乱を表します。この式は、pが01∞が好きであってもよい距離を定義することです。特に、L0 [28] - [30]、L2 [30] - [33]及びL∞[7]、[8]、[33] - [36]最も一般的に使用される画像拮抗3つの仕様です。

L0が変更編集距離の前と後の画素数を計算します。それは見えますが、それは、距離などのテキストエディタで直接動作しない場合があります。ワード変更を伴うテキストが異なるため。それらの間の距離は同じであるが、幾分オリジナルと同様、逆に一部。

ユークリッド距離は、距離L2です。最初のユークリッド空間は、別の直線にユークリッド距離の点です。等の画像、テキストは、それにマッピングされた場合、ユークリッド空間は、ベクトル表現の2つのオブジェクト間の類似度を計算するために、距離空間となります。

次のようにL∞距離は、変化の最大量を表します。

 L∞距離は、最適な距離メトリックは、いくつかの作業で使用されますが、テキストで失敗する可能性が考えられているが。修正単語が辞書に事前に訓練には存在しないかもしれないので、彼らは未知語であると考えられ、その単語ベクトルも不明です。したがって、L∞距離を計算することは困難です。

 

このように、テキストに必要な評価基準がありますが、非常に異なるとフィールドの画像です。

 

2.テキストメトリック

測定問題対決テキストを克服するために、本論文では、いくつかの指標を提示し、それらの5は、測定方法は、関連文献に記載されている証明されています。

ユークリッド距離

比較対象テキストより拮抗画像のメトリックユークリッド距離[30] - [33]は、距離L2又はL2ノルムと呼ばれます。

コサイン類似度

余弦相似度也是一种基于词向量的语义相似度计算方法,通过两个向量夹角的余弦值来计算。与欧氏距离相比,余弦距离更关注两个向量方向的不同。两个向量的方向越一致,相似性越大。对于给定的两个字向量~m和~n,余弦相似度为

但是限制是单词向量的维数必须相同

Jaccard相似性系数。对于两个给定的集合A和B,它们的Jaccard相似系数为:

 0 ≤ J(A,B) ≤ 1,J(A,B)的值越接近1,它们就越相似。在文本中,交集A∩B是指例子中相似的词,并集A∪B是所有词(without duplication)。

单词移动距离(WMD)

WMD[39]是Earh Mover's Distance(EMD)[40]的一种变化。它可以用来衡量两个文本文档之间的差异,依赖于从一个文档的嵌入词到另一个文档的移动距离。换句话说,WMD可以量化文本之间的语义相似性。同时,欧氏距离也用于WMD的计算。

编辑距离

编辑距离是通过将字符串转换为另一个字符串来度量最小修改量的一种方法。它越高,就越不相似。它可以应用于计算生物学和自然语言处理。Levenshtein距离[41]也称为编辑距离,在[24]的工作中使用插入、删除、替换操作。(leetcode有一道类似的题之后再仔细看下)

 

这些度量方法用于不同的情况。向量上采用欧氏距离、余弦距离和WMD。在文本中,对抗样本和干净样本应该转化为向量。然后用这三种方法计算它们之间的相似度。Jaccard相似系数和编辑距离可以直接用于不需要形式转换的文本输入。

 

文本数据集

为了使需要数据的人更容易访问数据,文章收集了一些近年来应用于NLP任务的数据集。

下载地址:

1http://www.di.unipi.it/ gulli/AG corpus of news articles.html

2https://wiki.dbpedia.org/services-resources/ontology

3http://snap.stanford.edu/data/web-Amazon.html

4 https://sourceforge.net/projects/yahoodataset/

5https://www.yelp.com/dataset/download

6http://www.cs.cornell.edu/people/pabo/movie-review-data/

7http://mpqa.cs.pitt.edu/

8http://ai.stanford.edu/ amaas/data/sentiment/

9https://nlp.stanford.edu/projects/snli/

表I是数据的应用。研究工作中使用的其他数据集列在附录X中。

描述

 AG’s News1: 由一个名为ComeToMyHead的学术新闻搜索引擎从2000多个新闻源中收集了超过100万篇文章的新闻集。所提供的db版本和xml版本可以下载用于任何非商业用途。

DBPedia Ontology2:包含来自各种Wikimedia项目中创建的信息的结构化内容。它有超过68个类,2795个不同的属性,现在这个数据集中包含了400多万个实例。

Amazon review 3:从1995年6月到2013年3月,Amazon review数据集拥有近3500万条评论,包括产品和用户信息、评分和纯文本评论。它被200多万种产品中的600多万用户收集,并被分为33个类,大小从KB到GB不等。

Yahoo! answer 4:语料库包含400万个问题及其答案,可以方便地在问答系统中使用。此外,还可以用一些主类构造主题分类数据集。

Yelp Reviews5:提供的数据由Yelp提供,以使研究人员或学生能够开发学术项目。它包含470万条用户评论,其中包含json文件和sql文件的类型。

Movie Review(MR)6:这是一个有标记的数据集,涉及情感极性、主观评分和带有主观地位或极性的句子。可能因为它是由人类标记的,所以这个数据集的大小比其他数据集要小,最大为几十MB。

MPQA Opinion Corpus7: 多视角问答(Multi-Perspective Question answer, MPQA),语料库收集了各种各样的新闻来源,并为观点或其他私有状态进行注释。MITRE公司为人们提供了三种不同的版本。版本越高,内容越丰富。

Internet Movie Database (IMDB)8: IMDBs是从互联网上抓取的,包括5万条正面和负面的评论,平均评论长度近200字。它通常用于二元情绪分类,包括比其他类似数据集更丰富的数据。IMDB还包含附加的未标记数据、原始文本和已处理的数据。

SNLI Corpus9:斯坦福自然语言推理(SNLI)语料库是一个人工标注数据的集合,主要用于自然语言推理(NLI)任务。有近50万对句子是人类在一定的语境中写成的。关于这个语料库的更多细节可以在Samuel等人的研究中看到。

 

对抗样本的性能评价

研究人员通常通过准确率或错误率来评估他们对目标模型的攻击。

正确率:输入正确识别率。正确率越低,对抗性的例子越有效。

错误率:输入错误辨别率。它的使用与正确率相反。

此外,一些研究人员更喜欢利用攻击前后的准确性差异,因为它可以更直观地显示攻击的效果。这些标准也可以用来抵御对抗性样本。

 

3 文本分类中的对抗攻击

由于对抗性攻击的目的是使DNNs行为失当,因此可以从广义上将其视为一个分类问题(正确或错误的判断)。近年来,文本中具有代表性的对抗性攻击大多与分类任务有关。在本节中,我们根据分类的类型将文本中现有的大多数对抗性攻击分为三个部分。下面给出了每种攻击方法的技术细节和相应的注释,以便读者更清楚地了解这些攻击方法。

A.非目标攻击分类

4 其他类别中的对抗攻击

5 文本中对对抗攻击的防御

6 测试和验证是防御对抗攻击的关键领域

7 讨论

8 结论和未来方向

おすすめ

転載: www.cnblogs.com/shona/p/11305232.html