2019年04月09日

文書分類結果を操作する言い換え離散攻撃の詳細

このエントリーをはてなブックマークに追加
follow us in feedly





Discrete Attacks and Submodular Optimization with Applications to Text Classification
Qi Lei , Alexandros G. Dimakis ,   UT Austin
Lingfei Wu, Pin-Yu Cheny, Michael WitbrockIBM Research
Inderjit S. Dhillon   Amazon
arXiv preprint arXiv:1812.00151 (2018).



*問題設定
ほとんどのシナリオでは、最大でm個の特徴のみ変換を許可します。
入力データx とラベル yについて、classifierの出力ラベルの期待値を最大化するために、 入力xの、全ての可能なm個の置換について探索します。
本論文では、単語と文の言い換えに注意しします。
考えられる変換には、勾配方向と単語ベクトルの最近傍への置換、または各単語内の文字の反転です。

Text Classificationと言っている通り、簡明な例としてスパムフィルタなど回避する事を考えているわけです。
............
ここで、

同義語辞書を使うとか、勾配法、貪欲法など言っているのが、換言としてはそれは適切なはずですが、改変(攻撃)方法としてスマートではない気がします。
Generative Adversarial な手法の方が、スマートなのではないでしょうか?



入力(文) : x
Classifier の出力 : Cy()
文の変換: T
Embedding : V
入力 xが与えられた時、 Cy( V( T(x) ) ) が クラスlを出力する 変換 Tl()を見つけ出す。
この問題はNP困難です。その証明は付録に書いています。

しかし幾つかの仮定を導入すれば多項式時間で近似する事は可能です。
・Cyが滑らかで微分可能である事、
・Cyの集合関数f()がsubmodularである事

Simplified W-CNN

単語の埋め込みベクトルの、勾配ノルムによって最も重要な単語を選択し、選択した単語の検索空間内での最も貪欲な変換を見つけます。
W-CNNとRNNは、条件下では、言い換え攻撃に対してsubmodularであり、Submodular最適化問題の関数になります。

.................
.................



本研究の成果としては、 見出しの通り
「文章の最適な改変方法」を見つけるためのアルゴリズムを開発した事です。


人間には同じ意味に解釈出来る情報であっても、機械学習モデルは騙せるかも知れません。
そのような、自然言語処理モデルを出し抜く方法の発見が、成果の一つであると言う事らしいです。
そうした言い換え文を学習コーパスに加える事で、学習モデルの頑強性と一般性を向上させる事が出来ます。

他に機械学習的なセキュリティを破る方法についての指摘として、
スペルミスなどを意図的に入れる事で、フィルタを潜り抜けられるかもしれないという事です。
そうでなくても、有害と見なされる記号列を別の記号に変える、隠語のような変換方法が取られるようです。

スパム(メール)フィルタ以外に、ウィルス対策も破れるかもしれません。




勾配貪欲法での置換では、単語の変換しかしないので、構文まで変えるのは別のアルゴリズムに拠ります。
WietingとGimpelのPara-nmt-50mプロジェクトの事前学習モデル"Pushing the limits of paraphrastic sentence embeddings with millions of machine translations,"を使用して、文の変換をします。


評価に使用したデータセット

Fake/Real News. https://github.com/GeorgeMcIntire/fake_real_news_dataset
嘘と本当の記事が、1対1で 6336 あります。
Trec07p (emails)
非スパムとスパムが1:2の割合で75419あります。
Yelp review polarity http://arxiv.org/abs/1509.01626
Yelpのポジティブとネガティブのレビューデータが、トレーニング56万件とテスト38万件

tak_tak0 at 21:16コメント(0)研究   この記事をクリップ!

コメントする

名前:
URL:
  情報を記憶: 評価:  顔   星
 
 
 
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments