2018年11月05日

インスタグラムいじめの特徴と検出手法

このエントリーをはてなブックマークに追加
follow us in feedly


これについて、Instagramの公式な情報がどこなのかがはっきり分からないのですが、多分Instagram Well-Beingの辺りでしょうか?

そもそもインスタグラムではどういう事をサイバーいじめと考えているのか...それを理解する事も必要です。
この、(a)(b)がなぜCyber bullyingになるのか、画像をよく見たり文脈を理解しないといけないので、非常に困難な問題に思えますが...
Content-Driven Detection of Cyberbullying on the Instagram

Content-Driven Detection of Cyberbullying on the Instagram Social Network
Haoti Zhong, Hao Li, Anna Squicciarini , Sarah Rajtmajer, David Miller Pennsylvania State University
Christopher Griffin United States Naval Academy
Cornelia Caragea University of North Texas
IJCAI. 2016.



ではInstagramには元々どれぐらいそういう事があったのかと言うと...

Analyzing labeled cyberbullying incidents on the Instagram social network
Sabrina Arredondo Mattson, Rahat Ibn Rafiq, Richard Han, Qin Lv  University of Colorado Boulder
International Conference on Social Informatics. Springer, Cham, 2015
Cyberbullying Cyberaggression

3 DataCollection
snowball samplingで、41KユーザーIDを特定しました。
そのうち61%はパブリックプロファイルを持ち、残りはプライベートプロファイルを持っていました。
この25Kのパブリックユーザーだけをデータセットに取り込みました。

収集データは、
ユーザが投稿したメディアオブジェクト(ビデオ/画像)、
・関連するコメント、
・フォローユーザID、
・フォロワーユーザID、
・コメントしたり、好きなユーザID。
メディアオブジェクトファイルとそれに関連するコメントをメディアセッションとして考えます。計3165Kのユニークなメディアセッションを収集しました。
4 Cyberbullying Labeling
サイバーいじめの定義ですが、
(1)少なくとも1つの否定的な単語/コメント、または他の人や他の人に害を及ぼす意図のあるコンテンツがある場合は「はい」
(2)投稿自体にいじめ行為があるなら、 「はい」
否定的な言葉があり、簡単に自分自身を守ることができない犠牲者に対して繰り返し否定的な意見がある場合は、「はい」

instagramでのいじめにはどういう事があるのか、分析から分かった事は...
5 Analysis and Characterization of Ground Truth Data
自信度の高いデータセットでは、メディアセッションの29%が「いじめ」グループに属し、他の71%はいじめを受けていないと見なされました。

サイバーいじめの検出のためのclassifyの設計は、画像ベースのディスカッションにおける侮蔑語の使用にのみ依存することはできず、代わりに精度を向上させるために他の特徴を考慮する必要があります

セッションのかなりの部分は、CyberbullyingとCyberaggressionの両方と分類されたり、サイバー虐めとサイバー攻撃の両方で確度が低いなどの点で強く関連します。
これは、サイバーいじめがサイバー攻撃のサブセットであるという定義に準拠しています

否定語の割合が増加するにつれて、サイバーいじめが50%、サイバー攻撃が60%まで増加する事が観測されます。
しかし、ネガティブが増加するにつれ、そのピーク後にCyberbullyingとCyberaggressionの割合が減少します。
これらは全く予期せぬ結果であり、直観に反しているようです


これらのメディアセッションでは、スポーツなどについての議論や、ただの友好的な話し合いだった事が分かりました。
そのような議論では、特に人を侮辱していないにもかかわらず、多くの冒涜語を使用する傾向があります
これは、陰性分析に関する重要な発見に繋がります。
かなり高い割合の否定語を有するメディアセッションは、典型的には、サイバーいじめが含まれる可能性が低いことを意味します

SouzaらのInstagramユーザーの分析では、典型的なInstagramユーザーのフォロワー数と好きな数の間に正の相関があることを示しています。
しかしいじめを受けたユーザーは同じパターンに従いません。
実際、サイバーいじめではない平均投稿数は、サイバーいじめの平均セッション数の4倍であり、サイバーいじめではない平均ポスト数は、平均サイバーいじめセッション数の4.5倍です。
ここでの重要な発見は、Cyberbullying/Cyberaggressionを伴うメディアセッションのユーザーは、1ポストあたりのお気に入り数が少なく、フォロワーが多いことです

この目的のために、Cyberbullying/Cyberaggressionのメディアセッションでの単語カテゴリを見つけるためのテキスト分析プログラムであるLinguistic Inquiry and Word CountLIWC)を利用しました。
............

罵声、否定語は(当然ながら)サイバーいじめの方が優位に多く...
そして興味深い発見として、
一人称代名詞の使用率は有意に少なく、
複数形一人称代名詞は差が無く
三人称代名詞は有意に多いのです

多分日本語でも同じ傾向が有りそうですが
攻撃を伴う投稿では、ユーザーは自分自身を直接参照する可能性は低く、第三者を参照する可能性は高くなります

心理的測定の結果、「負の感情」「怒り」「身体」「性的」カテゴリの比率は1より有意に高く、
「ポジティブ感情」カテゴリーの比率は1より有意に低い。
宗教、死、外見、性的を含む投稿にはcyberbullyingの可能性が高く、 通常、否定的な感情の発生頻度が高く、肯定的な感情の発生率が低い。

たとえば、「テキスト」カテゴリの場合、「テキスト」を含む画像の約1/3が、いじめ攻撃を含むメディアセッションに関連付けられていました。
「Drugs」では75%の画像がサイバー攻撃を含むメディアセッションに属しています。
ここで重要な点は、Drugなどの特定の画像コンテンツは攻撃と強く関連しているが、自転車、食糧などの他の画像コンテンツは攻撃との関係が非常に低い事です。


............
............
............

このように、ヘイトスピーチと大体同じような言語的情報が主です。
では、機械学習的な判別はどうやっているのかと言うと、
インスタグラムの様な、画像が主であるはずのプラットフォームであるにも関わらず、ほとんど全ての Cyberbullying Detectionでコメント、等、自然言語を対象としています。
画像を判断対象とはしていません

画像認識では、画像中の物体を識別する事ばかり研究されていて、様相の方が難しいからでしょうか?

弱学習器や、協調学習とかそんな工夫よりも、画像の方での学習をするべきだと思うのですが...深層学習でさえ、何故か画像を入力とはしません。
Cyberbullyingでの深層学習は大体、自然言語処理だと思います。
と、言う事は、おそらく今回のInstagramでも、画像の方は実は見ていないのではないか...




A “Deeper” Look at Detecting Cyberbullying in Social Networks
Hugo Rosa, David Matos, Ricardo Ribeiro, Luisa Coheur, Joao P. Carvalho   Universitario de Lisboa
International Joint Conference on Neural Networks (IJCNN). IEEE, 2018.

cyberbullyingに似ていると考えられる感情分類は、ネガティブ・テキストと非ネガティブ・テキストの間の分類であるため、これである程度成功しているNeural Networkを実装します。
これは、1層のCNN(単語埋め込み層)とそれに続く全結合層で構成されています。
A Deeper Look at Detecting Cyberbullying in Social Networks
ハイブリッドC-LSTMはCNN層に続いてLSTM層を含みます。
単語埋め込み層およびLSTM層に続いて、ドロップアウト率0.5、CNNの最適ウィンドウサイズは3でした。
A Deeper Look at Detecting Cyberbullying in Social Network
CNN-LSTM-DNN

皮肉といじめの両方が共通の特徴を共有していると感じられます。(Analyzing labeled cyberbullying incidents on the Instagram social networkでの分析の通り)
皮肉なことに、それは文章の内容は全く反対で、実際にはフレンドリーな冗談になる可能性があります。


大体ほとんどのソーシャルネットワークでの嫌がらせ検出は、こんな方法です。


tak_tak0 at 06:22コメント(0)研究  | resource この記事をクリップ!

コメントする

名前:
URL:
  情報を記憶: 評価:  顔   星
 
 
 
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments