2018年09月17日

Twitterで個人を特定する研究の詳細と解説

そもそもこの特定する個人とは何を意味するかを正確に示さなければ内容が分からないと思うんですが


You are your Metadata: Identification and Obfuscation of Social Media Users using Metadata Information
Beatrice Perez1, Mirco Musolesi   The Alan Turing Institute
Gianluca Stringhini   University College London
AAAI Conference on Web and Social Media (ICWSM). AAAI, 2018.
Metadata are associated to most of the information we produce in our daily interactions and communication in the digital world.
Yet, surprisingly, metadata are often still catergorized as non-sensitive.
Indeed, in the past, researchers and practitioners have mainly focused on the problem of the identification of a user from the content of a message.

どうも、これこそが本論文の本題であるようです。

特定するユーザーの身元とは、同一人物であるかどうかなのですが
より、実用的な状況を述べると
  • 悪意あるユーザーによってアカウントを乗っ取られた時に、元のユーザーとは別人であると判定する
  • 一人のユーザーが併用している複数のアカウントを特定する

...などが例として挙げられています。

....................
....................

この研究で重要な観点は、Twitterの本文を一切見る事無く、メタデータしか見ないと言う所です。





Metadata and the case of Twitter
ツイートには140文字のメッセージとは別に、(多くのユーザーが意識していない)約144フィールドのメタデータを含んでいます。 

以下のフィールドを特徴量として収集しました...
Account creation
アカウント作成時間のUTCタイムスタンプ。
Favourites count
このアカウントの「お気に入り」としてマークされているつぶやきの数。
Follower count
このアカウントをフォローしてるユーザーの数。
Friend count
このアカウントがフォローしてるユーザーの数。
Geo enabled (boolean)
このアカウントのつぶやきに地理タグが付いているかどうかを示します。
Listed count
アカウントを含む公開リストの数。
Post time stamp
投稿が公開されたUTCの時刻スタンプ
Statuses count
このアカウントによって投稿されたつぶやきの数。
Verified (boolean)
Twitterがこのアカウントを所有するユーザーの身元を確認したことを示します。




Implementation of the Classifiers
分類器ですが、以下の三つを採用しました。

ランダムフォレスト(RF) エントロピーに基づいてデータ分割しました。
K-Nearest Neighbors(KNN) ユークリッド距離に基づいて最も近い値を採用します。
多項ロジスティック回帰 (MLR) 

pythonで、scikit-learnで実装しました。続きを読む

tak_tak0 at 13:15コメント(0)研究 この記事をクリップ!

2018年09月10日

クラウドソーシングでタスクの応募率を上げる分析

必要になったのでデータの調査を行いました。
クラウドワークスで人気の仕事の傾向 を調べた時と同じように分析を行いたいのですが
今回はLancersの方からデータ収集出来るようになったのでランサーズの依頼の分析です。

2018年01月05日開始から
2018年08月06日開始までの仕事依頼をサンプリングしました。
この間の募集は約256000件ぐらいでした。

その構成比はこうなっています。





閲覧制限 0.54405
プロジェクト 0.22041
プロジェクト [ 時間報酬 ] 0.00558
タスク 0.18781
コンペ 0.03153
不明 0.01062
  lancers1  
 
このようにランサーズでは過半数の仕事に閲覧制限がかかっています


仕事種別の内訳ですが、こうなっています。
その他の方には閲覧制限依頼も含まれてるので、これは全数に対する構成比です。
3Dモデリング・3Dプリンタ用データ作成の仕事 0.000331939
Androidゲーム開発の仕事 0.000464715
CMS構築・WordPress制作・導入の仕事 0.001726084
EC・通販ホームページ制作の仕事 0.001261369
ECサイト・ネットショップ運営代行の仕事 0.000995818
ECサイト・ネットショップ構築の仕事 0.000863042
Excelマクロ作成・VBA開発の仕事 0.001062205
HTML・CSSコーディングの仕事 0.002589126
iPhoneアプリ・iPadアプリ開発の仕事 0.000863042
SNS作成・ソーシャルメディア運用の仕事 0.000663878
Web(ウェブ)デザインの仕事 0.001858859
Webサイト・LPライティングの仕事 0.011551484
Webシステム開発・プログラミングの仕事 0.003850495
Webディレクションの仕事 0.000730266
イラスト制作の仕事 0.002721901
カタログ・パンフレットデザイン・作成の仕事 0.001327757
その他(システム開発)の仕事 0.000995818
その他(デザイン)の仕事 0.000863042
その他の仕事 0.002921065
その他翻訳の仕事 0.000796654
ソフトウェア・業務システム開発の仕事 0.000730266
チケット代行・出品代行・予約代行の仕事 0.00092943
チラシ作成・フライヤー・ビラデザインの仕事 0.001858859
データ閲覧・検索・登録の仕事 0.003186616
データ収集・入力・リスト作成の仕事 0.011750647
テープ起こし・文字起こし・書き起こしの仕事 0.002190799
テキスト入力・タイピング・キーパンチの仕事 0.004381597
ネーミング・名前募集の仕事 0.001726084
バナー作成・デザインの仕事 0.000995818
ホームページ制作・作成の仕事 0.002854677
ポスティング・DM・発送作業の仕事 0.001460532
ランディングページ(LP)制作の仕事 0.001925247
ロゴ作成・デザインの仕事 0.011086769
英語翻訳・英文翻訳の仕事 0.003253004
画像加工・写真編集・画像素材の仕事 0.000730266
検索結果・キーワード調査の仕事 0.002788289
資料作成・レポート・論文作成の仕事 0.003584943
写真撮影・カメラ撮影の仕事 0.001327757
商品登録代行の仕事 0.002854677
調査・分析・統計の仕事 0.001726084
動画作成・映像制作・動画素材の仕事 0.002389962
名刺作成・カードデザイン・印刷の仕事 0.001128593
リライト・校正・編集の仕事 0.003784107
その他(タスク・作業)の仕事 0.007634601
その他(ライティング)の仕事 0.010887605
モニター・アンケート・質問の仕事 0.015202815
レビュー・口コミ(クチコミ)の仕事 0.020713005
記事作成・ブログ記事・体験談の仕事 0.10409613
その他 0.734382261




さて
タスクの回収率を上げる方法を知りたいのですが
ちなみに、単純に報酬金額とタスクの作業数の関係を比べても良くありません。一般的に報酬金額が高い仕事の方が募集数が少ないためです
完了率でさえそうです。報酬が高い方が評価が厳しいからです。

どちらも発注者には直接コントロール出来ない数字ですが、一応、閲覧数と応募数には正の関係はあります。
当然ですが、閲覧数が多いならば、タスクの作業も増える...と言う事です。
  lancers2  
 
続きを読む

2018年09月07日

フェイクニュースを判定する人工知能の詳細と解説



あれはどうやってるんでしょうか?

Automatic Detection of Fake News
Veronica Perez-Rosas,Alexandra Lefevre, Rada Mihalcea   University of Michigan
Bennett Kleinberg   University of Amsterdam
arXiv preprint arXiv:1708.07104, 2017.
The proliferation of misleading information in everyday access media outlets such as social media feeds, news blogs, and online newspapers have made it challenging to identify trustworthy news sources,
thus increasing the need for computational tools able to provide insights into the reliability of online content.
1年前の論文だったんですね。



3 Fake News Datasets

まず学習用のデータセットですが、以前の類似した研究で使用されたデータセットは、
(例えば、「The Onion」)風刺的なニュース、ユーモアやアイロニーなどの混乱を見たり
fact checkサイト(「politiFact」や「Snopes」など)を使用したり、
典型的には1つのドメイン(一般的には政治)に集中していたのですが、
今回は、他の分野もカバーしたかったそうです。
そこで以下の2方法でデータセットを構築しました。

6つのニュース分野をカバーするために、クラウドソーシングで発注し
もう一つは、有名人のフェイクニュースをウェブから直接収集し、データセットを構築しました。



Guidelines for a Fake News Corpus.

データセットですが、以下の条件を満たす様に作られました。
(Fake news or truth? using satirical cues to detect potentially misleading news. In Proceedings of NAACL-HLT.)で提案された9つの要件です。

(1)フェイクニュースと真実のニュース項目の両方を含み、
(2)テキストのみのニュースであり
(3)実証可能なground-truthを持っていて
(4)長さが均一であり、
(5)書くスタイルが同じであり
(6)同じ時間帯(日時)のニュース
(7)同じ方法で、同じ目的(例えば、ユーモア、ニュース速報)でのfake newsとreal newsがあり
(8)公的に入手可能であり
(9)言語と文化の違いを考慮する必要があります。

ただし、
ニュース項目のすべての情報が実際に真実であるかどうかを絶対的に確かめることはできないので、真実の同定はまだ難しい、と書かれています。






3.1 Building a Crowdsourced Dataset

6分野とは(スポーツ、ビジネス、エンターテイメント、政治、技術、教育)で、
正当なニュースは、ABCNews、CNN、USAToday、NewYorkTimes、FoxNews、Bloomberg、CNETなどのウェブサイト(主に米国内)から得ました。
手作業によるファクトチェックでニュースの正確性を確認して
6ドメイン×40のニュースを収集しました。

たったそれだけではデータが少ないような気がしますが...


フェイクニュースの方はAmazon Mechanical Turkによるクラウドソーシングで作成しました。
さっきの本当のニュースの嘘バージョンを、可能な限りジャーナリスティックなスタイルで文章を書くように、非現実的な内容を避け、元のニュースに記載された名前を保持するように作業者に指示しました

また、
(米国内の事情に精通していないといけないので)米国内在住の人間にしか書かせず、
一人当たり1ニュースしか書かせず、
作業承認率95%以上の制限もかけました...


それでも非現実的な内容を書く人がいて、240件のフェイクニュースを作成するのに約5日間かかったそうです。
Interestingly, we observed that AMT workers succeeded in mimicking the reporting style from the original news, which may be partly explained by typical verbal mirroring behaviors with drive individuals to produce utterances that match the grammatical structure of sentences they have recently read (Language style matching in writing: synchrony in essays, correspondence, and poetry. Journal of personality and social psychology 99(3):549.).

続きを読む

サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments
o