CambridgeAnalyticaのFacebookターゲティングモデルが実際にどのように機能したか-InnerSelf.com

: By マシューハインドマン、ジョージワシントン大学

ご覧いただきありがとうございます InnerSelf.com、どこに〜がある 20,000+ 「新しい態度と新しい可能性」を促進する人生を変える記事。すべての記事は次のように翻訳されます 30以上の言語. ニュースレター登録 週刊発行の InnerSelf Magazine と Marie T Russell's Daily Inference に掲載されています。 InnerSelfマガジン 1985年から出版されています。

ケンブリッジアナリストのFacebookターゲティングモデルが本当にどう働いたかどのくらい正確にオンラインでプロファイリングできますか？ Andrew Krasovitckii / Shutterstock.com

研究の中心にある研究者 Facebook-Cambridge Analyticaのデータ分析と政治的広告の騒動彼の方法はまったく同じように働いたことが明らかになりました Netflixは映画を推薦するために使用します.

ケンブリッジ大学の学者Aleksandr Koganは、彼の統計モデルがCambridge AnalyticaのFacebookデータをどのように処理したかを説明しました。彼の主張は、確立された投票者ターゲティング方法人種、年齢、性別などの人口統計に基づいています。

確認されれば、Koganのアカウントは、Cambridge Analyticaが使用していたデジタルモデリングがバーチャルクリスタルボールいくつかは主張している。しかし、Koganが提供する数字ショーも表示何が - そして - ではない - 実際に可能な by 個人データを結合する機械学習で政治的な目的のために。

しかし、Koganの数字によれば、ユーザーの性格や性別に関する情報は、心理学モデルがどのように市民をターゲットにしたかのちょっとした部分でした。それは厳密に言えば人格モデルではなく、むしろ人口統計学、社会的影響、人格、その他全てを大きな相関関係のある一塊に煮詰めたものでした。これは、たとえ販売されている製品が請求されたものではないとしても、このようにすべての相関関係を呼び起こして、パーソナリティを呼び出すというアプローチは、貴重なキャンペーンツールを作り出したようです。

パーソナリティターゲティングの約束

トランプキャンペーンのコンサルタントケンブリッジアナリストが使用した啓示の結果 50万人のFacebookユーザーからのデータ 2016米国大統領選挙中にデジタル政治広告をターゲットにするために、Facebookには株式市場の価値が失われた、政府は大西洋の両側持ってる開かれた調査、新生児社会運動ユーザーに電話して #DeleteFacebook.

しかし、ケンブリッジ・アナリティッティカは、パーソナリティの特徴に基づいてキャンペーン・メッセージを市民に効果的にターゲットにすることができましたか？内なる悪魔、 "会社の内部通報者は主張されている？

誰かがケンブリッジアナリストがFacebookデータの膨大なデータを使って何をしたのか知っていれば、Aleksandr KoganとJoseph Chancellorだろう。そうだった彼らのスタートアップGlobal Science Research からプロファイル情報を収集した 270,000のFacebookユーザーと数千万の友人 "thisisyourdigitallife"というパーソナリティテストアプリを使って

の一部自分の研究理解に焦点を当てる機械学習メソッド、および私の今後の本デジタル企業が推奨モデルを使用して視聴者を構築する方法について説明します。私はコガンとチャンセラーのモデルがどのように働いていたかについて勘違いしました。

そこで私はKoganにEメールで尋ねました。コガンはまだケンブリッジ大学の研究者; 彼の協力者首相は現在Facebookで働いています。著名な学術的な礼儀で、コガンは答えました。

彼の対応にはいくつかのアンパックといくつかの背景が必要です。

Netflix賞から「psychometrics」まで

2006に戻って、まだDVD-by-mail会社だったとき、Netflixは報酬$ 1百万同社がすでに持っていたよりもユーザーの映画ランキングに関する予測を行うためのより良い方法を開発した人に驚くべきトップライバルは、偽名Simon Funkを使用している独立したソフトウェア開発者その基本的なアプローチは最終的にすべてのトップチームのエントリーに組み込まれました。ファンクは、特異値分解、 "ユーザーの映画の評価を一連の要素または要素 - 本質的に推論されたカテゴリのセットで、重要度によってランク付けされます。ファンクとしてブログ記事で説明した,

たとえば、カテゴリはアクション映画を表し、上部には多くのアクションを持つムービー、下部にはムービーの遅いもの、それに対応してアクション映画が好きなユーザー、ボトム。

因数は人工的なカテゴリであり、人間が思いつくカテゴリーの種類のようなものではありません。ザファンクの初期のNetflixモデルにおける最も重要な要素「パールハーバー」や「ウェディングプランナー」のような映画を愛し、「失われた心の永遠の日差し」などの映画を嫌うユーザーによって定義された。彼のモデルは、機械学習がどのようにして人と映画のグループ、人間自身が目にすることはないだろう。

ファンクの一般的なアプローチでは、50または100の最も重要な要素をユーザーと映画の両方で使用して、すべてのユーザーが各映画をどのように評価するかを適切に推測しました。この方法は、しばしば次元削減行列分解は新しいものではなかった。政治学の研究者は、ロールコール投票データを使用した同様の手法 90パーセントの議会議員の票を予測することができます。心理学では、ビッグファイブ同様に答えが出やすい性格の質問を一緒にクラスタリングすることによって行動を予測するモデルも使用されていました。

それでも、ファンクのモデルは大きな進歩でした。これは、Netflixのデータセットのような巨大なデータセット、つまり欠けているデータを含む大規模なデータセットでもうまく機能することを可能にしました。としょうかん。 Netflix Prizeコンテスト終了後10年以上が経過した今、 SVDベースのメソッドまたは暗黙的なデータの関連モデル多くのウェブサイトで、ユーザーが何を読んだり、見たり、購入したりするかを予測するツールとして、まだまだ選択肢の多いツールです。

これらのモデルは他のものも予測することができます。

Facebookはあなたが共和党員かどうか知っています

2013では、ケンブリッジ大学の研究者Michal Kosinski、David Stillwell、Thore Graepelが Facebookデータの予測力オンラインパーソナリティテストを通じて収集された情報を使用しています。最初の分析はNetflix Prizeで使用されたものとほぼ同じでした。SVDを使用して、ユーザーと彼らが好きなものを上位の100要素に分類しました。

この論文は、ユーザーのFacebookの「好き」だけで作られた要素モデルが、正確な95パーセント黒と白の回答者を区別する際に、93は男性と女性を区別して正確に表し、88は、同性愛者と識別された人を真っ直ぐであると特定した人を区別するのに正確なパーセントです。それは、共和党員と民主党の85の割合を正確に区別することさえできる。それはまた、正確ではないが有用であったユーザーのスコアを予測する「Big Five」パーソナリティテストで

がありました一般市民の抗議に応じて; Facebookの数週間以内にユーザーの好きなものを非公開にしたデフォルトでは

当時のケンブリッジ大学の研究者でもあるKoganとChancellorは、Cambridge Analyticaの親会社であるSCLとの共同作業の一環として、選挙ターゲティングのためにFacebookデータを使用し始めました。 KoganはKosinskiとStillwellを招待してプロジェクトに参加しましたが、うまくいかなかった。コシンスキー氏は、コガンと首相は、 Facebookの「好き」モデルをリバース・エンジニアリングケンブリッジアナリティカのために。 Koganはこれを否定し、彼のプロジェクト "すべてのモデルを構築独自のソフトウェアを使用して収集した独自のデータを使用しています。

コガンとチャンセラーは実際に何をしましたか？

私がこの物語の発展を追っていくうちに、KoganとChancellorは、このディズニー・ライフ・アプリを通して実際に多くの自分のデータを収集したことが明らかになりました。彼らは確かにKosinskiとStillwellの発表された研究で特集されたような予測的なSVDモデルを構築できました。

そこで私はコガンに、彼がやったことを聞いてきた。驚いたことに幾分か、彼は書き返した。

「私たちはSVDを正確に使用していませんでした.SVDは、他のユーザーよりも多くの「好き」を持つユーザーがいるときに苦労する可能性があると指摘しています。代わりに、コガンは、「技術は私たちが実際に開発したものだった...それはパブリックドメインにあるものではない」と述べた。コガーンは、具体的に言及することなく、彼らの方法を「複数のステップ共起アプローチ。"

しかし、彼のメッセージは、Netflix Prizeの競技会やKosinki-Stillwell-Graepel Facebookのモデルなど、SVDや他の行列因子分解法と実際に似たアプローチであることを確認するために行われました。 Facebookのデータの次元性の低下は、彼のモデルの中核でした。

どれくらい正確でしたか？

Koganは、使用された正確なモデルはそれほど重要ではないと示唆しました。しかし、重要なのは予測の正確さです。 Koganによれば、「予測された得点と実際の得点との間の相関は、すべての性格次元について[30パーセント]の周りにあった」。比較すると、前のBig Fiveスコアは約 70から80まで正確にテストを再開したときの得点を予測するのに役立ちます。

Koganの正確性の主張は、もちろん、独立して検証することはできません。そして、このような高値のスキャンダルの最中にいる人は、彼または彼女の貢献を過小評価するインセンティブがあるかもしれません。彼の CNNの外観Koganはますます驚くほどのアンダーソン・クーパーに説明しました。実際、モデルは実際にはうまく機能しませんでした。

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr KoganはCNNに関する質問に答えます。

実際、Koganの正確さは少し低いようだが、もっともらしい。 Kosinski、StillwellおよびGraepelは、いくつかの他の学術研究パーソナリティーを予測するためにデジタルフットプリントを使用しています（しかし、これらの研究の一部には、Facebookの「好き」よりも多くのデータがあります）。既成のソリューションがまさに正確であると思われる場合は、KoganとChancellorが独自のモデルを設計するのに苦労することは驚くべきことです。

重要なのは、モデルの性格スコアの正確さが、Koganの結果と他の研究との比較を可能にすることである。性格を予測するのに同等の精度を持つ公表されたモデルは、人口統計および政治変数を推測する上でずっと正確です。

たとえば、同様のKosinski-Stillwell-Graepel SVDモデルは、好きなプロフィール情報を使用しなくても、当事者所属を推測するのに正確な85パーセントでした。 Koganのモデルは、それと同等以上の精度を持っていました。友人やユーザーの人口統計に関する少量の情報を追加すると、この精度が90％を超える可能性があります。ジェンダー、人種、性的指向、その他の特性についての推測は、おそらく90％以上の精度でもあります。

重要なことに、これらの推測は、最もアクティブなFacebookユーザー（モデルが主にターゲットに使用されたユーザー）にとって特に効果的です。アナリストの活動が少ないユーザーは、とにかくFacebookにいない可能性が高いです。

心理学が主に人口統計である場合

モデルがどのように構築されているかを知ることは、ケンブリッジ・アナリティクの明らかに矛盾した役割 - またはその欠如 - その人格のプロファイリングと心理学がそのモデリングで演じられました。彼らはすべて技術的にコガンが描写しているものと一致しています。

Koganのようなモデルは、どのグループのユーザーでも利用可能なすべての変数の見積もりを提供します。つまり、自動的にビッグファイブの人格スコアを推定するすべての有権者のために。しかし、これらの性格スコアは、入力ではなくモデルの出力です。すべてのモデルが知っているのは、Facebookの好きな人や特定のユーザーが一緒にグループ化される傾向があるということです。

このモデルでは、ケンブリッジ・アナリティッティカは経験の浅い人と高い神経学者を特定していると言えるでしょう。しかし、すべてのユーザーにまったく同じ予測をした同じモデルは、それほど教育を受けていない古い共和党の男性を特定すると正確に主張することができます。

Koganの情報は、ケンブリッジ・アナリティカ実際に削除した Facebookのデータのうち、データから構築されたモデルまだ循環しているようだ、さらにさらに発展している.

次元削減モデルの全体のポイントは、より単純な形式でデータを数学的に表現することです。 Cambridge Analyticaが非常に高解像度の写真を撮り、サイズを小さくしてから元の画像を削除したようなものです。写真はまだ存在します。ケンブリッジアナリストのモデルが存在する限り、データは効果的です。