ケンブリッジアナリストのFacebookターゲティングモデルが本当にどう働いたかどのくらい正確にオンラインでプロファイリングできますか? Andrew Krasovitckii / Shutterstock.com

研究の中心にある研究者 Facebook-Cambridge Analyticaのデータ分析と政治的広告の騒動 彼の方法はまったく同じように働いたことが明らかになりました Netflixは映画を推薦するために使用します.

ケンブリッジ大学の学者Aleksandr Koganは、彼の統計モデルがCambridge AnalyticaのFacebookデータをどのように処理したかを説明しました。 彼の主張は、 確立された投票者ターゲティング方法 人種、年齢、性別などの人口統計に基づいています。

確認されれば、Koganのアカウントは、Cambridge Analyticaが使用していたデジタルモデリングが バーチャルクリスタルボール いくつかは主張している。 しかし、Koganが提供する数字 ショーも表示 何が - そして - ではない - 実際に可能な by 個人データを結合する 機械学習で 政治的な目的のために。

しかし、Koganの数字によれば、ユーザーの性格や性別に関する情報は、心理学モデルがどのように市民をターゲットにしたかのちょっとした部分でした。 それは厳密に言えば人格モデルではなく、むしろ人口統計学、社会的影響、人格、その他全てを大きな相関関係のある一塊に煮詰めたものでした。 これは、たとえ販売されている製品が請求されたものではないとしても、このようにすべての相関関係を呼び起こして、パーソナリティを呼び出すというアプローチは、貴重なキャンペーンツールを作り出したようです。


インナーセルフ購読グラフィック


パーソナリティターゲティングの約束

トランプキャンペーンのコンサルタントケンブリッジアナリストが使用した啓示の結果 50万人のFacebookユーザーからのデータ 2016米国大統領選挙中にデジタル政治広告をターゲットにするために、Facebookには 株式市場の価値が失われた、政府は 大西洋の両側 持ってる 開かれた調査、新生児 社会運動 ユーザーに電話して #DeleteFacebook.

しかし、ケンブリッジ・アナリティッティカは、パーソナリティの特徴に基づいてキャンペーン・メッセージを市民に効果的にターゲットにすることができましたか?内なる悪魔、 "会社の内部通報者は主張されている?

誰かがケンブリッジアナリストがFacebookデータの膨大なデータを使って何をしたのか知っていれば、Aleksandr KoganとJoseph Chancellorだろう。 そうだった 彼らのスタートアップGlobal Science Research からプロファイル情報を収集した 270,000のFacebookユーザーと数千万の友人 "thisisyourdigitallife"というパーソナリティテストアプリを使って

の一部 自分の研究 理解に焦点を当てる 機械学習 メソッド、および 私の今後の本 デジタル企業が推奨モデルを使用して視聴者を構築する方法について説明します。 私はコガンとチャンセラーのモデルがどのように働いていたかについて勘違いしました。

そこで私はKoganにEメールで尋ねました。 コガンはまだ ケンブリッジ大学の研究者; 彼の協力者 首相は現在Facebookで働いています。 著名な学術的な礼儀で、コガンは答えました。

彼の対応にはいくつかのアンパックといくつかの背景が必要です。

Netflix賞から「psychometrics」まで

2006に戻って、まだDVD-by-mail会社だったとき、Netflixは 報酬$ 1百万 同社がすでに持っていたよりもユーザーの映画ランキングに関する予測を行うためのより良い方法を開発した人に 驚くべきトップライバルは、 偽名Simon Funkを使用している独立したソフトウェア開発者その基本的なアプローチは最終的にすべてのトップチームのエントリーに組み込まれました。 ファンクは、特異値分解、 "ユーザーの映画の評価を 一連の要素または要素 - 本質的に推論されたカテゴリのセットで、重要度によってランク付けされます。 ファンクとして ブログ記事で説明した,

たとえば、カテゴリはアクション映画を表し、上部には多くのアクションを持つムービー、下部にはムービーの遅いもの、それに対応してアクション映画が好きなユーザー、ボトム。

因数は人工的なカテゴリであり、人間が思いつくカテゴリーの種類のようなものではありません。 ザ ファンクの初期のNetflixモデルにおける最も重要な要素 「パールハーバー」や「ウェディングプランナー」のような映画を愛し、「失われた心の永遠の日差し」などの映画を嫌うユーザーによって定義された。彼のモデルは、機械学習がどのようにして人と映画のグループ、人間自身が目にすることはないだろう。

ファンクの一般的なアプローチでは、50または100の最も重要な要素をユーザーと映画の両方で使用して、すべてのユーザーが各映画をどのように評価するかを適切に推測しました。 この方法は、しばしば 次元削減 行列分解は新しいものではなかった。 政治学の研究者は、 ロールコール投票データを使用した同様の手法 90パーセントの議会議員の票を予測することができます。 心理学では、ビッグファイブ同様に答えが出やすい性格の質問を一緒にクラスタリングすることによって行動を予測するモデルも使用されていました。

それでも、ファンクのモデルは大きな進歩でした。これは、Netflixのデータセットのような巨大なデータセット、つまり欠けているデータを含む大規模なデータセットでもうまく機能することを可能にしました。としょうかん。 Netflix Prizeコンテスト終了後10年以上が経過した今、 SVDベースのメソッドまたは 暗黙的なデータの関連モデル多くのウェブサイトで、ユーザーが何を読んだり、見たり、購入したりするかを予測するツールとして、まだまだ選択肢の多いツールです。

これらのモデルは他のものも予測することができます。

Facebookはあなたが共和党員かどうか知っています

2013では、ケンブリッジ大学の研究者Michal Kosinski、David Stillwell、Thore Graepelが Facebookデータの予測力オンラインパーソナリティテストを通じて収集された情報を使用しています。 最初の分析はNetflix Prizeで使用されたものとほぼ同じでした。SVDを使用して、ユーザーと彼らが好きなものを上位の100要素に分類しました。

この論文は、ユーザーのFacebookの「好き」だけで作られた要素モデルが、 正確な95パーセント 黒と白の回答者を区別する際に、93は男性と女性を区別して正確に表し、88は、同性愛者と識別された人を真っ直ぐであると特定した人を区別するのに正確なパーセントです。 それは、共和党員と民主党の85の割合を正確に区別することさえできる。 それはまた、正確ではないが有用であった ユーザーのスコアを予測する 「Big Five」パーソナリティテストで

がありました 一般市民の抗議 に応じて; Facebookの数週間以内に ユーザーの好きなものを非公開にした デフォルトでは

当時のケンブリッジ大学の研究者でもあるKoganとChancellorは、Cambridge Analyticaの親会社であるSCLとの共同作業の一環として、選挙ターゲティングのためにFacebookデータを使用し始めました。 KoganはKosinskiとStillwellを招待してプロジェクトに参加しましたが、 うまくいかなかった。 コシンスキー氏は、コガンと首相は、 Facebookの「好き」モデルをリバース・エンジニアリング ケンブリッジアナリティカのために。 Koganはこれを否定し、彼のプロジェクト "すべてのモデルを構築 独自のソフトウェアを使用して収集した独自のデータを使用しています。

コガンとチャンセラーは実際に何をしましたか?

私がこの物語の発展を追っていくうちに、KoganとChancellorは、このディズニー・ライフ・アプリを通して実際に多くの自分のデータを収集したことが明らかになりました。 彼らは確かにKosinskiとStillwellの発表された研究で特集されたような予測的なSVDモデルを構築できました。

そこで私はコガンに、彼がやったことを聞いてきた。 驚いたことに幾分か、彼は書き返した。

「私たちはSVDを正確に使用していませんでした.SVDは、他のユーザーよりも多くの「好き」を持つユーザーがいるときに苦労する可能性があると指摘しています。 代わりに、コガンは、「技術は私たちが実際に開発したものだった...それはパブリックドメインにあるものではない」と述べた。コガーンは、具体的に言及することなく、彼らの方法を「複数のステップ 共起 アプローチ。"

しかし、彼のメッセージは、Netflix Prizeの競技会やKosinki-Stillwell-Graepel Facebookのモデルなど、SVDや他の行列因子分解法と実際に似たアプローチであることを確認するために行われました。 Facebookのデータの次元性の低下は、彼のモデルの中核でした。

どれくらい正確でしたか?

Koganは、使用された正確なモデルはそれほど重要ではないと示唆しました。しかし、重要なのは予測の正確さです。 Koganによれば、「予測された得点と実際の得点との間の相関は、すべての性格次元について[30パーセント]の周りにあった」。比較すると、前のBig Fiveスコアは約 70から80まで正確に テストを再開したときの得点を予測するのに役立ちます。

Koganの正確性の主張は、もちろん、独立して検証することはできません。 そして、このような高値のスキャンダルの最中にいる人は、彼または彼女の貢献を過小評価するインセンティブがあるかもしれません。 彼の CNNの外観Koganはますます驚くほどのアンダーソン・クーパーに説明しました。実際、モデルは実際にはうまく機能しませんでした。

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr KoganはCNNに関する質問に答えます。

実際、Koganの正確さは少し低いようだが、もっともらしい。 Kosinski、StillwellおよびGraepelは、いくつかの 他の学術研究 パーソナリティーを予測するためにデジタルフットプリントを使用しています(しかし、これらの研究の一部には、Facebookの「好き」よりも多くのデータがあります)。 既成のソリューションがまさに正確であると思われる場合は、KoganとChancellorが独自のモデルを設計するのに苦労することは驚くべきことです。

重要なのは、モデルの性格スコアの正確さが、Koganの結果と他の研究との比較を可能にすることである。 性格を予測するのに同等の精度を持つ公表されたモデルは、人口統計および政治変数を推測する上でずっと正確です。

たとえば、同様のKosinski-Stillwell-Graepel SVDモデルは、好きなプロフィール情報を使用しなくても、当事者所属を推測するのに正確な85パーセントでした。 Koganのモデルは、それと同等以上の精度を持っていました。 友人やユーザーの人口統計に関する少量の情報を追加すると、この精度が90%を超える可能性があります。 ジェンダー、人種、性的指向、その他の特性についての推測は、おそらく90%以上の精度でもあります。

重要なことに、これらの推測は、最もアクティブなFacebookユーザー(モデルが主にターゲットに使用されたユーザー)にとって特に効果的です。 アナリストの活動が少ないユーザーは、とにかくFacebookにいない可能性が高いです。

心理学が主に人口統計である場合

モデルがどのように構築されているかを知ることは、ケンブリッジ・アナリティクの明らかに矛盾した 役割 - または その欠如 - その人格のプロファイリングと心理学がそのモデリングで演じられました。 彼らはすべて技術的にコガンが描写しているものと一致しています。

Koganのようなモデルは、どのグループのユーザーでも利用可能なすべての変数の見積もりを提供します。 つまり、自動的に ビッグファイブの人格スコアを推定する すべての有権者のために。 しかし、これらの性格スコアは、入力ではなくモデルの出力です。 すべてのモデルが知っているのは、Facebookの好きな人や特定のユーザーが一緒にグループ化される傾向があるということです。

このモデルでは、ケンブリッジ・アナリティッティカは経験の浅い人と高い神経学者を特定していると言えるでしょう。 しかし、すべてのユーザーにまったく同じ予測をした同じモデルは、それほど教育を受けていない古い共和党の男性を特定すると正確に主張することができます。

Koganの情報は、ケンブリッジ・アナリティカ 実際に削除した Facebookのデータのうち、データから構築されたモデル まだ循環しているようだ、さらに さらに発展している.

会話次元削減モデルの全体のポイントは、より単純な形式でデータを数学的に表現することです。 Cambridge Analyticaが非常に高解像度の写真を撮り、サイズを小さくしてから元の画像を削除したようなものです。 写真はまだ存在します。ケンブリッジアナリストのモデルが存在する限り、データは効果的です。

著者について

Matthew Hindman(メディア・広報担当准教授) ジョージワシントン大学

この記事は、最初に公開された 会話。 読む 原著.

関連書籍

at InnerSelfMarketとAmazon