Twitterのあなたの友人があなたの匿名性を逃してしまうかもしれない

インターネットを閲覧すると、オンライン広告主様は 訪問したほとんどすべてのサイトあなたの習慣や好みに関する情報を集めています。 ニュースサイトにアクセスすると、あなたはバスケットボール、オペラ、ミステリー小説のファンであり、したがって好みに合わせた広告を選択することができます。

広告主はこの情報を使用して高度にパーソナライズされたエクスペリエンスを作成しますが、通常、自分が誰であるかを正確には把握していません。 彼らは自分のアイデンティティそのものではなく、あなたのデジタルトレイルだけを観察するので、ある程度の匿名性を保持していると感じるかもしれません。

しかし、私が共著した論文 Ansh Shukla、Sharad Goel、Arvind Narayananと一緒にこれらの匿名のWebブラウジングレコードは実際には実際のIDに結び付けられることが多いことを示しています。

私たちのアプローチをテストするために、 ウェブサイト この調査の目的のために人々が閲覧履歴を寄付することができる場所です。 その後、公開されているデータのみを使用して履歴を自分のTwitterプロフィールに戻すことができるかどうかを試しました。 匿名化しようとした人の72%が検索結果の中で最も高い候補者として正しく識別され、81の割合はトップの15候補の1人でした。

プライバシー2 2 8deanonymizationのウェブサイトのスクリーンショット。

これは、数百万の可能なTwitterユーザーのうち正しいユーザーを選ぶため、これまでのところ、最大規模のデノミアライゼーションのデモンストレーションです。 さらに、私たちの方法では、コンテンツを投稿するのではなく、ソーシャルメディアフィードに表示されているリンクをクリックするだけで済みます。インターネット上で共有していることを気にしている人でも、この攻撃に対して脆弱です。


インナーセルフ購読グラフィック


機能

高いレベルでは、我々のアプローチは簡単な観察に基づいています。 それぞれの人には、学校、仕事、そしてさまざまな段階の家族や友人からなる、非常に特徴的なソーシャルネットワークがあります。 その結果、あなたのFacebookとTwitterフィードのリンクセットは非常に特徴的です。 これらのリンクをクリックすると、あなたの閲覧履歴に告知マークが残されます。

個人が訪問したウェブページのセットを見ることで、類似のソーシャルメディアフィードを選び出し、そのウェブブラウジング履歴を生成したと思われる候補者のリストを得ることができました。 このようにして、ソーシャルメディアサイトには決して掲載されなかったリンクを含め、訪問したほぼ完全なリンクに、人の本物のアイデンティティを結びつけることができます。

この戦略を実行するには、2つの重要な課題があります。 最初のものは理論的なものです:特定のソーシャルメディアフィードが特定のウェブブラウジング履歴とどれほど類似しているかをどのように定量化しますか? 1つの簡単な方法は、フィードにも表示される閲覧履歴内のリンクの割合を測定することです。 これは実際にはうまくいくが、大量のフィードでは類似度が過大になる。 代わりに代わりの方法を取っています。 私たちは、Webブラウジング動作の様式化された確率モデルを仮定し、そのソーシャルメディアフィードを持つユーザーが観測されたブラウジング履歴を生成した可能性を計算します。 次に、最も可能性の高いソーシャルメディアフィードを選択します。

第2の課題は、最も類似したフィードをリアルタイムで特定することです。 Twitterのフィードは(Facebookとは対照的に)大部分が一般公開されているので、ここではTwitterに目を向ける。 しかし、フィードは公開されていますが、クエリを実行できるTwitterのローカルコピーは作成できません。 その代わりに、検索スペースを大幅に縮小する一連の手法を適用します。 次に、キャッシング技術とオンデマンドネットワーククロールを組み合わせて、最も有望な候補者のフィードを構築します。 この縮小された候補セットについて、我々は類似性測度を適用して最終結果を生成する。 ブラウズ履歴があれば、60秒以内にこのプロセス全体を実行できます。

私たちの方法はTwitterをより積極的にブラウズする人にとってより正確です。 Twitter上で100以上のリンクをクリックした参加者の90%は、自分のアイデンティティと一致させることができます。

多くの企業は、参加者の同意なしに、このような攻撃を実行するための追跡リソースを持っています。 特定のトラッキング会社に表示されていたブラウジング履歴の一部のみを使用して(各ページにトラッカーが存在するため)、実験参加者のそれぞれは除名を試みました。 いくつかの企業が参加者を正確に識別するためのリソースを持っていることがわかりました。

プライバシー2 8その他の匿名化の研究

他のいくつかの研究では、公開されているフットプリントを使用して機密データを非正規化しています。

おそらく、これらの線に沿った最も有名な研究は、 Latanya Sweeney 2002のハーバード大学で 彼女はそれを発見した アメリカ人の87%が一意に識別可能 性別と生年月日の組み合わせに基づいています。 これら3つの属性は、公式の投票者登録データ(US $ 20で購入したもの)と匿名の医療データ(広く配布されていたため、データが匿名だと思ったため)で入手できました。 これらのデータソースを結ぶことで、彼女はマサチューセッツ州知事の医療記録を見つけました。

2006年には、 Netflixがコンテストを行った ムービーの推奨品質を向上させることができます。 彼らは、人々の映画の評価の匿名化されたデータセットを公開し、1パーセントで彼らの推薦アルゴリズムを改善できるチームに$ 10 millionを提供しました。 コンピュータ科学者 アルヴィンド・ナラヤナン & ヴィタリーシャトチコフ 人々が見た映画は非常に特徴的であり、データセットのほとんどの人々は映画の小さなサブセットに基づいて一意に識別可能であったことに気づいた。 つまり、Netflixの映画の選択とIMDBのレビューに基づいて、Netflixのユーザーが実際に誰だったのかを調べることができました。

ソーシャルメディアの登場により、ますます多くの人々が無害なような情報を共有していますが、実際には多くの個人情報を明らかにしています。 主導する研究 ミハル・コシンスキ ケンブリッジ大学でFacebookが人々の予測を好む 性的指向、政治的見解、人格特性.

他のチームは、 ギルバート・ウォンダレスク ウィーン工科大学(Vienna University of Technology)では、人々がソーシャルネットワークシンに参加しているグループを特定し、それが誰であるかを把握するための「deanonymization machine」を構築しました。あなたが参加しているグループが、君は。

あなたができること

これらの攻撃のほとんどは、インターネットの使用をやめたり、公衆に参加したりしない限り、防御するのが難しいです。

インターネットを使用しなくても、企業は引き続きデータを収集できます。 あなたの友人のいくつかが自分の電話連絡先をFacebookにアップロードし、あなたの番号が連絡先リストのすべてにある場合、Facebookは自分のサービスを使用していなくてもあなたに関する予測を行うことができます。

私たちのようなdeanonymizingアルゴリズムを防御する最善の方法は、あなたの匿名ブラウジングデータにアクセスする人の集合を制限することです。 ブラウザの拡張機能 Ghostery サードパーティのトラッカーをブロックします。 つまり、訪問しているWebサイトを訪問している企業が自分のサイトにアクセスしていることを知っているにもかかわらず、そのページに広告を表示する広告会社は、閲覧データを収集して複数のサイトに集約することができません。

あなたがウェブマスターであれば、あなたのサイトを閲覧することによってユーザーを保護することができます HTTPS。 HTTPを使用してブラウジングすると、攻撃者はネットワークトラフィックを盗聴することによってブラウジング履歴を取得できるため、この攻撃を実行できます。 多くのWebサイトはすでにHTTPSに切り替えています。 ネットワークトラフィックスニッファの観点から匿名化実験を繰り返したところ、参加者の31%のみが匿名化されました。

しかし、一般的には、匿名化攻撃から自分自身を守るためにできることはほとんどありません。おそらく、行動の最善の策は自分の期待を調整することです。 このデジタル時代にはプライベートなものはありません。

著者について

Jessica Su、Ph.D. 学生スタンフォード、 スタンフォード大学

この記事は、最初に公開された 会話。 読む 原著.

関連書籍

at InnerSelfMarketとAmazon