企業ホームページ運営の心得

Googleサジェストにみる個人情報収集への私的考察

検索キーワードを入力すると候補を表示するサジェスト機能を例にアルゴリズム推測という思考実験を行います

2010年12月1日 8:00

コンテンツは現場にあふれている。会議室で話し合うより職人を呼べ。営業マンと話をさせろ。Web 2.0だ、CGMだ、Ajaxだと騒いでいるのは「インターネット業界」だけ。中小企業の「商売用」ホームページにはそれ以前にもっともっと大切なものがある。企業ホームページの最初の一歩がわからずにボタンを掛け違えているWeb担当者に心得を授ける実践現場主義コラム。

宮脇睦（有限会社アズモード）

サジェストの衝撃

検索窓に数文字いれると「検索候補」を表示させる機能「サジェスト」が多くの検索エンジンで採用されています（グーグルは「オートコンプリート」と名前を改めたようですが、メールやブラウザにある同名の機能と区別するために本稿では「サジェスト」で通します）。サジェスとでは、利用者の検索頻度の高いキーワードがピックアップされるようですが、「ログイン」していると、自身の検索履歴から「嗜好」に合わせた結果を表示するので、パソコンによって「検索候補」が異なるようになります。しかし、ログインしていなくても別々の「検索候補」が表示されることがあります。私はその理由にこんな仮説を立てました。

ログインしなくても個人情報は収集されている

推測に過ぎませんが、この仮説を検証します（実際の答えはコラムの最後に）。

個人情報を集める動機は十分

まず、個人情報を集める動機を考えてみます。

同じ検索キーワードでも嗜好や検索目的によって欲する結果は異なり、グーグルで「使徒」と検索するとアニメ「新世紀エヴァンゲリオン」の作中での「敵」を紹介するウィキペディアが一番目に表示されますが、敬虔なクリスチャンからみれば神の使いを「敵」と呼ばれるのは心外でしょう。また、鷲宮神社（わしのみやじんじゃ）といえば、埼玉県久喜市にある関東最古の大社のこと。しかし、アニメファンならアニメ「らき☆すた」に登場する神社という答えを求めている可能性が高く、「嗜好」を把握していれば、より望む検索結果を提供でき、その結果、利用者が増えれば広告手数料も増え、株価も上がると動機は十分です。

さらに、グーグルのエリック・シュミットCEOは、2010年9月28日（現地時間）に開催された「TechCrunch Disrupt」で次のステップは“自律検索”だ」と語りました。位置情報や嗜好から「周辺情報」を提供するようなサービスを想定しているのです。本サービスの「提供」は「ログイン」を前提として語られていましたが、前段階として利用者動向というデータを蓄積する必要性を、動機に数えるのは不自然ではないでしょう。

方法はいくらでもある

動機とともに重要視されるのが「方法」で、サスペンスドラマにおける謎解きのセオリーです。ログインせずに個人情報が収集できるのかを考えてみます。訪問者のパソコンに一時的に情報を書き込む「Cookie（クッキー）」という技術を使えば簡単に「個人（正確には同じパソコンの同じブラウザですが）」を特定できます。次にJavaScriptの活用で、どのリンクをクリックしたかまで特定できるのは、「グーグルアナリティクス」の「ページ解析」からも明らかです。両者の情報を組み合わせてデータベース化すれば「性癖」の特定も不可能ではありません。

どちらもブラウザの設定で「拒否」することができますが、そもそもインターネットにアクセスした時点で、IPアドレスや利用しているブラウザ名など、多数の情報が「ゲット」できるのはネットのお約束で、これらの組み合わせから利用者の嗜好を特定することは簡単でしょう。

法的解釈　～一般論で包んで～

個人情報保護法がかまびすしい現代日本で個人情報を無許可で入手できるのかという法的疑問には一般論でお答えしましょう。

本人が許可して渡している情報は保護できない

インターネットにアクセスした時点で、一定の情報がゲットされることはすでに述べた通りですし、「クッキー」もJavaScriptもブラウザの設定で「ノー」とできます。つまり、情報提供を拒む措置を講じていなければ、「消極的同意」と判断でき、同意したものは保護の対象外。とは一般論です。

あるいは「コンビニ」では会計時に「客層キー」を押下します。これは年齢や性別を見た目で判断し、それぞれ割り当てられたキーを押下し集計することで、客層ごとの消費動向を調べるものです。年齢や性別は「個人情報」です。しかし、人目に留まった情報まで収集するなという規定は個人情報保護法にはありません。このことからも、ネットにアクセスした時点でゲットできる情報を規制することはできません。

思考的アプローチ

最後に容疑者の日頃の行動を絡めて、結論づけるとサスペンスドラマの犯人は自供をはじめます。米国発のネットサービスの大半は「オプトアウト」で行動します。「オプトアウト」は意訳すれば「事後承諾」。ポジティブに表現すれば「始めてから考えようぜ！」というもので、問題は顕在化してから考えます。これが顕著に表れたのは俗にいう「グーグル図書館」です。

国によって異なる著作権への対応もそこそこにサービスを開始して、世界中で議論百出しました。つぎに「ストリートビュー」では個人や表札の特定で物議を醸し、同サービス用の画像撮影車が、無線LANから個人情報を収集していたのは記憶に新しいでしょう。つまり、問題として顕在化するまで情報収集してきた行動を鑑みて、ログインしていない状態での情報収集が問題視されるまでは、なんらかの情報を収集していると考える方が自然だと議論を誘導するのは、船越栄一郎さんの演じる役所の得意技です。

愉快と不愉快の境界線

検索エンジンがネットの仕組み上、ゲットできる情報を収集していることを非難しているのではありません。コンビニの「客層キー」が、特定の客層が多い時間帯に好む弁当を配置し、消費者の利便性を高めているように、サービス改善に使うのは好ましいと考えています。もっとも、検索履歴から性癖がばれても「個人名」が特定されなければプライバシー侵害はおこりません。

仮説が生まれたきっかけは、IE、Firefox、Chrome、Safariと、それぞれのブラウザを用いてログインしていないグーグルを利用したところ、あるキーワードでは異なる「サジェスト」が表示されたことです。「ブラウザ」により「嗜好」が反映されたのではないかという見立てですが、1つの結論として、グーグルでは非ログイン状態の場合もブラウザのCookieにリンクされた過去の検索情報に基づいてカスタマイズしている（オートコンプリートの仕組み）とのことです（あくまで要素の1つ）。

こうしたクッキーによる分類は、アマゾンのレコメンドなどのように「行動ターゲティング」の分野で多く利用されており、グーグルや検索エンジンの独擅場ではありません。つまりは「ダダ漏れ」です。もちろんこれも「利用者のため」。そして大手サイトではクッキーの無効化（オプトアウト）を用意することで「個人情報の扱い」に慎重な姿勢を見せています。

本稿の主題は、個人情報収集のプロセスや是非と問うことになく「状況証拠」から積み上げて、アルゴリズム推測するという「思考実験」です。ユーザーの嗜好を読み取り最適なコンテンツを提供しようとする流れは今後、より加速していくことでしょう。それは客の動きを数値化できるWeb業界の得意分野でもあります。そして状況証拠というダダ漏れする「企業秘密」から、アルゴリズムを「邪推」するのはWeb担当者の仕事の1つです。

今回のポイント

ネットにアクセスした時点で個人情報は漏れている。

思考は具現化する……行動から解く「アルゴリズム」。