あなたは世の中で一番似ている人と同じ広告をクリックするだろうか？

カテゴリ:: Data Mining

この信じられないほどの晴天の中、PCに向かっている俺はどうかと思いますが、ブログ更新が滞り気味なので気合いです。

前々から思っていることなのだけれど、↓のリリースを見てあらためて考えたこと。

株式会社ブレインパッド　レコメンドエンジン「RtoasterTM」の新たなオプション機能として、データマイニングでユーザーのセグメント分けを自動化する機能を提供開始

まず、ちょっと平易に。データマイニングとはWebログなどの大量のデータから何らかの傾向を見いだす統計学の派生型のこと。そしてここで言っている「ユーザーのセグメント分け」とは、たとえば「GWなのに家でグダグダしちゃってそうな人」「GWはリゾート地でパーッとやっちまってそうな人」「GWはお金は無いけど友達とわいわいやってそうな人」みたいに後からくくり名を付けることができるようなカテゴリのことで、データマイニングの世界ではクラスタリングと呼ばれる手法です。データを分析にかけると、勝手に浮かび上がってくるのが特徴。そのクラスター（カテゴリ）は通常は多くて数十個。このリリースで言えば、ヴィレヴァンのサイト内の行動やヴィレヴァンの会員情報を基に、いくつかのクラスターに会員を自動で振り分ける。

※これ以降はブレインパッドさんとは何ら関係のない話です。

さて。こうしたオーディエンスのクラスタリングという方式は広告領域において本当に機能するのだろうかというのが長年頭を悩ませている問いです。たとえば、自分自身に世界で一番行動パターンや属性（性別・年齢・地域など）が似ている人がいたとして、その人がクリックする広告を、私もクリックする確率は高いのだろうか？禅寺に来たつもりで一旦心を落ち着けて、リアルに誰か自分に近い人の顔を思い浮かべて考えていただきたいのです。

私は、自分に似ている人と同じ広告をクリックしないと思います。むしろ、数千もの触れる広告の中から同じ広告をクリックする確率は天文学的な数字になるでしょう。

逆に、私はCFD（FXみたいなやつね）の広告をクリックするとして、金融関係のページを閲覧していた可能性は高いだろうし、他のCFDの広告をクリックする人も金融関係のページを見ていた確率は高いでしょう。世界中の誰よりきっと私に似ている人は金融関係のページを見ていただろうか？あの人は見ていないだろうし、CFDの広告をクリックしないだろうなぁ。

云わんとしていることは、広告は似ているオーディエンスをクラスタリングする方向では無いんじゃないかと。仮にオーディエンスクラスタリングの精度を極限にまで高めても、どうなのだろうかと。Facebook並にソーシャルグラフ情報があり、似ている人間がわかったとして、それは広告のターゲティングに利用できるのかな。グラフ理論の広告領域での応用についても同様。

やはりターゲティングは行動を最重要のベースにしなければ機能しないと思ってまして。人をベースではなく。人をベースにすると、無理矢理大きなクラスターに押し込むことになる。クラスタリングとは十人十色の対義語である

俺。クラスターを予測系ロジックの変数として使うのは全然ありだと思うんだけど（つまりクラスタリングとの掛け合わせ）。あとはフィルタリング的な使い方とかも。

オーディエンスクラスタリングが何らかの施策のために効く業種はもちろんあるでしょう。伝統的なデータマイニングの世界であればクラスタリングは十分機能するはずです。たとえば、年収が400万円以下・既婚・子供2人・千葉県持ち家という人の含まれる、あるクラスタのローン返済確率のような。ただ、ネット広告はどうでしょう？大量の行動データ（入力）と大量に用意可能な素材（広告＆クリエイティブ）（出力）があるのだから、わざわざオーディエンスをカテゴライズする必要って無いと思うのです。イメージとして、近い人々を定義できた方が、なんか凄そうってのは確かにあるんだけど。

オーディエンスのクラスタリングの精度向上に四苦八苦していたりするのを見たりすると、いつもこんなことを考えたりしております。そして、これ以外のことでも「その研究がありえねぇくらいうまくいったとして、それって機能するのかなぁ？」というものに出会ったりします。