2014/10/29

分析には経験と勘が必要な理由

さて。再びブログをなんとしてでも習慣づけるべく、気持ちを奮いたたせて書いてみます。

オプトさんのData Science Labo(DSL)にて開催されているデータ分析のコンペで「ネット広告のクリック予測」というのを発見したのでネタにさせていただきました。

このコンペは、そのインプレッションがクリックされるか否かを分析によって予測するものですが、変数が覆面になっています。おそらく、メディアのIDだとかメディアのカテゴリだとかのIDやフラグだと思うのですが、どの数字が何を示すデータなのかはまったく示されていません。分析を知らない方にとっては「そんなバカな」かもしれないですが、分析はできてしまいます。ただし、こういった覆面データの分析は、"アルゴリズムの評価"という意味では有用なのだけれど、"その人がビジネスで成果を出す能力があるかどうかの評価"は難しいのであるよ、ということを思い出してペンを取った次第です。

分析アルゴリズムを産み出すアカデミック世界では、覆面だろうが同じデータを違うアルゴリズムにかけて、どれだけ正確に予測できたかというのは非常に正しい測定方法です。ただ、ビジネスを生業とするデータサイエンティストにとって最も重要なのは、(業界の)経験と勘から効果的な新しい変数を作って、最終目的を達成させることだと思っています。

以前、米国でNetflixだったと思いますが、映画のレコメンドエンジンのコンペがありました。実際の条件は見ていないのでわからないですが、映画名が明かされているのであれば標準的に振られる変数である「SF」「コメディ」みたいなカテゴリ だけじゃなく、「サブカル系」「小学校低学年向け」みたいな変数を勝手に作ってアルゴリズムにぶっこむことができる。たとえば、『近キョリ恋愛』というタイトルがあればそれをキーにして、山Pが出てて、ジャニーズフラグ立ってて、女子中高生純愛系で、少女漫画が原作で、みたいな情報をどんどん引っ張って突っ込む。最初に貰ったデータを外の世界のデータと繋いで、精度を改善できる。仮に映画のタイトルが『映画xyz』みたいに匿名化されてると、こうしたことができなくなる。

これはネット広告でも一緒で、どのURL/アプリのどの広告枠でといった情報が無いと、外の世界のデータと繋ぐことができない。ここが勝負を分けたりする。ここで暗に言っているのは、SSPからのRTBリクエストとして飛んでくる変数をログにした行列をそのままアルゴリズムにかけても、なかなか難しいということです。アルゴリズムをあれやこれや試すよりも、新しい変数を作って試すほうが有益なことは多々あるわけで。

たぶん今、経営者が"ビッグデータ"をビジネスに繋げる"データサイエンティスト"に求めるものは、目の前にある素材をどう調理するかを考える人じゃなくて、手元に無い素材は仕入れられる人なんじゃないのかなと、漠然と思うわけです。いわば『鉄腕DASH人材』。

最後までお付き合いいただいた方はもうお気づきかと思いますが、オプトさんのコンペの件とは何の関係もないお話でございました。私も以前、コンペを企画しようと考えたのですが、映画などのエンタメとは違ってほとんどの情報を覆面化せざるを得ないので諦めました。本当に分析コンペ運営は難しそうです。同様に、機密性の高いデータ分析を外部に委託する場合にも覆面化せざるを得ない場面があると思いますが、そこで成果を出すというのもなかなかに難しい問題であります。(ユーザーIDの類は匿名化は必須です。変数そのもの覆面化について。)