2014/10/29

分析には経験と勘が必要な理由

さて。再びブログをなんとしてでも習慣づけるべく、気持ちを奮いたたせて書いてみます。

オプトさんのData Science Labo(DSL)にて開催されているデータ分析のコンペで「ネット広告のクリック予測」というのを発見したのでネタにさせていただきました。

このコンペは、そのインプレッションがクリックされるか否かを分析によって予測するものですが、変数が覆面になっています。おそらく、メディアのIDだとかメディアのカテゴリだとかのIDやフラグだと思うのですが、どの数字が何を示すデータなのかはまったく示されていません。分析を知らない方にとっては「そんなバカな」かもしれないですが、分析はできてしまいます。ただし、こういった覆面データの分析は、"アルゴリズムの評価"という意味では有用なのだけれど、"その人がビジネスで成果を出す能力があるかどうかの評価"は難しいのであるよ、ということを思い出してペンを取った次第です。

分析アルゴリズムを産み出すアカデミック世界では、覆面だろうが同じデータを違うアルゴリズムにかけて、どれだけ正確に予測できたかというのは非常に正しい測定方法です。ただ、ビジネスを生業とするデータサイエンティストにとって最も重要なのは、(業界の)経験と勘から効果的な新しい変数を作って、最終目的を達成させることだと思っています。

以前、米国でNetflixだったと思いますが、映画のレコメンドエンジンのコンペがありました。実際の条件は見ていないのでわからないですが、映画名が明かされているのであれば標準的に振られる変数である「SF」「コメディ」みたいなカテゴリ だけじゃなく、「サブカル系」「小学校低学年向け」みたいな変数を勝手に作ってアルゴリズムにぶっこむことができる。たとえば、『近キョリ恋愛』というタイトルがあればそれをキーにして、山Pが出てて、ジャニーズフラグ立ってて、女子中高生純愛系で、少女漫画が原作で、みたいな情報をどんどん引っ張って突っ込む。最初に貰ったデータを外の世界のデータと繋いで、精度を改善できる。仮に映画のタイトルが『映画xyz』みたいに匿名化されてると、こうしたことができなくなる。

これはネット広告でも一緒で、どのURL/アプリのどの広告枠でといった情報が無いと、外の世界のデータと繋ぐことができない。ここが勝負を分けたりする。ここで暗に言っているのは、SSPからのRTBリクエストとして飛んでくる変数をログにした行列をそのままアルゴリズムにかけても、なかなか難しいということです。アルゴリズムをあれやこれや試すよりも、新しい変数を作って試すほうが有益なことは多々あるわけで。

たぶん今、経営者が"ビッグデータ"をビジネスに繋げる"データサイエンティスト"に求めるものは、目の前にある素材をどう調理するかを考える人じゃなくて、手元に無い素材は仕入れられる人なんじゃないのかなと、漠然と思うわけです。いわば『鉄腕DASH人材』。

最後までお付き合いいただいた方はもうお気づきかと思いますが、オプトさんのコンペの件とは何の関係もないお話でございました。私も以前、コンペを企画しようと考えたのですが、映画などのエンタメとは違ってほとんどの情報を覆面化せざるを得ないので諦めました。本当に分析コンペ運営は難しそうです。同様に、機密性の高いデータ分析を外部に委託する場合にも覆面化せざるを得ない場面があると思いますが、そこで成果を出すというのもなかなかに難しい問題であります。(ユーザーIDの類は匿名化は必須です。変数そのもの覆面化について。)



2014/10/03

マイクロアドを退職しました

2014年10月1日を最終出社日として、株式会社マイクロアドを退職しました。(株式会社サイバーエージェントは8月末日付で退職。)

大企業に染まりたくない一心で新卒2年目のNTTコミュニケーションズを飛び出したのが9年前。インテリジェンスから紹介されたサイバーエージェントという会社は、当時近鉄バッファローズ買収を仕掛けていたホリエモンの文脈で出てくるIT系の胡散臭い会社というくらいの認識でした。当時は今のキラキラ系とはちょっと違う、若手がグイグイやってる感じのイメージだったと思う。

そこで配属されたBlogClickプロジェクトは、ビジネスディベロップメント、システム屋、進行管理さん、そして一ヶ月前に入社した営業という事実上4名しかいない、生まれたての部署でした。ここに二人目の営業として入ったのです。入社早々、東大卒ですと自己紹介しろと強制されたり、理不尽に激ヅメされたり、モラルが無かったりと、あまりの前職との違いに戸惑ってはいたものの、このルールの無さはまさに求めていたものでした。ひどいけど、間違ってない。いや、間違ってるけど、これが求めるものでした。形骸化したルールというものが一番嫌いな人間にとって、無法地帯ではあるものの合目的的であるそこは天国であったわけです。

しかし、営業していてやはり気づくわけですね。他社媒体と比べてBlogClickはCPAが10倍くらい悪いと。そこでコンサルティングと称してデータを細かに見ていくと、今度は運用ではどうしようもない、根本の問題だと気づくわけです。むくむくとプロダクト自体を改善したいという思いが強くなって、俺が作ってやると勝手に思いはじめ、勝手に統計学やデータマイニングを勉強したら、後から職種がついてきた。気づけば、今で言う"データサイエンティスト”になっていました。

コンテンツ連動アルゴリズムの改善に始まり、行動ターゲティングのエンジンをリプレース、アドネットワークの広告選択ロジックをリプレース、そしてBLADEの企画から入札最適化エンジンとターゲティングエンジン構築へと、どんどん大掛かりなものになっていきました。BLADEの数字は毎日伸びていきました。竹の子みたいに。

立派に育った竹林をふんふんと眺めていたある日、一転新規事業をやることになりました。キノコを育てることになったようなものです。2013年の冬以降、半年以上BLADEのソースコードには一切触れていないにも関わらず、日々安定的に収益を上げ続けているのを見て、もう卒業だなと考えるようになりました。

いや、それは綺麗に言い過ぎました。本当は、サラリーマンとしての自分の戦闘能力の低さを痛いほど感じるようになったのが、このタイミングで離れる理由です。薄々気づいてはいたものの、サラリーマンとして出世競争を勝ち抜くDNAを持ってないことに33歳にしてはっきり自覚してしまったわけです。

自分の信じるものを作りたいので、まずは独立してみることにしました。データ分析の環境としては、マイクロアドは日本有数の良い環境だと思います。分析環境だけでなく、それをささえるフロント&ミドル&インフラのエンジニア、理解のある経営陣、さらには営業、バックエンドも優秀なプロフェッショナル揃いで、このチームを一からつくり上げるのは途方も無く大変だなと、真っ白な自分の計画を見て呆然としながら思います。しかし、このまま大企業で(能力として劣っている)サラリーマンとして逃げ切るよりも、独立した方が生涯の累計満足は大きいであろうと、リトル・ノグチのアルゴリズムは算出しました。

この9年間は、今までの人生の中で最も濃密で、エキサイティングなものでした。老人になった時に、この時代を誇らしげに語るのではなく、これから始まる時代を誇らしく語れるよう、頑張っていきます。


2013/12/31

あまりに短い2013年のまとめ

気づけば2013年が終わろうとしています。このブログを振り返ってみると、イベントとその資料の告知という2エントリーしかしていませんでした。とりあえず、忘れないように、2013年というものを記しておこうと思います。

仕事では海外向けとスマホ関連が多かったなぁ。坂の上の雲を追いかけていたら、いつの間にか世界大戦が勃発してしまったような感覚。数年前には考えられなかった光景が広がってて、現実世界とは思えない。そして冬からは、長年やってきた最適化エンジン&ターゲティングの開発からは離れ、新しい事を始めました。

2013年というのは、PCの終わりの始まりの年だったなぁ。言い換えると、cookieの終わりの始まりの年。パラダイムが変わるときって、本当に楽しい。

2014年、新世界を引っ掻き回すための仕込みの年にしたいと思います。

2013/04/13

色彩を持った野口わたると、彼のパワーポイント::IODC2013

野口わたるは安堵の表情を浮かべていた。IBMのサイトで公開されたPDFデータは、彼が望んだ通りのメイリオフォントが見事に再現されていたためだ。インカ帝国の石積みのように隙間なく敷き詰められた文字間隔や、美しく年輪を重ねたオーボエ奏者のように細くて丸みを帯びたメイリオフォントのラインが好きだった。また、彼は古いWindowsの初期状態のフォントがMS Pゴシックであることを、ひどく嫌っていた。たんぽぽの種が春風に吹かれて丸裸になっていくように、旧式のWindowsなんてなくなってしまえばいいとすら思っていた。もはや互換性という言葉は、彼のシナプスを通過する事はなくなっていた。

一ヶ月ほど前、彼が日本IBMから受け取ったパワーポイントのテンプレートは、とても質素なものだった。ヘッダとフッタには草原のような緑を基調とした一筋のラインが横切り、リレーショナルな円たちが背景で踊っていた。しかし、彼はその圧縮ファイルを解凍した瞬間に気づいた。「これはBLADEのカラーとは合わない。」確かにBLADEは、漆黒の夜空を黄色い雷が切り裂くような激しい色彩で、見るものを威圧するほどだったからだ。時計の最も短い針が一回転するくらい悩んだ後、彼はこれまで手がけた事のない、緑を基調とした資料を猛然と作り始めた。

しかし、ふと頭をよぎったことがテーブルにこぼした蜂蜜のように彼の脳味噌にへばりついた。「なぜIBMが緑なんだろう。」IBMに色彩は無かったのではないか。確かに以前はアメリカの少年が着ているTシャツのようなくすんだ青色を基調としていた。また、ThinkPadに誇らしげにぶら下がっていたのも赤、緑、青のロゴだった。しかし今、虹色だったアップルコンピュータの"1984"は現実のものとなり、色彩を捨てた新生"Apple"があっという間に三色のPCの帝国を打ち破ってしまった。

そんな事をぼんやり考えながら作業をしていると、背景で踊っていたリレーショナルな円たちがデータに見えてきた。そうだ、自分がなぜこんなにデータを見つめられるのかと言えば、データにはドラマがあるし、グラフが踊りながら伝えるメッセージを聴き取ろうとしているからだ。そして乳房のような曲線美を描くゲイングラフに出会いたいのだ。
「色彩。それがBIでありデータマイニングってことか。」彼はそうつぶやいた。

色彩を持たない多崎つくると、彼の巡礼の年色彩を持たない多崎つくると、彼の巡礼の年 [単行本]
著者:村上 春樹
出版:文藝春秋
(2013-04-12)



2013/04/05

IBMのイベントで講演します

Information On Demand Conference Japan 2013
4月11日(木) 14時~
【A-2】ネット広告のアルゴリズム取引で日本最大級になった理由
久しぶりに講演します。IBMのイベントで、主にデータマイニングなどの分析とビジネスについて話します。ネット広告を全然知らない方向けの内容なので、競合さんが来るとガッカリされるでしょう。

そして、このビッグデータ祭りに油を注ぐのか冷や水を浴びせるのか。「分析ツールとデータサイエンティストはシンクロ率が重要なんだ。SPSSとHadoopでは魂の場所が違うからね。」みたいな話をするとかしないとか。

Webからの申し込みはすでに満席になっていてできないようですが、FAXでの申し込みなら残席有りとのことなので、どうしても参加されたい方はFacebookのメッセージやTwitterやLinkedInなどでご連絡いただければFAXシートをお送りします。(申込は4月8日マデ)