2009年07月

2009/07/30

SPSSがIBMに買収される

MSとYahoo!の提携よりも、俺には書かねばならぬネタがある!
今日もSPSSのソフトを10時間触り続けて疲れてヘトヘトですが、この記事については書かないといけないという勝手な使命感。

IBM、統計解析のSPSSを12億ドルで買収へ--ビジネス分析領域を拡大
IBMは7月28日(米国時間)、統計解析パッケージのSPSSとの間で買収の合意に達したことを発表した。1株あたり50ドルの現金による買収で、総額は約12億ドル規模に上る。2009年後半に買収を完了する見込み。

IBMはSPSSの獲得によって、ITシステム基盤の戦略「Information on Demand」と「Information Agenda」を推進し、関連製品を強化したい考え。今回の買収では、同社が先頃発表した新サービスと組織「Business Analytics and Optimization」(BAO)なども強化される見込みだ。

ということで、俺の中でAppleとGoogleのロゴに次ぐくらいのブランド価値を持つSPSSが、突然巨象IBMとの買収に合意の発表

俺の使っているSPSSのデータマイニングソフト、PASW Modeler(旧称SPSS Clementine)は「ブラボー!!」では足りないくらいの賛辞を贈りたい優秀なソフト。データマイニングの試行錯誤プロセス支援を徹底的に突き詰めてる。

さて、統計解析ソフトやデータマイニングソフトは、現在世界でSASとSPSSの二社が双璧になっていて、それ以外はほとんど滅びてしまいました。以前はIBMもIntelligent Minerというデータマイニングソフトを提供していましたが、今では話を聞くことも滅多に無くなりもうした。

SASとSPSSの違いは、SASがBI(Business Intelligence)を中心とした「会議室な感じ」に対して、SPSSがマーケターや教育世界を中心とした「占い師な感じ」。ソフトの核は同じことやってんだけど。で、「会議室な感じ」の巨人であるIBMは絶対SASを欲しかったと思うんだけど、おそらくSPSSのキャッシュが無くなって棚ぼたで買っちゃったってことだと思います。

d1e6a6dcさて、Business Intelligenceとは、企業内に散らばる情報を集約して、そこから有益な情報を抽出することが中心。「君、エレクトロラックスのコーヒーメーカーの売上が神戸ですこぶる良いじゃないか、君!」的世界。なので、数学や統計学的な世界よりも、めちゃくちゃすごいExcelといったイメージに近い(ユーザーの表面上は)。コックピットで操縦するみたいな満足感と共に。で、ここの予算の出所は大企業の経営企画や大規模営業組織とかだったりで、ドーンと予算が振られて、その投資効果の検証は金額ではできないし、金額もデカい。

8DD796D891E590E690B6一方、「誰にDMを送るか」とかのマーケターの世界のデータマイニングは「この人はエレクトロラックスのコーヒーメーカーを買う確率は2.3%かもね」的世界。顧客は金融だったり小売だったりリサーチ系企業だったりで、「通常時(ランダム)よりもどれだけ効率が上がったか」が勝負で、投資効果が通常時との差額という金額で出てくるし、その差額ってば雀の涙だから担当者の涙もちょちょぎれる。(莫大なマネートラフィックの発生する金融や、メーカーでの歩留まり率、医薬の検定とかはもちろんクリティカルなのだけども)

つまり、「会議室」を相手にしたSASが生き残って、「占い師」を相手にしていたSPSSは、この不況で真っ先に予算が削られてしまった、というのが俺の想定するシナリオ。

正直、BIに関してはエラい人たちの意思決定のための精神安定剤としか思ってないので、個人的にはBI系のベンダーに転職するとかはまず無い。経営の意思決定やマネージャーの戦略策定においては、材料がある方が安心して決断できる。だけど、企業内にあるデータで有益なものって、すごく少ないし、データに精通してないと情報を読み誤るし、結局は都合の良いでっちあげになってしまうと思うのだよな。

IBMに買収されるからと言ってSPSSが変わっちゃうわけじゃないんだけど、買収後に「会議室」側の機能拡充ばかり注力させられ、学会で認められた新アルゴリズムの取り込みとかが遅れだしたらちょっと嫌だなぁ、と。開発のリソース配分として。

俺の業務時間、SPSS:MySQL:Chrome:Others=6:1:2:1くらいなんだが、この数ヶ月でMySQLを保有するSUNもOracleに買われて行くし、もうなんだかこの世の果てだなぁ。



2009/07/21

ブラック・スワンと1Q84

この三連休は天気もぐずついてたので、かなり本を読んでました。

ブラック・スワン[上]―不確実性とリスクの本質ブラック・スワン[上]―不確実性とリスクの本質
著者:ナシーム・ニコラス・タレブ
販売元:ダイヤモンド社
発売日:2009-06-19
おすすめ度:4.5
クチコミを見る

ブラック・スワンとは、これまで人々は白鳥は白いと思っていたが、オーストラリア大陸が発見され、黒い白鳥がたった1羽発見されただけで常識が覆されてしまったという実話からきた言葉。「白い白鳥がいる。黒い白鳥がいるという証拠は見つからない。」をいくら積み上げてもしょうがないってこと。そして人間の脳味噌ってのはどうしても間違った判断をしてしまうってこと。

著者の云うブラック・スワンの特徴は下記の三つ。
(1)異常であること(過去の経験からは考えられないこと)
(2)とても大きな衝撃があること
(3)起こった後で適当な説明をでっちあげたり、予測可能だったことにしてしまうこと

過去のデータから未来の確率を予測する。これが統計学やデータマイニング的なアプローチ。これらは確率が低いものを外れ値として真っ先に除去したり、棄却したりする。逆に、確率が低いが、起こったらとんでもないことっていうのがブラックスワン。東京大地震みたいな。

さて。これをアドネットワークビジネスにあてはめてみるに。
たとえば、アドネットワーク事業にとってのブラックスワンとは、Tracking cookieの利用が突如法的に規制されたり、突如IEのプライベートモードがデフォルトでになったり、住基ネットのようなマスコミバカ騒ぎやそれにあいのりする力だったりという、極めて可能性は低いが、万が一起きたらとんでもないリスクを抱えているわけですね(と、俺が予想している時点でこんなレベルじゃないことが本当のブラック・スワン!)。だからといって可能性の低い未来の事象に照準を合わせるってことも経営判断として正しいとは言い難いので、ある程度の備えをするしかないんですけどね。

また、俺はコンバージョンもブラックスワンだと思ってます。コンバージョンデータはほとんどモデルに加味しないというと、「はぁ?」という反応を示されるわけですが、なぜならばコンバージョン数というのは極めて限られている。しかも大半の広告主はひとつのアドネットワークでは月間で100レコード未満のコンバージョン数しかない。CTR0.1%, CVR1%で仮定すると、インプレッションからコンバージョンまでの確率は0.001%になるわけで、100,000インプレッションレコードの中に1コンバージョンレコードが紛れ込んでいるわけです。これをまぐれと呼ばずなんと呼びましょうや。たった数十レコードのまぐれを基に、未来を予測することはできませぬ(通常オーバーサンプリングという手法で解決するのだが、麻.薬でもある)。だから他のセンサーを使います。

リスティング運用をコンバージョンデータで最適化するのはもちろん良いことです。なぜならば、検索結果という、極めて安定した環境(面)であるから、将来にわたっても環境はあまり変わらない。しかも、最重要変数は絶対的にキーワードと順位であるし、地域や時間帯といった弱い変数が加わるだけ。コンバージョンはきれいに確率に従う(まだブラックスワンに至っていない状態とも言えるが)。ただし、アドネットワークは違う。極めて不安定な環境であるから、将来は環境がすぐに大胆に変わる。かつ重要な変数も固定的ではない。不安定な環境で蓄積されたデータというのは、未来予測に使うのにあまり適していない。

たとえば、サイコロは形が変形しない、つまり安定しているから、確率は過去も未来も変わらず各16.7%と予測可能。次の目は予測できなくとも、確率は極めて正確に。しかし、天気は気圧や地形や風や気温など各要因(変数)によって大きく左右されているから、未来予測に関してはそこまでの精度は出せない。
※ちなみに、この2つ目の例は本書とはほとんど関係のない、予測に使う材料という議題から独自に派生させた内容。

わたくしは、まさに本書にて糾弾されている側であり、いろいろと身につまされるところが多く。ただ、こんな議論を普段から会社でしてたらまぁ仕事はできない奴だろうし、"めんどくせぇ奴"としてつまはじきにされることは間違いないので、「俺ってデータに取り憑かれてるよなぁ」「なんでこうも騙されるんかなぁ」感のある人だけ読んだ方がいいかも(しかも哲学に関する記述が冗長だ)。一般的なビジネスシーンにおいて、確率に従うという判断は通常は正しいのだから。通常は。


1Q84 BOOK 11Q84 BOOK 1
著者:村上 春樹
販売元:新潮社
発売日:2009-05-29
おすすめ度:4.0
クチコミを見る

いわずもがな。『1Q84』が"Big Brother"の『1984』を題材にしていると知った時点で本屋に駆け出していました(いまさら)。Big Brotherが、そうなるわけかー、と。初村上春樹でしたが、おもしろいです。連休中に読破しました。

この2冊を交互に読んでたんだけど、妙に共通するようなしないような、よくわかんなくて気持ち悪かった。

さて。
この三連休で、今まで何度も失敗してきた宣言を、今度こそ守り抜く覚悟をしました。継続力には自信があるが、どうしても守れないのがこの2つ。「サラリーマン宣言」と「ケータイメール即レス宣言」。サラリーマンという言葉はかっこいい言葉なんだ、とドラマ『官僚たちの夏』のかっこいい堺雅人を見て思ったのでした。俺も良い歳だし、いつまでも小栗旬ではいられません。

2009/07/03

データマイナーが旅に出る理由

データマイナーは往々にしてドン・キホーテになる。

データマイニングを続けていると、いろいろなことが鮮明にデータから浮かび上がり、悟りともいうべき世界に至る。これまで正しいと思ってきたことが実にバカバカしく思えてきて、正しいものを徹底的に探求するようになる。そして会議室の存在に対する真理の探求がはじまる。

ph_big_03その「正しい」ものとは、もはやデータマイナー以外の人間にとっては理解不能となり、半ば狂っているように周囲からは見えるようになる。これはいくら易しく説明しようとしても無理なのだ。キリンを見たことの無い絵師に口頭でキリンを説明すると、こんな姿になっちゃうみたいに。これは「正しい」キリンじゃない。明らかに、この絵師が過去に見たことのある鹿に強い影響を受けている。キリンのあの姿は想像もつかなかっただろう。

データの動きは、データに浸かったことのある人間にしかわからない。脳の中でデータ群を抽象化したルービックキューブのような図形がぐにゃぐにゃに動くのだ。それを伝えること、そしてそれがなぜ正しいのかを伝えることは極めて難しい。対象が単純で、データとして明快にその効能が表出する場合なら良いが、そんなものは希有だ。

その結果、「正しい」と思われることは実行に移せない。そして、世の中のデータマイニングプロジェクトのほとんどが失敗するのだ。データマイニング系のイベントや懇親会は、愚痴イベントと化す(学会もそうかもしれないが)。毎回プレゼンでも話されるのが、「経営層はデータマイニングへ深い理解を示すべきだ」とか「短期的利益を求めるな」といったところ。逆に言えば、それだけの体力の無い会社はデータマイニングなどすべきではない。人を雇って人海戦術で行く方が絶対に良いのだ。規模が大きくなれば比例して収益が拡大する事業以外は。

そして今日も狂ったデータマイナーは旅に出る。