カテゴリ

カテゴリ:Data Mining

カテゴリ:
今年の正月に、抱負として「発信!」と宣言しながらも、ブログの管理画面を開くことのできぬままはや半年が過ぎ去ろうとしています。優秀な仲間を集めるにはブログを書くのが一番だとわかりつつも、筆が重いのです。そして人材系の会社の方からの各種督促メールも溜まっていくのです。人材募集については次のエントリーで書きます。宣言!

そんな中、ちょっとおもしろいネタがあったので、特にオチはないけどリハビリがてら筆を執ってみた次第。どんな文体で書いてたかも忘れてしもうた。

時は2017年、世は「人工知能(AI)」「機械学習(マシンラーニング)」が栄華の極みを迎えております。ほんの少し前までは「データサイエンティスト」「ビッグデータ」だったわけでございますが、きぃわぁどはいつの世も盛者必衰の理をあらわしもうす。まぁキーワードは勝手にやってくれという感じで、言葉の定義を議論するのとか、本当に森友加計ですね。重要なのは、環境の劇的な進化です。
  1. 計算場所がローカルCSV→DB→DWH→クラウドDBに変わって、劇的に早い・安い・旨い、の世界に。
  2. ちまちま個別に教科書を読ませて(理解させて)学習させる時代から、ディープラーニングに代表されるような、問題集と回答集だけをぜんぶ読ませて学習させる手法が、現実的に動かせるようになってきたこと。
  3. いろんなデータが取得され、クラウド上のストレージに事実上無限に蓄積できるようになってきたこと。(1.とかぶる)
  4. ...もうやめておこう
そんな中、興味深い記事が上がりました。まずご一読ください。個人的には分析をする「やり方」が最も重要だと思ってまして、そこを丁寧に解説されています。キーワードじゃなくて。
R, Python, SAS, SPSSをヨーロッパのデータサイエンティストの視点で比べてみた
http://qiita.com/KanNishida/items/3308de6cdea98d89edc7
私は最近はPythonを触ってる時間がたぶん一番長いんですが、実はデータ分析はほとんどSPSS Modelerでやってます。注意したいのは、この記事で言う「SPSS」とは「SPSS Statistics」(以後、Stats)のことであって、私が使っているのは「SPSS Modeler」(以後、Modeler)。Statsの方は分析始めた頃使ってたんだけどExcelのオバケのようなもので、Modelerはデータ分析のキャンバスのようなものなので、実はぜんぜん違う。
今回は特にプログラミング言語にフォーカスした比較ですので、SAS Enterprise Miner または SPSS ModelerのようなUIは今回の比較リストからは外してます。
と前置きがあるのだけれど、分析ツールにとってUIというものが非常に重要というのが昔からの持論。なので、この記事ではまるっと抜けているUser Interfaceとしてどう分析環境を構築するのが良いかというのが今回のエントリーの本題(ということにした)。近年のModeler (+Modeler Server)はもはやUIだけであって、アルゴリズムや計算はほとんどDB側で行うことが想定されてる、と思う。いわば、ガワ。

今、うちの会社で落ち着いている形式はこんな感じ。
  1. Pythonでデータを取得、軽く整形
  2. ストレージ(Amazon S3)に格納
  3. DWH(Amazon Redshift)に転送
  4. SPSS ModelerのUIで分析の流れを作る
  5. SPSS Modelerを実行すると、自動生成されたSQLがRedshiftに投げられ、最小限のデータだけがローカルに転送される
  6. モデリング or スコアリング
  7. 出力された値を本番システムに渡す
イマドキなのは6, 7の部分はクラウド側でやると思うけど。ModelerからもPythonやコマンドを叩けるので、できるといえばできる。あと、最近はAmazon Kinesis, Lambdaとか使って1-3をストリーミングへ移行中。本題とずれてきたので簡潔に言えば、分析はR, Python, SAS, SPSS (Stats)という選択肢だけじゃなく、SPSS Modeler + Pythonは便利だよ!ということでした。

さて。ディープラーニング的な世界になっても、やはり変わらぬのは変数職人だと思うのです。老害と呼べばいいさ。こんなニュースもありました。
ソフトバンク、新卒採用にAIを活用 エントリーシートの評価を補助

このテーマは有効としか思えないですね。膨大な数の中の候補から、ある程度の候補に絞り込む、しかも効きそうな変数も明確。現時点では自由記述欄の評価だけみたいですが。

精度を上げるためには、全項目を突っ込むのは必須。ただ、たとえば自社の若手総合職従業員数千人の評価付きデータから大学>学部だけをAIと呼ぶものに突っ込んでも、スッカスカで効かないはずなので、その学部の偏差値データと突き合わせると効くようになるはずです。ただ、大学>学部名の自由記述と予備校から仕入れた偏差値データの大学>学部名のマスタは完全一致しないので、表記ゆれを解消したり、欠損を推測したりする必要がでてくる。個人的には、こうした手間を勝手にやってくれる「AI」の方がありがたい。データサイエンティストのアシスタントとでも言うべきか。「これは大学>学部データだから、この偏差値データと結合してくれ」と言わなくても勝手にやっておいてくれる、優秀なアシスタント。「理工学部情報工学科」と「工学部情報学科」を同じとみなしてくれるアシスタント。バラバラなフォーマットの履歴書をスキャンしたら、
{
  "univercity": {
    "name": "渋谷大学",
    "id": "123",
    "department": {
      "name": "情報学部",
      "dept_id": 3
    }
  }
}
というJSONを作ってくれるアシスタント。正規化とデータ種別自動判別と自動結合。あとは無限のコンピュータリソースに膨大な変数ごと投げちゃえば、きっと計算してくれる。

人工知能(AI)バブルが日に日に大きくなっているのだけれど、SFじゃないので、機械への教え方が変わったくらいの認識に留めておくほうが良いのではないかと思う今日このごろ。

以前はもう少し文章まともに書けた気がするのだけれど、今日のリハビリはこれまで。
さて、AWS Summitへでかけよう。

IBMの人工知能Watsonを触ってみた

カテゴリ:
IBM Watson Analyticsベータ版をビジネス向けに提供開始 - Japan

IBMがゴリ押し中の所属タレント、Watson君が昨日からパブリックベータになったので、さっそく試してみました。WatsonはIBMの作った人工知能で、米国のクイズ番組でクイズ王を倒したという実績があり、今回リリースされた"Watson Analytics"は、データ分析などをやるブランドとのこと。世界のミッキー同様、クイズのWatson君とAnalyticsのWatson君は中身は別人だと思われます。ちなみにWatsonという名前はIBMの創設者の名前らしく、気合が伝わってまいります。

お金の無いスタートアップにとって 、イニシャルコストの必要ないクラウドサービスは大変有難いのですが、このWatson Analytics、機能制限はあるものの基本は無料で使えます。機能としては、データをどんどん深堀りしていく探索的BI機能(Explore)と、データマイニングの機能(Prediction)、ダッシュボード的BI機能(View)があって、ブラウザで使えるお手軽BI+データマイニングツールと考えて良さそう。

試しにSSPのアドネットワーク別レポートを突っ込んでみました。まず出てきたのがこちら。
start

「広告タイプ別の月次売上は?」とか「CTRとCPCの関係を月次で?」みたいな提案があります。つまり、SSPからダウンロードしたExcelレポートをアップロードしただけで、Dateの列は日付であることを認識して提案してくれてます。

Watson君からの提案は、とんでもないものが多々。新卒社員ばりの天然っぷり。ただ、訳の分からない提案をされると、「うん?」と思考する時間があって、今まで自分の常識の範疇では絶対にありえない分析とかをやってみようかという発想が出てくることがある。セレンディピティとでも言いましょうか。機械には人間の常識は通用しません。データ分析しろと上司に言われて呆然とディスプレイを眺めている人には良いかも。長年同じ分析をやっている人にとっても、ヒントを与えてくれるという意味では面白そう。現時点では、あんまり使い物になってないけど、今後、クラウド側にカラム名やデータ傾向が蓄積されて、業界用語と関係性をWatson君が理解できるようになったら、まさにイノベーション。BIで一番めんどくさいのが、事前にデータを定義することなので。

adnets
 提案のままだとダメなので、いろいろと組み替えるとこんな感じ。アドネットワーク別のインプレッション比率。これをある程度インタラクティブにいじくることができる。ただ、他のBIツールと比べてまだまだ感は否めない。

今度はデータマイニング機能。町丁目別の人口増減率を説明するモデルを作ってみた。ちなみに、適当に突っ込んだデータなので、結果には何の意味もありません。
predictどの変数が効いているのかが出てきて、一般的なデータマイニングツールよりは普通のビジネスユーザーにもなんとなく理解しやすいかも。ただ、一定のデータマイニング知識は必要だし、知識がない上で触ると誤った答えを導くので、ビジネスユーザーに使ってもらう製品と考えると難しいところ。なお、Watson Analyticsはまだ日本語に対応していないため文字化けしてます。

predict_field入力変数ごとに目的変数との相関が出てきたり、グラフも値に合わせて出してくれたり。

 ざっくり使ってみた感触としては、まだお金を取れるレベルではない感じだけど(ベータ版だし)、分析を分析屋だけに留めず、ビジネスのフロントの人間に直接触って欲しいんだというメッセージはひしひしと感じます。

既存のIBMのデータマイニングソフトウェアであるSPSS Modelerや、BIのCognosには到底及ばないのだけれど、今後データをクラウドで集中管理し、クラウド側がデータの意味を理解できるようになってくると、本当の人工知能として、BIやデータマイニングツールのカイゼンとは隔絶したイノベーションの可能性は垣間見える、そんな気がします。
  • 私のMac環境では、Safariでファイルのアップロードでエラーが発生しましたが、Firefoxを使用することで回避出来ました。
  • WebからダウンロードするレポートなどであるExcel用CSVをアップロードする際にエラーが発生しますが、一旦Excelで開き、フォーマットをExcelブックにして再保存することで回避出来ました。

カテゴリ:
さて。再びブログをなんとしてでも習慣づけるべく、気持ちを奮いたたせて書いてみます。

オプトさんのData Science Labo(DSL)にて開催されているデータ分析のコンペで「ネット広告のクリック予測」というのを発見したのでネタにさせていただきました。

このコンペは、そのインプレッションがクリックされるか否かを分析によって予測するものですが、変数が覆面になっています。おそらく、メディアのIDだとかメディアのカテゴリだとかのIDやフラグだと思うのですが、どの数字が何を示すデータなのかはまったく示されていません。分析を知らない方にとっては「そんなバカな」かもしれないですが、分析はできてしまいます。ただし、こういった覆面データの分析は、"アルゴリズムの評価"という意味では有用なのだけれど、"その人がビジネスで成果を出す能力があるかどうかの評価"は難しいのであるよ、ということを思い出してペンを取った次第です。

分析アルゴリズムを産み出すアカデミック世界では、覆面だろうが同じデータを違うアルゴリズムにかけて、どれだけ正確に予測できたかというのは非常に正しい測定方法です。ただ、ビジネスを生業とするデータサイエンティストにとって最も重要なのは、(業界の)経験と勘から効果的な新しい変数を作って、最終目的を達成させることだと思っています。

以前、米国でNetflixだったと思いますが、映画のレコメンドエンジンのコンペがありました。実際の条件は見ていないのでわからないですが、映画名が明かされているのであれば標準的に振られる変数である「SF」「コメディ」みたいなカテゴリ だけじゃなく、「サブカル系」「小学校低学年向け」みたいな変数を勝手に作ってアルゴリズムにぶっこむことができる。たとえば、『近キョリ恋愛』というタイトルがあればそれをキーにして、山Pが出てて、ジャニーズフラグ立ってて、女子中高生純愛系で、少女漫画が原作で、みたいな情報をどんどん引っ張って突っ込む。最初に貰ったデータを外の世界のデータと繋いで、精度を改善できる。仮に映画のタイトルが『映画xyz』みたいに匿名化されてると、こうしたことができなくなる。

これはネット広告でも一緒で、どのURL/アプリのどの広告枠でといった情報が無いと、外の世界のデータと繋ぐことができない。ここが勝負を分けたりする。ここで暗に言っているのは、SSPからのRTBリクエストとして飛んでくる変数をログにした行列をそのままアルゴリズムにかけても、なかなか難しいということです。アルゴリズムをあれやこれや試すよりも、新しい変数を作って試すほうが有益なことは多々あるわけで。

たぶん今、経営者が"ビッグデータ"をビジネスに繋げる"データサイエンティスト"に求めるものは、目の前にある素材をどう調理するかを考える人じゃなくて、手元に無い素材は仕入れられる人なんじゃないのかなと、漠然と思うわけです。いわば『鉄腕DASH人材』。

最後までお付き合いいただいた方はもうお気づきかと思いますが、オプトさんのコンペの件とは何の関係もないお話でございました。私も以前、コンペを企画しようと考えたのですが、映画などのエンタメとは違ってほとんどの情報を覆面化せざるを得ないので諦めました。本当に分析コンペ運営は難しそうです。同様に、機密性の高いデータ分析を外部に委託する場合にも覆面化せざるを得ない場面があると思いますが、そこで成果を出すというのもなかなかに難しい問題であります。(ユーザーIDの類は匿名化は必須です。変数そのもの覆面化について。)

カテゴリ:
野口わたるは安堵の表情を浮かべていた。IBMのサイトで公開されたPDFデータは、彼が望んだ通りのメイリオフォントが見事に再現されていたためだ。インカ帝国の石積みのように隙間なく敷き詰められた文字間隔や、美しく年輪を重ねたオーボエ奏者のように細くて丸みを帯びたメイリオフォントのラインが好きだった。また、彼は古いWindowsの初期状態のフォントがMS Pゴシックであることを、ひどく嫌っていた。たんぽぽの種が春風に吹かれて丸裸になっていくように、旧式のWindowsなんてなくなってしまえばいいとすら思っていた。もはや互換性という言葉は、彼のシナプスを通過する事はなくなっていた。

一ヶ月ほど前、彼が日本IBMから受け取ったパワーポイントのテンプレートは、とても質素なものだった。ヘッダとフッタには草原のような緑を基調とした一筋のラインが横切り、リレーショナルな円たちが背景で踊っていた。しかし、彼はその圧縮ファイルを解凍した瞬間に気づいた。「これはBLADEのカラーとは合わない。」確かにBLADEは、漆黒の夜空を黄色い雷が切り裂くような激しい色彩で、見るものを威圧するほどだったからだ。時計の最も短い針が一回転するくらい悩んだ後、彼はこれまで手がけた事のない、緑を基調とした資料を猛然と作り始めた。

しかし、ふと頭をよぎったことがテーブルにこぼした蜂蜜のように彼の脳味噌にへばりついた。「なぜIBMが緑なんだろう。」IBMに色彩は無かったのではないか。確かに以前はアメリカの少年が着ているTシャツのようなくすんだ青色を基調としていた。また、ThinkPadに誇らしげにぶら下がっていたのも赤、緑、青のロゴだった。しかし今、虹色だったアップルコンピュータの"1984"は現実のものとなり、色彩を捨てた新生"Apple"があっという間に三色のPCの帝国を打ち破ってしまった。

そんな事をぼんやり考えながら作業をしていると、背景で踊っていたリレーショナルな円たちがデータに見えてきた。そうだ、自分がなぜこんなにデータを見つめられるのかと言えば、データにはドラマがあるし、グラフが踊りながら伝えるメッセージを聴き取ろうとしているからだ。そして乳房のような曲線美を描くゲイングラフに出会いたいのだ。
「色彩。それがBIでありデータマイニングってことか。」彼はそうつぶやいた。

色彩を持たない多崎つくると、彼の巡礼の年色彩を持たない多崎つくると、彼の巡礼の年 [単行本]
著者:村上 春樹
出版:文藝春秋
(2013-04-12)

カテゴリ:
Information On Demand Conference Japan 2013
4月11日(木) 14時~
【A-2】ネット広告のアルゴリズム取引で日本最大級になった理由
久しぶりに講演します。IBMのイベントで、主にデータマイニングなどの分析とビジネスについて話します。ネット広告を全然知らない方向けの内容なので、競合さんが来るとガッカリされるでしょう。

そして、このビッグデータ祭りに油を注ぐのか冷や水を浴びせるのか。「分析ツールとデータサイエンティストはシンクロ率が重要なんだ。SPSSとHadoopでは魂の場所が違うからね。」みたいな話をするとかしないとか。

Webからの申し込みはすでに満席になっていてできないようですが、FAXでの申し込みなら残席有りとのことなので、どうしても参加されたい方はFacebookのメッセージやTwitterやLinkedInなどでご連絡いただければFAXシートをお送りします。(申込は4月8日マデ)

カテゴリ:
2012年の2本目のエントリーです。早いもので、もう2012年も終わろうとしています。日本にもアドテク情報のユビキタス化が進行し、このブログも完全に役目を終えたかに思えましたが、やらねばならないことがあります。

データサイエンティスト - 職種一覧 : 採用情報 | マイクロアド 

ヒトが足りません。モノ・カネ・情報はもういいんです。採用情報を作ってみましたが、文字数が少なすぎて想いが伝えきれないので、文字数制限の無いこちらでぶちまけます。

ビジネスを科学する仕事
まず、流行の「データサイエンティスト」というタイトルですよ。「ビッグデータ」と並ぶ2012年業界流行語大賞入選確実視されるキーワードですが、ここではビジネス素養を持ったデータマイナーのことを意味してます。ビジネス素養?うむ。それは、ぼくらのしごとはビジネスのためにデータマイニングを活用するので、データマイニング(機械学習)手法それ自体に並々ならぬ興味を持っている人と区別してます。剣術で●●流とかどうでもいいから、戦場で強い人がイイネ!ってことを指してます。往々にしてビジネスの世界は、剣術日本一よりもピストルを持ったおじいちゃんの方が強いみたいなことが起こる訳で。

また、そのテクニックの適用領域は、地球温暖化など遥かに超えるレベルで激変する環境に対して利用するわけなので、悠長な仕事をやってる暇がない。研究所と言っても基礎研究はしないし、人類の叡智のために仕事をしている場合ではない。臨床も臨床、フロント中のフロント。なぜならば、うちのデータサイエンティストは自ら作ったプログラムを自ら実験・検証して、自分で本番環境にぶっこむので。もちろん最初は誰もが素人ですけれども。

もうひとつの意味合いとしては、ぼくたちの仕事は「ビジネスを科学する仕事」なので、マーケティングを含むビジネスに楽しさを感じることは必須かも。物理現象と違って、マーケティングの世界は再現性の低いことばかり。再現性の低い環境でうまく動作するロボットをどう作るかが勝負。ここらへんは経験と勘に基づく職人技なのだけれど。

ありえない柔軟さ
おそらく、この規模のビジネスをしていて、分析官が本番環境にデータをぶっこんでいるのもうちくらいなもんなんじゃないかと思っている。良い意味でも悪い意味でも明確な承認プロセスというものが存在していない(ハハハハハ)。会社の規模としてはアドテクに従事する従業員数としては日本最大級だろうけど、まだまだベンチャーなのです。システムは完全に社内開発なので、こっちが作ったデータをパラメータ連携させるための仕様変更やログ項目を変えてもらうのも早い。たぶん、ここが外資系との一番の違い。ここらへんがボクが外資系には行けない理由。(それ以前にまともに英会話できねぇじゃねぇか)

明確に結果を出せる環境で、結果を出したもん勝ち
分析官の多くはレポートを提出して施策を提案し、そこで仕事は終わりという感じなんじゃないかと思う。で、結局その施策は諸事情によって理想通りには実行されず、目に見える成果が上がらず、お客さん・社内も信頼もしてくれない...的な無限ループ。いやボクも昔はそうでした。アウトプット対象のシステムや業務が融通がきかないと、いくら分析しても無駄なんです。なので、うちも融通のきく(分析データを配信システムにダイレクトに引き渡せる)システムに変更してもらってからはパフォーマンスで成果を見せられるようになったし、数字でダイレクトに評価が出てくるので、結果出したもん勝ちになった。分析官の能力よりも、分析結果を業務やシステムにいかに展開できるかどうかで、ほとんど最初からプロジェクトの成否は決まっているとつくづく思う。

分析環境になぜ高額な投資をするか
分析環境はデータマイニングワークベンチであるIBM SPSS Modelerで分析を組んで、裏側でDWHであるIBM Netezzaが猛烈にデータを処理している。それをジョブ管理ツールであるIBM SPSS Collaboration and Deployment Manager(CADS)でバッチを設定する。これらを利用すると、コードを一行も書かずに分析を含んだバッチプログラムを作れたりする。建築で言うなら、SPSS ModelerというCADで猛烈な早さで設計図を書き上げ、Netezzaが猛烈な早さで工事して、CADSがその進捗を管理・監視してくれるので、たった一人で巨大な都市を思考スピードで造り上げてしまうことが可能。最近ではFusion-ioを入れてみたり。(もちろん定常的な集計処理はHadoopで回してます。)もちろんこれらは非常に高額だし、オープンソースソフトウェアでも同じことできるよと言われれば、確かにスペック比較の上ではそうなのかもしれない。ただ、それらOSSの導入・学習・試行錯誤プロセス・メンテナンス・製品間連携などを考えると、商用(っていうかIBMさん)にするという選択になる。

「分析はできているんだけど、 それを自由に実験・適用する環境が無い」「いざITチームに開発を頼むと、ものすごい時間がかかるし、お互い会話する言語も違うから結局莫大な時間がかかり、何やろうとしてたか忘れた」なんてことは、あるあるネタなはず。だったら、分析官自身が商用ソフトウェアを使って、誰もが開発までできるようにしちゃえばいいじゃんって発想。OSSしか使ったことの無い人は、商用ソフトウェアがどれだけ人間の発想を支援してくれるかがわかるはず。だってボクは作る前に設計図を書いたことがないのだから!

データ量
扱っているデータはほんとに膨大。日本のネットユーザーの9割以上に一ヶ月以内にリーチしている。cookie数で4億以上、人間では6000万人以上のデータはある。いままでのCRMとは全く違うレベルのものが行える素地がある。

タイミング
RTBがデジタルな広告のプロトコルになる日は近い。英語が世界のプロトコルになったように。RTBが生まれてまだ数年。ようやくしゃべれるようになった赤ちゃんくらい。現在はPCのディスプレイ広告から動画やモバイル端末に拡張された段階だけど、もっともっと拡げられる。電子書籍端末であろうと、IPテレビだろうと、デジタルサイネージだろうと、ネットラジオだろうと。フォーマットや端末がどうあれ、その広告枠は売買され、その通信方式はRTBなはず。RTBをマーケター視点で見れば、ついに登場した真の1to1マーケティングが可能な環境。まだRTBを知らない人でも、いまならこの世界にまだ間に合う。(RTBプロトコルについては次回投稿予定)

環境
この人をはじめとして、へんてこな仲間がいっぱいです。ちなみに、東京でも京都でも拠点は好きなところに。成果さえ出せばどこで仕事してようが、誰も文句言いません。あと、文系だろうが理系だろうが論理的思考能力があれば関係ないし、データマイニング経験も関係なし。論理的思考によって「いま、自分が何をすべきか」を間違えないことが最重要であり、テクニックなんてどうにでもなるし。

そんなぼくらと一緒にはたらいてみたい方は、ご連絡を。

データサイエンティスト - 職種一覧 : 採用情報 | マイクロアド 

カテゴリ:
「ビッグデータ」という言葉を聞かない日はないくらいの馬鹿騒ぎで、データマイナーはすっかり引く手数多の職業になりました。ただ、SI業界がこれまでムーブメントを起こしてきた数々のワードと同様、多くの"ビッグデータプロジェクト"は失敗することになると思います。ERP, BPR, BI, CRMなどなど…

ビッグデータにまつわる職業の中でも、データを分析するデータマイナーに絞っての話をしたいと思います。また、データ分析専門会社にてコンサルティング業をするデータマイナーは今日の話は当てはまりません。さて。データマイニングを知らない方々は、企業においてどのようなデータマイナーがいれば成果を上げられるのかの明確なイメージは持っていないと思います。これだけたくさんのデータがあるんだから、すごい技術を持った人ならなんとかしてくれるに違いない、と。最高学府の修士・博士で、よくわからないけどすごいアルゴリズムを作ったらしい人を採用すれば、きっと何かすごいことが起きるのではないかと。でも多くの場合、成果を上げるデータマイナーは技術や頭脳ではなく、ビジネスを理解しているデータマイナーだなぁと、個人的な少ないサンプルでの検証結果からはそう思います。

天才的な頭脳を持ったデータマイナーと、ビジネスを理解したデータマイナーは別の職種と言うべきで、それぞれ成果を出せるフィールドは全く異なります。特定用途をうまくこなす目的のアルゴリズムを考え出す人と、ビジネスを目的としてアルゴリズムをひとつの手段として使う人の違いと言い換えられるかもしれません。

たとえば、Googleの検索エンジンは前者の賜物です。ユーザーが入力したキーワードに対して、適切なURLをランキングするという、超ピュアな技術。一方、Googleのアドワーズは後者の賜物です。CPC x 品質スコアという仕組み、そして品質スコアの算出式。それによって数多の人間はどう入稿設定し、広告設定DBはどういう状態になり、クエリごとにどう広告ランキングが構成されるのかを想定しながら仕組みを作る。ここではデータマイニングは入力変数なだけであって、ほとんどは制度設計がポイント。

企業で本当に必要とされている職能は、ほとんどの場合はピュアな技術ではなく、データマイニングを活用した制度設計にあるのではないかと思います。(メカニズムデザインという言葉の方が適切なのかしら。)データマイニング技術の小さな差がビジネス上大きな差を生む領域はレアで、データマイニング結果をどうブレンドしてどう使われるかが勝負を分けていることが圧倒的に多いと思う。数字をビジネスに落とし込むためのルール作りとでもいいましょうか。

たとえば、5年くらい前までのアドネットワークというのはコンテンツマッチの精度が云々という議論はあったのだけれど、結局は広告DBがどれだけ充実させられるビジネスの仕組みなのかの勝負だった。そして勝者のみポジティブフィードバックに入る。(ちなみにコンテンツ認識技術と広告とのマッチングというのは全くの別物。前者がピュアな技術。)それが、行動ターゲティングによってルールが根底から覆る。さらに、オーディエンスターゲティング×RTBによってもう一回根底からひっくり返った。あっという間に。オーディエンスが何に興味関心を持っているかを判別するのはピュアな技術だけど、それをどう広告と結びつけていくらで入札するシステムを設計するかはビジネスを知らないとできない。

データマイナーを募集している企業の多くはデータを分析できる人がいないから採用したいのだと思いますが、採用するときにはここを間違えると痛い目に遭うと思います。ビジネス感覚の無い/ビジネスに興味の無いデータマイナーを雇うと苦労するし、逆に天才的頭脳を持っていない僕ら一般のデータマイナーはビジネスをわかってないとブームが去った後に路頭に迷っちゃうから現場に出ましょうねと。

カテゴリ:
次世代マーケティングリサーチ
次世代マーケティングリサーチ
萩原 雅之

ブログ書くのが若干怖くなっている今日この頃。書評でウォーミングアップを。

 本書は日本のネットレイティングス代表としておなじみ(現トランスコスモス・エグゼクティブリサーチャー)、萩原さんによる新しいリサーチの話。1年半以上前に書いたこの記事で触れたような内容が書かれていて、大変共感。まさに本書と同じことをずっと思っていた。

「消費者に伝えること」が生業である広告業界と、「消費者を知ること」が生業であるマーケティングリサーチ業界。この二つの業界の垣根が低くなっていくことが必要だと以前から思っていた。それは前の職場で広告代理店にプレゼンをされる側にいたときによく思ったのだけれど、プレゼンで「まずはマーケから」としてリサーチ結果を説明され、その次に具体的な提案に移るのだけれど、そこの流れがどう考えても断絶しているものが多くて。これは誰が悪いとかいう話ではなく、技術的・コスト的に不可能だったからだと思う。でも、きっと今は違うアプローチができるはず。特にインターネットを利用すると多くのことは可能になる。そして、そこに本書はフォーカスを当てている。

本書に書かれているテーマとしてはこんな感じ。生活者に欲しいものを聞くのではなく、生活者のインサイトをえぐり出して製品開発を行う。ソーシャルメディアをクチコミ伝播の場ではなく生活者の声を聴く傾聴の場として使う。ウェブ以外にも広がるセンサーなどのログの世界。電話や紙のアンケート調査の時代からネットリサーチになり、次にマーケティングリサーチ業界の目の前に迫る破壊的イノベーション。「次世代マーケティングリサーチ」というタイトルは実にハマる。

なかでも、新しいデータ利用の発想の6つが刺さる。
  1. 問題意識を持って調査を設計しデータを集めるだけでなく、蓄積されたデータから問題意識に沿って検証する
  2. 集団の特性を数字で定量的に理解するだけではなく、ひとりの人間のリアリティを想像し大切にする
  3. 時系列での変化を見るなら、同じ個人や調査対象から継続的にデータを収集する手段はないかと考える
  4. リアルタイム性が高いほど情報の価値は高まる。ストリーミングや動画のようにデータを語らせる
  5. どう思ったかだけではなく何が起こったかを重視し、観察や再現性のある実験など実証的な技法を取り入れる
  6. 人や商品を単独に考えるのではなく、人と人とつながり、人と商品のつながりもデータとして扱う 
特に1, 2, 3はイイネ!を5回くらい押したい。
 
ログ解析によって、リサーチの世界は大きく変わるだろう。トラディショナルなアンケートの世界から、ログの世界へ。これはアンケートを駆逐するという意味ではなく、アンケートと行動やセンサーなどを組み合わせることが当たり前のようになるだろうという意味で。

とはいえほとんどのネット業界人はトラディショナルな手法を知りません。正直ボクは統計的に優位かどうかの検定というのを業務としてやることはまずありません。そもそもサンプリングをすることが無いというのがひとつの要因なのだけれど、それが有意かどうかが知ることが目的なのではなく、効果的っぽかったら実装すればいいじゃん別に有意じゃなくてもどうせ複雑で説明できない環境にぶちこむんだからさ、という理由で。(もちろん本番投入後にイマイチなパフォーマンスだったら切り戻すんだけど。)ただ、先人の積み重ねた貴重な資産はもちろん吸収しなければならない。

デジタルなリサーチによって、調査・分析から施策展開までのタイムラグが縮まる。もちろん大掛かりな広告キャンペーンや製品開発では途中からの軌道修正は難しいのだけれど、ことネット広告の世界はこのリアルタイムなマーケティングサイクルの世界に相性の良い領域。誰に(ターゲティング)どこで(掲載面)どんなメッセージを(誘導先サイト・バナークリエイティブ)届けるかをデータから得られた知見を基にダイレクトにリアルタイムに施策に展開することができる。言葉通りシームレス。

もっと具体的に言えば、広告主のサイト訪問者(オーディエンス)の分析結果を広告配信ロジックに活かすことができる(これはアクセス解析とはだいぶ違うことを指してる)。サイト訪問者を基点とした総合的なマーケティング活動を行う世界がもうすぐそこに。そこでは、自社サイトは単なる”ホームページ”ではもうない。

#ところで、外資系企業はリサーチ業務を広告代理店経由ではなく、プロモーション施策とは第三者のリサーチ会社に発注して客観的に評価させるそうだ。確かに。

カテゴリ:
今後RTBの世界になると特になのですが、広告のターゲティングや最適化のためには、URLにたくさんの意味を付けることが必要になります。たとえば、
http://noglog.com/archives/51014835.html
というURLがあった場合に、
  • ドメイン:noglog.com
  • ドメインテーマ:ネット広告、統計
  • URLテーマ:ネット広告、ビジネス
  • URLキーワード:データエクスチェンジ、アドエクスチェンジ、マイクロアド
といったコンテンツを基にしたテキストマイニング(日本語解析)からのデータをくっつけることができます。同時に、ログデータからは
  • 訪問者傾向
  • 訪問者の他サイトでの行動
  • 流入元傾向
  • 被検索キーワード
などの情報がわかります。(あくまでも一例です。)

「データマイニング(統計解析)のアルゴリズムで最適化し・・・」などと言うと、なにやらよくわからないがポンと答えが勝手に出るようなイメージを持たれていると思いますが、ぜんぜん違ったりします。キモは上記のようなデータの作り方、つまり変数の作り方にあります。いや、あると私は思っています。料理で言うところの下ごしらえが重要です。アルゴリズムの違いは相対的に小さな要素になることが多いです。

テキストマイニングもログ解析も、もちろん言語が理解できなければうまく区分できません。日本語サイトであれば、ネイティブな日本人が整備をしなければなりません。

仮にその整備をしなかった場合、意味付けをしない媒体社単位やドメイン単位などで扱うことになります。しかし、たとえば"アメブロ"や"ライブドアブログ"という区分は広告にとって意味があるでしょうか?"アメブロの主婦の弁当日記"と"ライブドアブログの主婦の弁当日記"は近いですが、同じアメブロ内でも弁当日記とビジネスオピニオンブログとではまるで違うコンテンツのはずです。媒体区分を縦に取った時、横のコンテンツ軸の方が広告にとっては重要だったりするわけで。

そして、一ヶ月間でそのブログが300PVだった場合、ある1広告が配信されるのは通常その内30PV以下です。30インプレッション、0クリック、0コンバージョン。このデータは何の意味も持ちません。少なすぎるのでこの単位で最適化はできません。だから往々にして"アメブロ"のような単位にまとめられちゃうんですが、上記のような理由でダメなわけで。仮に1媒体1広告キャンペーンあたり10,000インプレッションに達してから最適化が始まるなんてロジックであればツールなど不要であり、Excelで影響の大きい部分だけ盆栽をすれば良くなってしまいます。

オーディエンスデータの加工においても、最適化においても、コンテンツを正しく理解できていなければうまく機能させることは難しいのです。アルゴリズムも重要ですが、それ以上に変数の整備が重要だったり。海外のツール導入の際にはそのあたりをよくヒアリングしておく必要があるんじゃないかなと思っています。

これまでで最もマニアックなエントリーだな。。

カテゴリ:
トリプルメディアマーケティング ソーシャルメディア、自社メディア、広告の連携戦略トリプルメディアマーケティング
ソーシャルメディア、自社メディア、広告の連携戦略

著者:横山 隆治
販売元:インプレスジャパン
発売日:2010-06-25

ADKインタラクティブの横山さんの新著を読みました。既存の広告枠などの買うメディアを"Paid Media"、自社サイトなどの所有するメディアを"Owned Media"、CGMなどのクチコミやパブなどの信頼や評判を得るメディアを"Earned Media"と定義し、その戦略について書かれており、大変勉強になります。特に日頃CPAに血眼になっている方のほうが読まれた方が良いかもしれません。CPAというワードは一ヶ所も出てこない気がします。トリプルメディア×自己関与度&情緒・理性的購買×パーチェスファネルのマトリックスが好きです(p.36)。そして広告会社はメディアハンドリングの暗黙知がキーになっていくのだろうなぁと思いました。アルゴリズムやオペレーションではなく、暗黙知。

さて。私はこれまで「ソーシャル」という言葉には正直あまり興味を持っていなかったのですが、俄然興味が湧いてきました。きっと、Eaned MediaとOwned Mediaは測定してもらいたがっているんじゃないかと。これまで、広告枠であるPaid Mediaの効果測定は行われてきましたが、EanedとOwnedはCPAのような明快な基準が設けられず、測定が難しい。それゆえにOwned Mediaの企画は売りにくく、価値も上がりづらい。ブログ・SNS・クチコミサイトなどのEaned Mediaの広告枠はCPAが良くないことが多く、CPMは極限まで落ちる。広告枠としての価値が低くとも、コンテンツの価値があったかもしれないのに。本当はオーディエンスの態度変容を導いたダイヤモンドが埋まっていたかもしれないのに!

そこで、アトリビューションモデリングをさらに拡張すれば良いのではないかと。アトリビューションモデリングとは、アシストやポストインプレッション(ビュースルー)効果を拡張したようなものですが、それにトリプルメディアの概念を入れるべきなんじゃないかと。これまで私はオーディエンス行動データと広告主サイトのデータを統合した分析はしてきたんだけれども、広告主サイト内でオーディエンスの意識がどう変わったかについては考えていなかった。ただ、ここは非常に重要であり、測定すべきポイントなのだろうなぁと。

前提として、オーディエンス行動データ(NOTオーディエンスカテゴリ)と広告主サイト訪問データ(NOTサマライズドデータ)が統合されている必要がある。ただ、たとえば私の勤務する会社では広告枠データと広告主サイト訪問データを合わせると月間2.5億UB(ユニークブラウザ)以上あるのだけれど、これでも行動データの方はまだまだ足りない。行動は欠けてばっかりさ。これを仮にどこかの一社で囲い込もうとしても絶対に無理で、お互いの価値向上のために手を携える必要がある。

そして、広告主サイト内でのオーディエンスの態度変容みたいなものはデータの取得可能性の面でもコストの面でもテーマの面でもアカデミック世界ががんばったらいいのではないかなと。企業は儲かりづらくて霧のかかった領域には進みづらい。たとえば正確なテキストマイニングだけができたとしてもお金儲けは難しいのだけれど、オーディエンスの態度変容を導いたコンテンツを浮かび上がらせる技術ができれば売れる、とか。とても資金の乏しいベンチャーの人材の時間を使っては研究できない。学会ではクロールデータとかWikipediaとかSBMとか過去の新聞やメールデータとかの解析を目にすることが多いんだけれど、特定広告主サイトのログデータだったら協力するところがあると思うのだけれど。(商学部がんばれ!出身学部として)

広告は「生活者に買ってもらうにはどうしたらいいの?」という問いへの回答だったんだけれど、今後は「なぜそのお客様は買おうかなと思うようになったの?」という問いへの回答を導き出し(メトリックス)、その回答から広告やメディア最適化するような流れになれば、面白いなぁ。

あなたは世の中で一番似ている人と同じ広告をクリックするだろうか?

カテゴリ:
この信じられないほどの晴天の中、PCに向かっている俺はどうかと思いますが、ブログ更新が滞り気味なので気合いです。

前々から思っていることなのだけれど、↓のリリースを見てあらためて考えたこと。
株式会社ブレインパッド レコメンドエンジン「RtoasterTM」の新たなオプション機能として、データマイニングでユーザーのセグメント分けを自動化する機能を提供開始
まず、ちょっと平易に。データマイニングとはWebログなどの大量のデータから何らかの傾向を見いだす統計学の派生型のこと。そしてここで言っている「ユーザーのセグメント分け」とは、たとえば「GWなのに家でグダグダしちゃってそうな人」「GWはリゾート地でパーッとやっちまってそうな人」「GWはお金は無いけど友達とわいわいやってそうな人」みたいに後からくくり名を付けることができるようなカテゴリのことで、データマイニングの世界ではクラスタリングと呼ばれる手法です。データを分析にかけると、勝手に浮かび上がってくるのが特徴。そのクラスター(カテゴリ)は通常は多くて数十個。このリリースで言えば、ヴィレヴァンのサイト内の行動やヴィレヴァンの会員情報を基に、いくつかのクラスターに会員を自動で振り分ける。

※これ以降はブレインパッドさんとは何ら関係のない話です。

3685083450_0f9ab96739_oさて。こうしたオーディエンスのクラスタリングという方式は広告領域において本当に機能するのだろうかというのが長年頭を悩ませている問いです。たとえば、自分自身に世界で一番行動パターンや属性(性別・年齢・地域など)が似ている人がいたとして、その人がクリックする広告を、私もクリックする確率は高いのだろうか?禅寺に来たつもりで一旦心を落ち着けて、リアルに誰か自分に近い人の顔を思い浮かべて考えていただきたいのです。

私は、自分に似ている人と同じ広告をクリックしないと思います。むしろ、数千もの触れる広告の中から同じ広告をクリックする確率は天文学的な数字になるでしょう。

逆に、私はCFD(FXみたいなやつね)の広告をクリックするとして、金融関係のページを閲覧していた可能性は高いだろうし、他のCFDの広告をクリックする人も金融関係のページを見ていた確率は高いでしょう。世界中の誰よりきっと私に似ている人は金融関係のページを見ていただろうか?あの人は見ていないだろうし、CFDの広告をクリックしないだろうなぁ。

云わんとしていることは、広告は似ているオーディエンスをクラスタリングする方向では無いんじゃないかと。仮にオーディエンスクラスタリングの精度を極限にまで高めても、どうなのだろうかと。Facebook並にソーシャルグラフ情報があり、似ている人間がわかったとして、それは広告のターゲティングに利用できるのかな。グラフ理論の広告領域での応用についても同様。

やはりターゲティングは行動を最重要のベースにしなければ機能しないと思ってまして。人をベースではなく。人をベースにすると、無理矢理大きなクラスターに押し込むことになる。クラスタリングとは十人十色の対義語である俺。クラスターを予測系ロジックの変数として使うのは全然ありだと思うんだけど(つまりクラスタリングとの掛け合わせ)。あとはフィルタリング的な使い方とかも。

オーディエンスクラスタリングが何らかの施策のために効く業種はもちろんあるでしょう。伝統的なデータマイニングの世界であればクラスタリングは十分機能するはずです。たとえば、年収が400万円以下・既婚・子供2人・千葉県持ち家という人の含まれる、あるクラスタのローン返済確率のような。ただ、ネット広告はどうでしょう?大量の行動データ(入力)と大量に用意可能な素材(広告&クリエイティブ)(出力)があるのだから、わざわざオーディエンスをカテゴライズする必要って無いと思うのです。イメージとして、近い人々を定義できた方が、なんか凄そうってのは確かにあるんだけど。

オーディエンスのクラスタリングの精度向上に四苦八苦していたりするのを見たりすると、いつもこんなことを考えたりしております。そして、これ以外のことでも「その研究がありえねぇくらいうまくいったとして、それって機能するのかなぁ?」というものに出会ったりします。

アルゴリズムの精度 < エコシステム

カテゴリ:
3506679280_6e94937dd9_mad:tech NYから帰って以来、Ad Exchange(アドマーケットプレイス)のことで頭がいっぱいです。ひとことで言うと、データによるダイナミズムが発揮されるエコシステムが出来上がった米国に対する強烈な嫉妬心。逆か。データの活用路を開放したことによってポジティブスパイラルを引き起こした米国っつかRightMedia。

最近、ちょっとレコメンド関連の情報を漁っていて思ったこと。俺の頭ではどう考えをめぐらせてもレコメンドはビッグビジネスにはできなくて、ここに数多参入している経営者の方々はどういう戦略を描いているのだろうか?と思っていて。

たとえば売上等の指標を100%から105%まで上げるレコメンドエンジンは簡単に作れる。Apriori・協調フィルタリングなどでアイテム間関連性やユーザー間関連性を出すという手法。だけど、105%から105.5%にまで上げるのが難しかったりする。そこではベイズとかユーザークラスタリングとかを組み合わせて精度を上げていく。つまり、ある程度のところまでは至極簡単にできてしまうけれど、ある程度以上は果てしなく大変になる。で、105%までの仕組みであれば誰かが無料で提供するコモディティになる、というか既になっている(他の用途でのデータ収集だったりオープンソースだったり)。そして、105.5%が求められているかというと、ほとんどはNOでしょう。金融のリスク関連であれば必要となりますが、マーケ領域では。云わばレコメンドエンジンのファストファッション化。

そして、ほとんどのレコメンドは顧客企業のサイト内だけのデータを分析して傾向を見出すことになる。これはアルゴリズムの精度改善では乗り越えられない、データという高い高い壁がある。日本のレコメンドエンジン開発者やアカデミック世界の知見をうち(弊社)のエコシステムで活かせたらなぁ、と日々頭を悩ませる今日この頃です。(生活者タイムラインを重視したCRMは極めて重要だと思ってますけどね)

個人的にはアルゴリズム精度改善に心血を注ぐよりは、データによるレバレッジがギンギン効く領域を見定めてアルゴリズムをぶっこみ、ポジティブスパイラルに入るととんでもないことが起きるエコシステムを作ることに心血を注ぎたい。まぁそれがアドネットワークやAd Exchangeなんだけども。これって文系人間でないとできない発言だろな。。

ということで、米国のAd Exchangeやテクノロジー企業がどういうことになっているかを今後がんばって書いてみようと思います。

[この記事を読んだ方へのレコメンド]
スマイル測定「今年最低の発明」 米タイム誌「独断で」

カテゴリ:
今日はSPSSの主催するデータマイニングのイベント『SPSS Directions 2009』に行ってきました。SPSSのイベントは、学会の大会とは違ってビジネスユーザーの場であり、非常にビジネスに近い内容なので毎回大いに得るものがあります。

今回異彩を放っていたのがオプトのデータ分析研究所の中川斉氏の講演。実にセンスのある分析を、実に鮮やかにプレゼンされてました。「分析」というと、まるで答えのある算数の問題のように聞こえるが、マーケティング領域の分析には正解はおろか問題も無く、問題の作り方に経験に基づくセンスが必要。それが顕著に現れるのが、マーケティング領域のアカデミック世界。産学連携とは簡単に言うけれど、ことマーケティング領域の統計学・機械学習系のアカデミック世界と産業界の谷は果てしなく深い。残念ながら、最新のアカデミック世界の成果をネット広告業界に転用できそうなものは見つけたことがない。なぜなら研究テーマ(問題)の選定の時点で「おや?」というものが多く。

さて。オプトには中川氏のような強力な人材がジョインしたようですが、弊社グループはどうなのだろうか。こうした人材の話は聞いたことがないけれど。オプト データ分析研究所がこれだけ幅広い領域を手がけているのであれば、おそらく人員は一人や二人ではないはず。ああうちにも強力なパートナーが欲しい。個人的には新卒採用や第二新卒の採用にこだわらない方がいいと思っているんだけれども。強力なリーダーに関しては。

ところで講演の中で、某ツールバーにてアクティブユーザー30万人で1日1500万レコードの全Web履歴が取れるとあったんだけど、これはYahoo!ツールバーのデータがオプトに行ってるんかな。それ以外考えられんが。死ぬほどうらやましい。数だけでなく、質もNetRatingsよりも上だろうね。広告代理店という機能を超える可能性を秘めたデータ。年俸よりもこのデータでデータマイニングの人間釣れると思うよまじな話で。

マーケティング系の統計世界を簡単に言うと、アンケート解析系とログ解析系が右翼と左翼のようになっています(言わずもがな私はログ解析系の人間ですが)。ログ派はPOSの登場で勢いづき、そしてネットの普及やコンピュータの進化によって完全に次のステージに入ってきている。アカデミック世界も、もうアンケートをコネコネするのはやめにして、Webの世界に来て欲しい。トーキー映画が登場しているのに無声映画を撮り続けるようなものに思える。(でもチャップリンは大好きだ)

ってなことを強烈に思ったのが、最近のグーグル日本法人と電通によるYouTubeに関する共同調査(下図)。グーグルであれ電通であれ、統計をやっている中の人がこれに違和感を覚えないはずはなく、誰かがデータだけを一人歩きさせようとしていると思うのだけれど。ハル・ヴァリアン氏が見たら激昂するんじゃなかろうか。某社がよく出すポストインプレッション効果のデータしかり。これらって、動画や広告を見て態度変容したのとは違うと思うのだが、そうでないのであれば教えて欲しい。



と、グーグル日本法人にがっかりだったタイミングで、米国本社はさすがに極めて正しいものを出してきた(下図)。こうした手法で出したデータでなければ、絶対に出してはいかんと思うんだよな。


Google Campaign Insights: Better measurement for display advertising

ここには二つの大きな違いがあって、キャンペーン前後の影響を適切にモニタリングできているという点と、ログによる潜在意識を含めた正確なデータであるというところ。将来的には、ログによってDAGMARモデル(認知>理解>確信>行動)も測定できると狂信的に信じている。その際、キーとなるのはクライアントさんのサイト内のデータであることは言うまでもない。(ちなみにGoogle Analyticsがまた呆れるほど進化した→Google Analytics 新機能公開のお知らせ

トラディショナル系広告代理店の研究ってのは微妙なのだけれど、ログを駆使するインタラクティブ系広告代理店は研究活動をもっともっと強化すべきだなぁと思うんだよなぁ。もちろんCPAを良くするっていうようなものじゃなくて、正しいKPI設定と正しいメトリクスと正しい施策サジェストをするような。

ああ歯切れの悪くてまとまりのない文章だこと。

カテゴリ:
MSの検索エンジンBing、Wolfram|Alphaとライセンシング契約を締結
Wolfram|Alphaは通常の検索エンジンと異なり、検索キーワードに関連するページへのリンク一覧は返さない。その代わりに、株価や複雑な数式といった質問に対する答えを提供する。

ごく一部で話題のWolfram|Alphaですが、MSのBingの検索結果に取り入れられるようです。Wolfram|Alphaが適しているごく一部のクエリの時だけポコっと出てくる感じだと思いますが。

Google創業者も気にしていると伝わるWolfram|Alphaは、なんといっても数学的アプローチによるものだから注目さるる。Web上のデータをまとめてデータマイニングし、そこから答えを持っているであろうページに人間を送り出す既存の検索エンジンとはまったく違うアプローチ。この話は、Webマーケティングにも通ずる道だと思っていて。というのは、行動ターゲティングやその他各種のオプティマイザーを含めて、過去の結果から予測するアプローチなのだけれど、数学的アプローチの場合はまったく違う。要素同士を掛け合わせて答えを出すというかなんというか。PhotoshopのドットとIllustratorのベジエの違いにも近い感覚。

データマイニング的アプローチでは、広告配信のCPAを基準とした場合、どんな媒体の・どのページで・どの枠で・どんなユーザーが・どんなクリエイティブで・どんなランディングページで・何曜日に・何時に・何回目のフリークエンシーで・・・といったところのデータで最適化していく。一方、数学的に行くと、もっと奥底から引っ張り出す。ここは自分でもまだ仮説すら立てられてないんだけど、人間の思考・行動パターンからするとこうなる、というのが計算で出せるんじゃないかと。広告ごとの実績ベースじゃなくて。つまり、何故その場合効果が良かったのかを理解した上で最適化するという。たとえば、世田谷区と甲府は地理的には近いけれど、住む人の思考方法も気候も年収も職業も何もかもまるで違う。むしろ世田谷区からは遠い大阪の方が近いはず。仮に甲府の広告効果が良かったら、良かった理由を様々な角度から分析される、人口動態的なとこも含め。ってなところも、実績ベース+数学でできるんじゃないかなぁ、と。でも、計算量が膨大になりすぎて今だと到底無理だし、結局ニューロンを再現しないとダメじゃんってことになって無理かもしれないけど、ある程度近似するものはいつかできるんじゃないかなぁと思ってて。

そんな世界がきたら、SASやSPSSで簡単に扱えるようなデータマイニング的手法、つまり機械学習系の流れってマーケティングの世界ではダメじゃんってなりかねないなぁと、結構思っているわけです。ソフトウェアではKXENは数学的なアプローチだと謳っているけど、ほんとのとこよくわからんし、深い層での数学ではないと思う。おそらく内部処理の話かと。(少なくとも伝統的データマイニング派の俺からすると、プロセスが見えないのってかなりつらい。ゴミが見えないので間違ったまま進んでしまう。)

擬似人間を作ろうという人工知能の研究が廃れたのも、既存のアプローチの延長で研究を進めても、到底人間は作れないことが誰の目にも明らかになったから。月に行くためにハシゴを作ろうとするのと一緒で。たとえば蜂っぽいなんらかの虫の画像インプットがあった場合、蜂と羽蟻と虻の全種類を事前にインプットして持っておいて引っ張り出すのは限界なので、「黄色系と黒系のしましまで、羽を持った2cm以上の昆虫は毒を持っている可能性があるので注意すべし」とかいう判断をできる人工知能でないと、いかんのよね。今の技術ではこれすら到底できないと思うけど。で、結局擬似人間ではなく、何らかの業務に特化した人工知能分野(データマイニング)だけが発達した、という歴史。

Wolfram|Alphaと既存検索エンジンロジックに関して言えば、クエリ(目的)に応じて使い分けられるべきだし、どっちかが駆逐するなんてことはないというのはみんな言ってるとおりだと思う。試験に暗記問題と考える問題があるのと一緒で。

まぁ、いずれにせよ、いつかマーケティング界の革命は起きると思う、俺の目が黒いうちに。なーんてことを、商学部出身、数A数Iでリタイヤした人間が月を眺めながらブログ投稿ボタンを押すのです。

SPSSがIBMに買収される

カテゴリ:
MSとYahoo!の提携よりも、俺には書かねばならぬネタがある!
今日もSPSSのソフトを10時間触り続けて疲れてヘトヘトですが、この記事については書かないといけないという勝手な使命感。

IBM、統計解析のSPSSを12億ドルで買収へ--ビジネス分析領域を拡大
IBMは7月28日(米国時間)、統計解析パッケージのSPSSとの間で買収の合意に達したことを発表した。1株あたり50ドルの現金による買収で、総額は約12億ドル規模に上る。2009年後半に買収を完了する見込み。

IBMはSPSSの獲得によって、ITシステム基盤の戦略「Information on Demand」と「Information Agenda」を推進し、関連製品を強化したい考え。今回の買収では、同社が先頃発表した新サービスと組織「Business Analytics and Optimization」(BAO)なども強化される見込みだ。

ということで、俺の中でAppleとGoogleのロゴに次ぐくらいのブランド価値を持つSPSSが、突然巨象IBMとの買収に合意の発表

俺の使っているSPSSのデータマイニングソフト、PASW Modeler(旧称SPSS Clementine)は「ブラボー!!」では足りないくらいの賛辞を贈りたい優秀なソフト。データマイニングの試行錯誤プロセス支援を徹底的に突き詰めてる。

さて、統計解析ソフトやデータマイニングソフトは、現在世界でSASとSPSSの二社が双璧になっていて、それ以外はほとんど滅びてしまいました。以前はIBMもIntelligent Minerというデータマイニングソフトを提供していましたが、今では話を聞くことも滅多に無くなりもうした。

SASとSPSSの違いは、SASがBI(Business Intelligence)を中心とした「会議室な感じ」に対して、SPSSがマーケターや教育世界を中心とした「占い師な感じ」。ソフトの核は同じことやってんだけど。で、「会議室な感じ」の巨人であるIBMは絶対SASを欲しかったと思うんだけど、おそらくSPSSのキャッシュが無くなって棚ぼたで買っちゃったってことだと思います。

d1e6a6dcさて、Business Intelligenceとは、企業内に散らばる情報を集約して、そこから有益な情報を抽出することが中心。「君、エレクトロラックスのコーヒーメーカーの売上が神戸ですこぶる良いじゃないか、君!」的世界。なので、数学や統計学的な世界よりも、めちゃくちゃすごいExcelといったイメージに近い(ユーザーの表面上は)。コックピットで操縦するみたいな満足感と共に。で、ここの予算の出所は大企業の経営企画や大規模営業組織とかだったりで、ドーンと予算が振られて、その投資効果の検証は金額ではできないし、金額もデカい。

8DD796D891E590E690B6一方、「誰にDMを送るか」とかのマーケターの世界のデータマイニングは「この人はエレクトロラックスのコーヒーメーカーを買う確率は2.3%かもね」的世界。顧客は金融だったり小売だったりリサーチ系企業だったりで、「通常時(ランダム)よりもどれだけ効率が上がったか」が勝負で、投資効果が通常時との差額という金額で出てくるし、その差額ってば雀の涙だから担当者の涙もちょちょぎれる。(莫大なマネートラフィックの発生する金融や、メーカーでの歩留まり率、医薬の検定とかはもちろんクリティカルなのだけども)

つまり、「会議室」を相手にしたSASが生き残って、「占い師」を相手にしていたSPSSは、この不況で真っ先に予算が削られてしまった、というのが俺の想定するシナリオ。

正直、BIに関してはエラい人たちの意思決定のための精神安定剤としか思ってないので、個人的にはBI系のベンダーに転職するとかはまず無い。経営の意思決定やマネージャーの戦略策定においては、材料がある方が安心して決断できる。だけど、企業内にあるデータで有益なものって、すごく少ないし、データに精通してないと情報を読み誤るし、結局は都合の良いでっちあげになってしまうと思うのだよな。

IBMに買収されるからと言ってSPSSが変わっちゃうわけじゃないんだけど、買収後に「会議室」側の機能拡充ばかり注力させられ、学会で認められた新アルゴリズムの取り込みとかが遅れだしたらちょっと嫌だなぁ、と。開発のリソース配分として。

俺の業務時間、SPSS:MySQL:Chrome:Others=6:1:2:1くらいなんだが、この数ヶ月でMySQLを保有するSUNもOracleに買われて行くし、もうなんだかこの世の果てだなぁ。

データマイナーが旅に出る理由

カテゴリ:
データマイナーは往々にしてドン・キホーテになる。

データマイニングを続けていると、いろいろなことが鮮明にデータから浮かび上がり、悟りともいうべき世界に至る。これまで正しいと思ってきたことが実にバカバカしく思えてきて、正しいものを徹底的に探求するようになる。そして会議室の存在に対する真理の探求がはじまる。

ph_big_03その「正しい」ものとは、もはやデータマイナー以外の人間にとっては理解不能となり、半ば狂っているように周囲からは見えるようになる。これはいくら易しく説明しようとしても無理なのだ。キリンを見たことの無い絵師に口頭でキリンを説明すると、こんな姿になっちゃうみたいに。これは「正しい」キリンじゃない。明らかに、この絵師が過去に見たことのある鹿に強い影響を受けている。キリンのあの姿は想像もつかなかっただろう。

データの動きは、データに浸かったことのある人間にしかわからない。脳の中でデータ群を抽象化したルービックキューブのような図形がぐにゃぐにゃに動くのだ。それを伝えること、そしてそれがなぜ正しいのかを伝えることは極めて難しい。対象が単純で、データとして明快にその効能が表出する場合なら良いが、そんなものは希有だ。

その結果、「正しい」と思われることは実行に移せない。そして、世の中のデータマイニングプロジェクトのほとんどが失敗するのだ。データマイニング系のイベントや懇親会は、愚痴イベントと化す(学会もそうかもしれないが)。毎回プレゼンでも話されるのが、「経営層はデータマイニングへ深い理解を示すべきだ」とか「短期的利益を求めるな」といったところ。逆に言えば、それだけの体力の無い会社はデータマイニングなどすべきではない。人を雇って人海戦術で行く方が絶対に良いのだ。規模が大きくなれば比例して収益が拡大する事業以外は。

そして今日も狂ったデータマイナーは旅に出る。

カテゴリ:
風邪をひいたわけですけれども。けっこう流行ってます、普通の風邪。静養中につきこんな美しい青空の中、暇です。

基本的に将来に対する不安というのはほとんど持っていないわけですけれども、唯一漠然とした不安を感じるのが風邪をひいたとき。「深く考えられない」「簡単な問題が解けない」「集中力がなくなる」といった症状が出てくるわけで、脳がすべての仕事をしているともう帰るしかないわけです、いくら時間かけても意味ないし。で、年齢を重ねるごとにきっと常にこういう状態になるのだと思うと、俺はこのままこの道を進んでいて大丈夫なのか、と一抹の不安がよぎったりするわけですね。とはいえ俺にはサムライ道しかないだろうなぁという結論、毎度。

楽天、マーケティングデータベース「楽天スーパーDB」を活用した広告の配信を開始

楽天さんが、「楽天行動ターゲティング」をリニューアルして「楽天スーパーDBターゲティング広告」へ。下記のカテゴリ(データマイニングの世界で言えば「変数」)が加わっています。

◇ターゲティングカテゴリ一覧
(従来より展開)
1、年齢
2、性別
3、地域
4、商品閲覧履歴 

(新しく追加されたカテゴリ)
5、商品購買履歴
6、楽天会員ランク
7、楽天スーパーポイント
8、特性
9、ライフステージ
10、楽天グループ利用履歴
11、年収
12、未既婚
13、住居形態
14、保有携帯キャリア


4月頃にリリースされていた内容と変わっていなければ、これらのカテゴリは人間が手動で選択するものです。たとえば、「花」カテゴリを閲覧した壮年女性に配信します、といった感じで。

一方、データマイニング側からのアプローチを行っている行動ターゲティングでは、これらのカテゴリの選定はアルゴリズム(ロボット・人工知能)が行います。データに基づいて、カテゴリ間の膨大な組み合わせの中から最適な組み合わせを探すわけです。

この2つはそのまま、「行動ターゲティング」と同一呼称で呼ばれるけれども、イデオロギーのまったく違う2軸に分かれるわけです。「このサイトの履歴を〜」「この検索ワードを〜」と明確に公開できるのを"マニュアルBT"、「データに基づいて最適な〜」と曖昧にしか説明できないのを"ロボBT"と呼びます(造語)。日本ではほとんどマニュアルBTです。主な違いとしてはこんな感じかと。

隠れ層の問題
世の中往々にして、結果からはプロセスが見えない。広告で言えば、特定の変数で効果が良かったとしても、なぜ効果が良かったのかの本当の理由は、実際誰にもわからない。
たとえば、新型インフルエンザの発症者が神戸大阪の男子高校生に偏っているという結果。部活なのかもしれないし、遺伝子的な何かかもしれない。とにかくわからないが、アルゴリズムでは、どんな人が感染しそうかを的確に予測できる、理由はよくわからないが。人間が考え得る区分では、関西の男子高校生でアクティブ、くらいが限度。
翻って、マニュアルBTではマーケティングに通じた人間の経験から絞っていき、それに配信結果に基づいて人間が最適化していくわけですが、ロボBTでは、時として目を疑うようなことを言い出すわけです。今のインフルで言えば、北海道の4歳児が危ない、とか。でも往々にしてそれは正しいわけです、しっかりとした人が組んだゴミの無いアルゴリズムであれば。

労力の問題
広告はリスティングよろしく、細かければ細かくターゲティングするほど効果は良いわけです。ただ、絞り込めば絞り込むほど、配信量は減少していくため、人間には比例して労力がかかってきます。
一方、アルゴリズムでは事前の設定がちゃんとできていれば、あとは比較的容易に、細かく答えを出してくれます。ただし、「オッカムの剃刀」という有名な言葉があるのだが、細かくしすぎると、激しき副作用が。
リスティングに通じた方は、自動運用ツールに対してネガティブな方も多いと思いますが、BTはたくさんの変数(どんなユーザーが?どんな媒体のどんな枠で?とか)を持っているので、結構話は違います。自動運用ツールベンダーにて取得できる変数はすごく限られてる。データマイニングでは、変数はあればあるほど良い。(実際はほとんど捨てちゃうけど)

見えやすさの問題
ロボBTの最大の弱点は、なにやってんだかわかんねぇってところ。米国では有象無象の数百のアドネットワークが「うちはBTやっててさぁ〜」と言っているけれど、たぶんほとんどまともにやってない。しかも情報を公開しないもんだから、広告主としては多いに不安。事実かなり騙されているようだし。で、結果が勝負になって、効果が悪かった場合、情状酌量にはならない。
その点、マニュアルBTはわかりやすいし、営業マンも説明しやすい。

まぁもろもろウォール街的なわけですわね。アルゴリズムによって組成して販売するという。ただ、ウォール街の自滅は、BTを例にすれば、「A社のBTはCPAが5,000円を切れる可能性が高く、B社のBTは7,000円程度だから、これを7:3で配合しよう。さらにこれをZ社に代理販売させよう」的なものが何層にも積み上がって、結局本当の予測値が見えなくなったというところが問題でした。金融商品も、初期商品は良質だったに違いありません。

で、今回の楽天スーパーDBの項目を見て直感的に感じるのは、この変数を人間が選定するのはなかなかに大変だなぁ、と。ただ、今回は業界に対してのわかりやすさを優先してのとりあえずのリリースとなったのでしょう。あれだけのアセットを持っていながら、有益なモデルをデータマイニングから抽出できないはずは無いのですから。

また、今回「行動ターゲティング」という言葉を商品名から外したのは、ちょっと話題になってしまったもうひとつの行動ターゲティング商品との差別化という意味合いとともに、単なる行動履歴だけではないという意味合いも込められているのでしょう。「行動ターゲティング」とは単なるヒトの認識部分を指す言葉ですし、今後は多くの事業者でも総合的な名称になるんじゃないでしょうか、数年後には。

//ディスクロージャーとか//
著者は特定アドネットワーク事業者のなかの人ですが、本内容は所属する企業の意志とは一切関係ありません。

カテゴリ:
データマイニングにおいては「リフト」というワードが重要なのだが、ちょうどいい例があるので。

新型インフルエンザの日本での発症人数が何人であろうが、ほとんど有益な情報にはならない。重要なのは、既存のインフルエンザや他の病気との比較。この考え方が、『リフト』的な発想。

X÷Y=リフト値
X:測りたい数字
Y:基準となる数字

リフト値が1なら、平均と変わらない。数字が大きくなるほど強くて、0に近づくほど弱い。
難しいことは何もない小学3年生くらいの式。ただ、どの項目同士を使うのかが問題。

たとえば、
新型インフルエンザの発症者に占める死亡者もしくは重度の後遺症を残す患者の比率÷既存のインフルエンザの発症者に占める死亡者重度の後遺症を残す患者の比率
とか、
エリア内1000人あたりの新型インフルエンザ発症者比率÷エリア内1000人あたりの既存インフルエンザ発症者比率
とか。

また別の話ですが、強大な敵に攻めたてられてろう城作戦を執るのは、その敵が冬の到来や食料供給難などによっていつか撤退することがわかってない限りはすべきじゃない。無駄にたくさんの人々が飢えるだけ。最大多数の不幸せ。水際で防いでいる間に超絶的な武器が開発されるなら別として。

まぁゼロベース思考って、常識にとらわれないって感じなんだけど、おうおうにして空気よめてないこと言っちゃうわけなんですけどね
ただただ、インフルエンザ狂騒曲の指揮棒を振ってるひとたちは、本業の落ちこみを補うための事業の多角化よりも、従業員給与の引き下げをすべきだ、と妬むわけですよ。おほほ。

グローバル化とプロファイリング

カテゴリ:
『6月28日のTOEICで65点UPさせます』
と宣言して、たるみがちな英語学習に活を入れてみる。前回スコアは恥ずかしさの極みであるため公開不可。

もうネットの世界では日本で2位以下の事業ドメインは続けてても儲かんないし。あと、リターゲティングだけじゃなくて、行動ターゲティングも言語理解に依存しないやり方で高精度のものを提供できる確信が日々手元データとして得られてきている。逆に言えば、英語圏のプレーヤーがもう少し進化すると、日本語世界へも簡単に進出できるようになる。外資が京料理のお店を出店するには、腕の良い料理人を確保する必要があったが、それは必要なくなる。良い素材をわさーっとマッシーンに入れれば、あとはOK、という世界がすぐそこに。

データマイニングによるビジネス予測というのは、(誤解を恐れずに言えば)人間の脳の判断システムを再現し、その処理量をべらぼうに大きくする、と言える。「あの人は勘が鋭い」という言葉があるが、その言葉はほとんど誤りでしょう。勘の鋭い人は、経験に満ちていて、その経験に基づく予測を脳の中で適切に行えている。本人がそのプロセスを意識しているか否かは別として。

今、広告配信対象を絞り込むべく「プロファイリング」マッシーンの開発を主に行っているのだが、これはよく刑事ドラマで出てくるFBIとかの「プロファイリング」と同義だ。経験豊富な刑事と同じ役割の一部をマシーンが担う。ただ、誤解も多いと思うので、また後日詳しく。広告業界で言えば、メディアプランナーの部分だ。

この図は、人間とプロファイラーマシーンのイメージ。(本来は予測量と精度は別軸であるべきだが、3Dは見づらいのでがっちゃんこ。つか、AppleのKeynote、マジでありえんくらい使えん。MSを尊敬する瞬間)
001
たとえば新人広告代理店営業マンは人間としての一般常識を最初から持ち合わせているから、入社日から、このメディアにこの広告主の広告が掲載されれば効果的だとわかる。一方、マシーンは経験が無い段階ではでくのぼうである。3年後、彼は経験を積んでゆき、より細かく適切なメディアへの出稿プランを提示できるようになってきた。一方、マッシーンは同じ経験量の段階ではまだまだ彼には追いつかない。しかし、彼は人間としての限界を迎える。担当できる広告キャンペーンの数も、把握しているメディアの数も、例え組織ぐるみで100人体制で挑んでも、一定のところからは超えられなくなる。一方、マッシーンはその限界は今のところ見えない。当初に比べると、予測量(提案メディア数)の伸びは鈍いが、着実に伸び、人間を遥かに超えていく。(この話は広告CTRをベースにしているのではありません。CTRから見えるのは広告枠のごく一部の要素だから)

この図でもうひとつ言いたいのが、人間で処理できる量の経験と予測フィールドしかないデータの場合は、人間が処理した方が圧倒的に良いということ。その点で、ネット業界は非常に相性が良いのである。

ちなみに、今作っているプロファイリングマッシーンのコードネームは、"いかりや"である。

カテゴリ:

iPhone RFID: object-based media

これ、iPhoneにRFIDリーダを取り付けた試作機を作ったというもの(RFIDとは、ざっくり言えばICカードをカードじゃなくして簡単にしたもの!?)。ヤバすぎです。とりあえずはこのビデオを観て頂きたい。


iPhone RFID: object-based media from timo on Vimeo.

日本ではおさいふケータイが結構普及してますが、あれは(ICカードと同じ)アンテナがケータイに載ったものであり、これはICカードリーダ(読み取り機)がケータイに載ったものであり、まったく逆なんですねぇ。SuiCaでいうところの、改札機とケータイが合体したということ、カードと合体じゃなくてね。

何にこんなに感動してるかと言えば、その無限に広がるビジネスの可能性。ありとあらゆるものに、ケータイのスイッチを埋め込める、しかも安価に。今の2次元バーコードの多くは代替可能だし、クーポンや広告の類いの展開も無限大、案内系の用途にも使える。GPSが場所(のトロトロした探索)なら、これはアクションと言えるかもしれない。しかも高速レスポンスの大画面、適度なプッシュなら最高。行動ターゲティングも、プライバシーうんぬんを言わせぬ位、役立つサービスを提供できれば、いけるだろう。それはもやは行動"ターゲティング"っていう広告サービスじゃないと思うけど。

メリットはそっち側だけじゃない。ICカードリーダーの宿命である通信と電源は、ケータイだから不要。つまり、様々なICカードサービスの普及の最大の阻害要因であるICカードリーダの店舗/場所への設置コストが極限まで小さくなる。コストはケータイメーカーに行くわけだけれども、アップルのようなプラットフォーム提供者がサービス事業社から一部を徴収すれば回収できる、ユーザーやタグ設置者には1円も払わせずに。App Store方式。

セカイカメラがちょっと話題になったけれども、カメラをかざしながら歩いたりすることって現実的にあるか?やっぱ、無線だと思うんですよね。なんにでも(ほんとの意味で)タグ付けできるわけで。

2年後くらいにはiPhoneに実装して欲しい。そしたら行くしかない。そこに山があるからだよ、君。

カテゴリ:
どうでもいいことtweet.

はんにゃで笑えない俺って、旧世代?

セブンイレブン、セブンプレミアム比率増やしすぎじゃね?つーか、もはやユニクロと同じくSPAじゃね?広告業界のはしくれとしては、プライベートブランドはおもしろくないっす。

映画版『ジェネラル・ルージュの凱旋』を観て堺雅人のかっこよさに影響されて今度は小説を読みはじめた。小説読むの久しぶりすぎ。

三茶の家の水道ガス電力を解約していない。モデムを返却していない。原チャリを置きっぱなしである。

今日は会社の中庭で、風の中で仕事しました。人生は上々だ。

GyaO事業のYahoo!救済で、USENの塩漬け株をようやく一部売れた。●十万円の含み損で、もうほとんど紙切れですけどね。残りはUSEN本体が買収される時のプレミアム待ち。ラスト一枚になったら叫ばなくちゃいけない言葉は"UNO!!"

データマイニングはやはり対象業界の知識が十二分に必須だ、と日々実感。アルゴリズムが日本刀なら、業界知識は肉体であり剣術。どちらが欠けてもならぬ。切れ味鋭い刀も、持つ人が持たねば鉄の棒。外部へのマイニング委託とかコンサルの無いASPサービスって、ちゃんと機能するんかね?

数年後、GoogleとFacebookは"ビッグブラザーズ"になるけど、Twitterは小鳥じゃないかと。Twitterが大儲けできるなら、とっくにWebメールとかBBSとかメッセとかRSSリーダーがきちんとマネタイズできると思うんだが、なぜにアメリカ人そんなに大騒ぎしている?

ムーアと銭ゲバ

カテゴリ:
franken最近は仕事が順調にいっており、今日も祝日だと落ち着かないくらいであります。作ったロボットが人間を超えたのを確認すると、もうそれは得も言われぬ感動であり、フランケンシュタイン氏に近づく自分に恐ろしさも感じる今日この頃。

ただ、やはりあらゆる環境が全然足らん。モルモットの部分を拾い集めて抽出して繋ぎ合せて人造モルモットを作るような、下処理の手間とスケールの壁。もし、材料を、ぜんぶ、しかも瞬時に処理できたら、筆舌し難き喜びであることでしょう。下処理にほとんどの時間を割かれてしまうのだから。某社が常識的にありえない環境によって人材を吸引するその誘惑たるや抑え難きものがあるのだらう。

ただボクは、やりたいことができればそれでいいっす的な人間でもなく、私生活をよく知る人ならご存知かと思いますが、銭ゲバでもあるわけで。多くの人はそれに地位や名誉も影響させるわけで、ネット業界(≠IT)は株式保有者以外の給与水準は低水準だけど他の部分でリカバーしている構造で。金融系は逆で、ほんとタメと話しても絶望しちゃうよね。まぁその方程式が閾値を超えると離脱するわけね。大学生の頃から、報酬は企業にとってそのヒトの欠かせなさの価値に収斂されるべきと考えてまして、ちょっと適合しない業界があるよねー、特に最近。

で、環境に関してはムーアかどうかは知らんがムーア的な世界で進化はしてくので待ってりゃ解決されるが、銭はその時代に応じて稼がないとしょうがないっつー話。ゴールドラッシュでは労働力が大型重機によってあっという間に無価値になるが、金鉱を的確に掘り当てる技術こそ銭を生み出す源泉。フランケンシュタイン氏が死.体集めに奔走した時間や死.体集めスキルはいずれ無価値になるが、蘇生技術はliveなわけdeath。

カテゴリ:
この半年間、半分くらいは京都にいたわけですが、いよいよ京都に本拠を移すことにしました。

つまり、引っ越します。まぁ会社の内示があったわけでもなく、ただ俺の今の三茶の家の更新期限が今月末ですってな手紙が突然届いたわけで、じゃー行っちまうか的な感じで。大企業の友人らに話すと、決まって回路がショートしたような顔される

で、今日は家の契約をしてきた。東京以外の家を探したことが無かったので、家賃相場の違いに愕然。三茶の家よりも家賃は安いのに、断然良い部屋。立地は東京でいえば三茶的な駅から3分くらい、便利で栄えてるけど最上階なんでうるさかないし、念願のガスコンロ×2!!!!パスタとソースを同時に作れるOh, My Dream.

っつーか、ブログタイトル変更だな三茶じゃなくなるし。今、おれの仕事の領域のWikiかなんかを作って、アレに関する正しい情報源を提供したいなーって思ってます、実名で。で、このブログは日常のろくでもないことをこんな感じで匿名でつづる、ウェブゴミとしてパケットがTime To Liveまで彷徨い続けるOh, My Love.

ぼくら業態の前に広がる2009年度(04-)の世界はRed Ocean。『ゴールドラッシュ』という言葉はデータマイナーにとってはこと淫靡な響きであるのだが、もう一つの意味でゴールドラッシュというか、ゴールドラッシュのゴールドラッシュが起こっているわけで。ただ、ゴールドラッシュとゴーストタウンはほぼ必ずセットになっているわけで。てへ。ここで抜け出せないと、負けです。

ロトの剣を手に入れた。そして活動休止。

カテゴリ:
chageasuついに、以前から発注していたデータマイニングソフトが届いた。

ものすごい処理をいとも簡単にやってのけやがる。今までの苦労が、まこと馬鹿馬鹿しく。云わば、ロトの剣である。今まで強くて倒せなかった強敵を、バッサバッサと倒していく、あの感覚である。感動すると同時に、これまで垂らした汗水を思うとなさけなさで涙が出る。

ということで、しばらく集中したいのでブログは活動休止。ブログは書きながら頭の整理にはなるんだけども、漱石先生の『草枕』冒頭文にて代弁してもらうこととせむ。

カテゴリ:
品質管理のためのカイゼン入門 (日経文庫)品質管理のためのカイゼン入門 (日経文庫)
著者:山田 秀
販売元:日本経済新聞社
発売日:2006-02
クチコミを見る

大学の頃に『カイゼン』や『QCサークル』は勉強し、去年頃に『6σ(シックスシグマ)』は少し調べたんだけど、ちょっとあらためてこの領域を復習してみた。

この本はカイゼンの超入門書。2日で読める、ほんとに。この本を読んだだけでは自らの業務改善にはそこまでつながらないが、自分が今後どこを強化していくべきかがわかるはず。そして、なぜ統計学の基礎を学ばなければならないか、その理由もわかるはず。どう業務に活かすのかがわからないと、業務と学問とのデスバレーは埋まらない。(この本を読んでもその感覚がわからなければ違う方向性を目指すべきかもしれない。。)

『カイゼン』という言葉を聞くと製造業が連想されますが、これはウェブ業界においても十分機能するはず、いやむしろ我々にはログや管理システムの類があるので、製造業よりもよっぽど手がけやすく、効果的なはずである。なのに、カイゼンに成功した類の話はとんと聞かない。きっと、これまでは業界自体が赤ん坊から青年まで成長を続けていたため、カイゼン活動が軽視されてきたんだろう。米国で勃興した自動車産業がしばらくは成長を続けたが、QCサークル&カイゼン活動を積み重ねた日本が高品質のクルマを製造し追い抜いたように、ウェブ業界でもこの先勝敗を決するのはカイゼン活動じゃなかろうか。一発狙いする人は一発狙いをしていただくとして。どんな理由であれ、トヨタ販売台数2008年世界一はうれしい。

『カイゼン』は、地道な作業が良いとかそういう日本的な美意識とは実はぜんぜん違うのである。言い換えれば、全体に影響を与えないような小さな改善活動なんてやってる暇あったら、もっと効果的な部分やろうぜ、と。徹底的にデータを収集し、データによって論理的に判断する。正しい統計処理で思い込みを排除する。(データっつうのは、○○白書とかの類ではない。自社で収集できるあらゆる事象である。営業フローだって対象範囲。)

本当に強い組織は、なかよし組織よりも、多くのメンバーがカイゼンの教育を受けている組織、そしてデータで判断できる組織だろう。正しい指標のデータを正しく集めて、正しく判断することが重要なので、これらの勉強せずに「データ集めて判断しました!」では大半が間違うしデータを集めた時間の方が無駄だ、と俺は経験的に思う。

とはいえ勉強した人は教育する稼動が取られるし部門越えるといろいろ面倒だから音頭とりたくないという囚人のジレンマ。(まぁ俺も絶対やりたくない。)そこで出てくるのがコンサルなんだろう。最近ようやくコンサルの意味がわかってきた。業界ごとの業務に精通したコンサルは、確かに価値がある。だけど、普通の会社じゃコンサルお願いする余裕なんてあるわけもないから、窓際の管理職が徹底的に勉強してやればいいのだ。背水の陣のミッション振って。フローの洗い出しによって部下の仕事を(初めて!?)把握できることにもなるし、ロジカルシンキングの教育にもなる。

本書に関して言えば、効果検証の部分のボリュームがもうちょっと欲しかった気が。個人的にはAHPで取るべき戦略を評価するって点は新しい気付きでした。いずれにせよ、筆者も言っている通り、次に自分の読む本を選定するための本です。

自己啓発本読んで、3日しか持たないエナジーを充填する繰り返しの人は、カイゼンの勉強がオススメである。

カテゴリ:
CCC、ポイントカードで提携先の販促支援

つい先週、なんも知らずにこんなエントリーを書いたら、TSUTAYAは本当に進めてたみたい。Tカード提携企業だけが対象のようだけれども、いつかネットワークが拡大しきった後には壁を撤廃するでしょう。その頃には強大なパワーが備わってるわけで、1パートナーがうだうだ言っても「あっそ。」ですな。

今後は堅牢なセキュリティシステムと提携企業同士の制御を行える仕組み、さらにターゲティングのマーケットを地道につくっていけば、ニッポンのプラットフォームが見えてくる。

プライバシーはシステムの堅牢さではなく、ユーザーメリットのトレードオフんとこ。ネットワークは磁気カード vs 非接触ICカードという技術よりもビジネススキーム。(あれ?そんなプロダクトがあった気がする。手がけていた気がする

ネットの世界では、Facebookがこういう感じになってくんだろう。mixi年賀状がうまくいったみたいなのも、こういう枠組みですな。親愛なるプラットフォームの世界。

カテゴリ:
あけましておめでとうございます。
今年もよろしくお願いします。

今日はニューイヤーコンサートに行ってきました。ボレロの理系な感じが最高。あと、ヴァイオリニスト宮本笑里を初めて観ました(世界遺産のテーマを弾いて る人。次の大河のテーマも)。うまい。著名オーボエ奏者の二世セレブで容姿端麗という日本中の嫉妬と、ソニーミュージックゴリ押しというプレッシャー を真に受けながらも、細い体で実力でぶっとばす姿がチョーかっこよく、刺激的でした。きっと2009年の人になるでしょう。今年で28歳のオッサンもがん ばります。

さて、今年の目標です。誰も読まなくてもいいんだけど、ここで宣言することで自分を追い込めるので書きます。ここ数年書いてて、なかなかに効果的なので。

(1)イングリッシュ。まずは語彙。
こないだ受けたTOEICの結果を受け、見事取組順位1位へ格上げ。今まで受けた中で最も手応えのあった試験だったのに、新TOEICテストだったせい か、燦燦たる点数であり。で、やはり弱点である語彙をばまず克服せむ。英語サイト毎日チェックして、週2時間英会話スクール通ってやった気になってただけで、家では全然勉強してなかったし、ほんと現実を見せられました、新TOEIC氏に。
もう「グローバル化」とか言葉に出す時代は終わって、グローバルなのはあたりまえの 時代になっているというのに。。

(2)データマイニング。とにかく実践。
統計学についてはもう一通り勉強が終わったので、次はデータマイニングの世界をもっと深く。お高いデータマイニングソフトを会社に買ってもらったので、こ れをいじり倒しつつ勉強。っつーか、このソフトを早く触りたくてしかたなく、正月なんて早く明けちまえと思っている今日この頃。
そして、大学に篭ってアル ゴリズムの正しさを証明するために統計解析をしてるよりも、マウスをいじくって調整していく方がすごいもんができるってことを証明したい。

(3)サスティナブルな世界へ。アクション。
というと、CO2が浮かんだり、「流行語かよっ!」て人が多いかもしれないですが、ここで言ってるのは主に新興・発展途上国の情報化やビジネス・ファイナ ンス部分に関してのこと。あーだこーだ言ってるだけでなく、活動を起こすということです。NGOのお手伝いかもしれないし、単に共感できる組織に寄附するだけか もしれない。とにかく勉強不足なので、まず調べる。
以前から思っているのが、対症療法的な活動はあまり効果的ではなく、大きな動きを作るための種火の活動をしなければならないと考えているので、この見極め が必要。1行動すると、10の波及効果が出てくるような。しかも、"援助"じゃなくて、empowermentじゃないといけない。 もちろん、水道・食料・公衆衛生に関する問題を抱える国の方が多いのだけれど、今の俺では役に立たない。むしろバイト気分でやられても邪魔だろう。また、 戦争や内戦状態にある地域の場合、俺に解決できる問題じゃないし、穴の開いた金魚鉢にいる金魚を救うのは、金魚鉢の修復しか方法が無い。
こうしたことを考 えてると、結局行き着くのはビル&メリンダ・ゲイツ財団Google.orgのような活動であり、日本でこうした考え方を持った組織を探そう、というと ころで2008年は終わったのでした。
あとは今の会社の空きリソースも使えるはずなので、業務時間外とかを使って活動することも検討中。いろんな企業がなんでも「エコ」とかハッタリかましてるのには辟易してるので、あんな感じには絶対ならんように。。(節約=エコなのか!?)
いずれにしても、アクション!

ちなみに、昨年掲げた目標は(1)統計学 (2)英語 (3)マネジメント (4)経済学 だったので、あんまり変わってないのだけれど、(1)(2)(4)は微妙に姿を変えて残し、(3)は完全に捨てました。以上。

カテゴリ:
DACとビットワレットがEdyによるマーケティング事業を展開するLLP設立(PDF)

というニュースを見て、いよいよ異業種連携の胎動が見えてきたなぁと面白く。つまりはEdyユーザー個々に対して適した広告を配信したり、ユーザーデータを企業のマーケティングに活かしたりする事業の検討をはじめると。で、まぁここはきっとうまくはいかないと思うんだけど、俺がずっと気になってる企業が株式会社Tカード&マーケティング。TSUTAYAのTカードを発行管理している会社。

EdyにもTカードにも共通して、異業種横断での購買履歴はめちゃくちゃ有用なことに間違いない。あるお店だけのポイントカードのデータとか、コンビニだけのデータは、その人をよく知れないからあまり有用じゃない。だけど、TカードはレンタルCD/DVDも古本もよく行くガソリンスタンドも居酒屋もカラオケもスポーツショップもスーツも引っ越しもホテルも知ってる。どこまでのデータが使えるかはわからないけど、ひとつのIDでぜんぶつながってるはず。

統計処理すれば、俺が宮崎あおいを好きな確率は99%であり、次に公開となる映画『少年メリケンサック』を渋谷近辺の映画館に見に行く確率は75%である、というくらいのデータは導き出せるはずなのに、何のアプローチもしてこない。残念です。ある程度近くの映画館から300円値引きチケットがあれば、少し遠くてもその映画館へ行くのに。好きになってもらうための広告ツールではなく、競合他社から潜在顧客を奪ってくるための"スイッチャー"ツールとして。販促として5円÷1%=500円/人はできないけど100円÷30%=333円/人はできる。

なぜEdyじゃうまくいかなくてTカードがうまくいくと思うのかと。まずプッシュでアプローチできる個人情報、つまりはメルアドと住所をTカードは必ず持ってる。Edyの多くは収集できていないはず。特にTSUTAYA会員は半額メールを受け取る為に、相当にポジティブにケータイメール受信を許可している。さらにはクレジット会員には毎月明細書を送付しているから、チラシを同封できる。果てはTSUTAYAというリアル窓口があるから、モノが存在するものでも授受しやすい、配送網は無さそうだけど。

ビジネススキームとしても。Edyは手数料を支払うもんだから、加盟店は大きくは広がらない。Tカードは、ポイントプラットフォームを貸し出すものであり、もちっと広がりやすいし、ユーザーメリットもポイントなので大きい。(Edyがユーザーへ与えるのは利便性だけ)

また、電子マネーは数万円の高額商品には使われないから購買履歴に偏りが出てしまう。ポイントは高額なほど大きくなるから、積極的に使う。マーケティングに有用なのは、一般的に高額商品。

今後、TSUTAYAディスカスやネット配信がさらに普及すれば、家の中もひとつのレコメンドチャネルに。VISA/MASTERではできないことが、できる立場にあるのがTカード。企業に対してマーケティングデータを提供するプル型データ活用だけじゃなく、プッシュでマーケティングを行って、アグレッシブに攻めればいいのに。広告を情報として届けられる、数少ない立場にあるのに。

カテゴリ:
#追記:オススメ本がどっちの内容かわかんなくなったので、両方載っけました

橋下大阪府知事による小中高校生のケータイ持ち込み禁止令のマスコミ報道を見ていて、『ケータイの利用時間が長い学生ほど、学習時間が短い』というデータの扱いについてちょっと気になる。

確かにこのデータ自体には問題は無いのだろうけれども、相関と因果関係を混同して報道されてないか。きっと、勉強したくない子の多くはケータイをずっといじくってる、という相関性はあるにせよ、ケータイするから勉強しない、という因果ではないんじゃないかと。(誤解を恐れずに言えば、因果は「→(矢印)」を付けられるけど、相関は付けられない)

弁護士先生やデータを専門に扱う人間がこんな単純な論理の問題に気づかぬはずもないので、マスコミがかいつまんで引用した結果だとは思うのだけれども、データというのはいろんな風に使えるわけです。データの出し方からグラフのデザインまで、人間を錯覚させることなど結構簡単であり、俺もしばしば騙します、てへ

と書いておきながら、俺は禁止にしてもしなくてもどっちでもいいと思っているというのも、簡単な論理の問題

ただ、ケータイと勉強時間の因果関係を解くための壮大な実験場として、大阪府は使えるようになるっていう点ではおもしろい。大阪府の禁止校の学生と、他県の学生を、禁止前後でモニタリングしていけば、答えが出るこんな話をもっと知りたければ↓がオススメ。別に統計の勉強にはなんないけどね。

ヤバい経済学 [増補改訂版]ヤバい経済学 [増補改訂版]
著者:スティーヴン・D・レヴィット/スティーヴン・J・ダブナー
販売元:東洋経済新報社
発売日:2007-04-27
おすすめ度:4.5
クチコミを見る

その数学が戦略を決めるその数学が戦略を決める
著者:イアン・エアーズ
販売元:文藝春秋
発売日:2007-11-29
おすすめ度:4.5
クチコミを見る

カテゴリ:
国立新美術館とサントリー美術館で同時開催している『巨匠ピカソ展』に行ってきました。

NYのMoMaでピカソの絵画を観てからというもの、ピカソが気になっていろいろ調べてたんですね実は。国立新美術館の方が有名かつ大型作品が多く、サントリー美術館は自画像を中心とした、ピカソのパーソナルな部分にフォーカスした小規模な展示。両方で4時間では足りないくらい、多くの作品が展示されています。

一般的にはピカソと言えば“変な顔の絵”という印象しか無いかもしれませんが、それは一面に過ぎません。古典的な絵も描けば、彫刻もある。周りでは「わからないねぇ」とかいう声が聞こえてくるけど、別にわかる必要なんてないんじゃないかと思うんだけどね。なんで音楽には意味が求められないのに、絵画は意味がわからないとダメなのか。心に響くものは響くし、響かないものは響かないってことが一番重要な気がするんだが。閑話休題。俺がピカソの作風で最も好きな時代が、いわゆる「キュビスム」の時代。

キュビスムとは、ピカソと友人ブラックによって創り上げられた、複数の視点から見た対象物を一面に収める手法。顔を横から見たものと正面から見たものを鼻のラインで結合させると、よく知られたピカソの絵の顔になるわけです。

まだ一人にしか話してませんが、今俺が進めている仕事には『パブロ計画』と名付けてあります。パブロとはもちろん、パブロ・ピカソから頂戴してます。(とアポロ計画との語感と意味合いを兼ねて)

というのも、キュビスムと俺のやりたいこととは驚く程類似点が発見されたのです。キュビズムは、ひとつの対象を多角度から分析し、分解し、類似するパーツをまとめ、組み合わせ、最も良い配置を行って一面としての作品にする。俺の場合は、データを多角度からマイニングし、クラスター化し、ひもづけ、最適化してひとつの広告枠に広告を掲載する。対象が静物や裸体かデータかの違いだけであって、順序も手法も一緒なのです。ほんとはもっと細かく説明したいけれどもできないし、たぶん数人にしか伝わらないと思うが。。

これからのプロジェクトの進め方を考えている最中、ふとキュビスムのことが浮かんだ瞬間には思わず叫びそうになった。調べれば調べるほど何もかも一致する。どう考えてもこのプロジェクトは『パブロ計画』以外の名前は当てはまらない。


あと、別件ですが以前も一度ご紹介したiPhone 3G Wiki blogの管理人さんが、またすばらしいエントリーをポストされています。
Googleが目指すもの
こういう変化、転換点を着実に読めるようでありたい。ついにアメリカの新聞が死んだ。死にそうなんじゃなくて、死んだ。前から予想されてた通りに。ことIT系の未来に関しては、真実と詭弁の見分けで間違えたことは無い自信はあるのだけれど、年齢を重ねることで変化への対処が鈍くなることは、本当に最近恐怖に感じてます。

この2つの話は俺の中では共通点があるので同じエントリーでかきました。長。

カテゴリ:
最近、ちょっと早く帰るようにして、金融工学について勉強してるんですが、これがはかどらない。1ページにどんだけ時間かけんだよ俺、と。

明らかに向いてない。小学校の昔から、できる科目とできない科目の成績の差は山の如し。これってだいたいすぐにわかるんだよな、「あ、できないな。」感。

これが克服できれば世界が広がるイムニダなぁ・・・特に英語とか。得意を伸ばすのは得意だけど、苦手を克服するのが苦手なこの性分、嫌いじゃないが困る事多々。

このページのトップヘ

見出し画像
×