Data Scientistに必要な、グラフを描く能力

標準

マーケテイングにBig Dataという言葉が登場して何年になるだろうか。2012年にWeb広告研究会では、「Cooking Big Data」という宣言をしているので、早くも5年以上は経つのだろう。

そして、私はしばらく宣伝会議の講座で、データマーケター育成講座の講義を担当させていただいている。今までは、企業の中で、マーケティングに関するDataのまとめ方や、分析ツールの導入を中心に話してきた。しかし、先週行った講義では基本に戻って、グラフを描くワークショップを行った。

データマーケター育成講座

データマーケター育成講座

以前、このBlogでも日本航空株式会社 Web販売部渋谷 直正 さんの、実務で使う統計手法は、5つ。すごい、そんなシンプル?という考えを紹介させて頂いた。マーケティングにおいて、売り上げや利益の向上のような時系列データの分析はもっとシンプルである。グラフを描けば、実は多くの見通しが立つのである。

グラフ。皆さんは、基本を理解しているだろうか。横軸に選ぶものは何が良く、縦軸には何を選ぶべきか。トレンド(時系列)のグラフを描くときに、その横軸の刻み(周期)は、日毎?週毎?月毎?

そんなこと分かっているとおっしゃるマーケッターの皆さん。きちんとグラフの描き方習いましたか。実は、グラフの描き方は、大学の科学の実験で、多くのことを学ぶのです。従って、大学の実験の講座を受けていない、マーケッターの皆さんは、実はグラフの描き方を知らないのです。

例えば、大学では東北大学自然科学総合実験のページや、総務省のなるほど統計学園などが公開されているように、実は基本的なことを知らない方が多いのだろう。

たまご(鶏卵)の価格の年平均

たまご(鶏卵)の価格の年平均

今回の宣伝会議の講座データマーケター育成講座では、データを2種類提示して、簡易なData分析を行ってもらった。案の定、多くの方がデータを眺めるだけで、グラフを描こうとしない。人間、数表からでは、全体の増減や傾向など、わかりにくい。グラフにして視覚化することにより、増減などわかるのである。

マーケティングにおける、Data Scienceは、それほど難しくない。グラフを描く力と最低限の統計州法があれば、乗り越えられる。間違ってはいけないのは、分析ツールは単に計算支援ツールで、あなたに答えを教えてくれるものではない。まずは、何を証明したいのか、グラフを描きながら考え、そして、分析ツールに向き合おう。

きっと、データマーケター育成講座は、今後も開催されるし、さまざまな他の講座もある。このBlogを読んで不安だと思う方は、ぜひ自分のグラフを描く能力を振り返って、自己研鑽して欲しい。

NFLが、IoTを導入。その名も、”NFL Next Gen Stats”

標準

みなさん、ラグビー・ワールドカップ観ていますか?日本の躍進の影に、スポーツ・サイエンスというか、ウェアラブルなセンサーを装着して、トレーニングのデータを取得しているという報道もありましたよね。(NHK サイエンス・ZERO)

私の好きなNFLも、今年は新システムを導入して、テレビ中継でもデータを発表しています。その名も、”NFL Next Gen Stats”。

RFID RFIDを両方の肩に装着して、選手の動きをセンシングするものです。まさに、今まではコーチがVideoから数値化していたデータが、これでリアル・タイムに、そして視聴者の私たちも楽しむことができるようになりました。

事実、Xboxや、Windows10ユーザーのアプリでは、このデータが常に見ることができるようです。

なんか、IoTですね。そして、それをNFLというPro Sportsが、いち早く行うところが、アメリカらしいですね。

データも面白いです。最高速度とか、走った距離なんかがでます。最高速度って、面白いです。(Week2 のデータ

このように、これから多くのスポーツにセンサーがついて、見るほうが楽しくなるData Scienceがどんどん登場するのでしょうね。これからも、楽しみです。

これに関して、日経BPのComputerworldも取り上げていますね。

マーケティングに使うRのための本紹介。今からでも遅くない。そして、簡単なものも。

標準

前回のBlogの記事「実務で使う統計手法は、5つ。すごい、そんなシンプル?」は、大変話題になり、公開2日間で、20,000PVを超えるアクセスになった。

はてなブックマークでは、約1000人の方が話題にしてくれたし、GigaZineでも、9月2日のヘッドラインニュースとして取り上げられた。

そして、直接読んだとの感想も頂き、私としては嬉しい限りである。その中で、ソフトとして「R」を取り上げた。そこでは、「R」の紹介だけだったので、少しマーケッターの方向けの情報を、ここで紹介したいと思う。

まずは、Markezineのサイトには、「R」に関するまとめのエントリーがある。「実践!WebマーケターのためのR入門一覧」には、ソフトのインストールの方法から、基本的な分析やグラフの作り方まで解説があります。

ネットのページよりも、手許に本を見ながら読みたいという方におすすめなのは、多少高いのですが、共立出版の「Rで学ぶデータサイエンス」シリーズから、

マーケティング・モデル (Rで学ぶデータサイエンス 13)」( 2010/12/8)里村 卓也 (著), 金 明哲 (編集)

を、おすすめしたい。この本では、実際にRのプログラミングについても多くの部分が割かれており、初心者でもわかりやすい校正になっているだろう。この本を読んで、理解できたら、他の共立出版の「Rで学ぶデータサイエンス」シリーズを読んでみても良いだろう。

なお、この2人が書いた最近の本では、「 マーケティング・データ分析の基礎 (シリーズ Useful R 3) (2014/10/24)」里村 卓也 (著), 金 明哲 (編集)という本も出ている。この「シリーズ Useful R」というのは、先のRで学ぶデータサイエンス」の後継のシリーズであり、より理論から応用によったシリーズになっている。

これだけ、このように「R」を使ったマーケティング分析を行うためには、必要な情報がかなり充実している。また、ユーザーも多くなったので、マーケティングに特化したRのOff会などがあっても良いのかもしれませんね。

マーケティングのデータ分析の次は、モデル作り、そしてコンピューターへの移植(自動化)だ!

標準

データ分析と数学を基にしたマーケティングの実践」という、2015年9月1日のセミナーに登壇します。このセミナー「日経ビッグデーター」編集長の杉本さんから、突然連絡があり、決まったセミナーである。

実は、今日の夕方このセミナーの打ち合わせを行うのであるが、なぜ、「マーケティング」「データ分析」「数学」が並ぶのかを少し説明したい。

マーケティングの領域で、Big Dataの話が出てから数年が経過しました。2011年に、鈴木 良介さんの「ビッグデータビジネスの時代 堅実にイノベーションを生み出すポスト・クラウドの戦略」の本が出版され、早速購入して、マーケティングにBig Dataの波が来そうなことを感じました。そして、Web広告研究会でも、Big Dataに関する研究会が発足して、すぐにトーマス・H・ダベンポートさんらが書いた「分析力を武器とする企業」とそれらをまとめた、「分析力を駆使する企業 発展の五段階」を、皆で読んだものです。

この本の中の発展の5段階とは、

  1. 分析力に劣る。データ、スキル、経営陣の関与など分析の必須条件が一つ以上欠けている
  2. 限定的。統一が取れていない、戦略ターゲットが絞り込まれていない
  3. 組織的な強化に取り組む。プロジェクトは発足するがDELTAのいずれかの要素で躓く
  4. 分析力を備えている。それなりの成果をあげるが、競争優位には至っていない
  5. 分析力を武器にする企業になっている

である。現在の多くの企業では、「3」の状態ではないだろうか。ちなみに、ここのDELTAとは、

  • D: データ
  • E: エンタープライズ
  • L: リーダーシップ
  • T: ターゲット
  • A: アナリスト

である。ところで、データ分析の結果を企業の競争優位な状態や、武器にするにはどうしたらよいだろうか。それは、データ分析から、普遍的な何かの理解が必要である。たとえば、「支配因子」「反応度合」などである。それらを理解するのに、「数学的な記述」「関数の理解」が重要だと私は考えており、「マーケティング」「データ文政」「数学」が並ぶと考えている。

「もっと産業界で数学使おうよ。文部科学省 数学イノベーション委員会に参加して」の記事でも書いたように、現在の科学・産業の発展に数学は少なからず貢献してきましたし、今後も貢献するでしょう。それは、数学という学問は、「科学全体の基盤言語」の形式を保有しているからです。データ分析で見えてきたことを、数式で記述する。そうすると、それが未来に続くのが、今回だけことなのか、そんなことが見えてくるのです。

データ分析と数学を基にしたマーケティングの実践」のセミナーの中では、実際に私が東大大学院の数学の授業の中で取り組んだマーケティングの事象のモデル作りの話を中心に、数理モデルを作るとなぜビジネスにも良いのかをお話しさせていただきたいと思っています。

そして、参加される皆さんには、マーケティング部門に「統計」に詳しい人に加え、「数学」に詳しい人を採用することが、大きなメリットになることを感じていただければと思います。

そして、実は数学にマーケティングがなれば、その先は、コンピューターのプログラムとして、マーケティングの業務の一部が自動化されるのです。そんな、将来の話もぜひ。

新国立競技場問題は、「Big Data in Marketing」と本質的には同じかも

標準

最初に述べるが、私はマーケティングという仕事が好きだし、日本の経済成長のために、日本のマーケティングが進化することは、非常に大切だと思っている。

じゃー、なぜこんなマーケティングを行っている人を敵に回すようなことを書くのかというと、それなりに理由がある。

話は、Tokyo Olympic 2020の新国立競技場の騒動に移そう。

当初の新国立競技場のデザイン 当初の新国立競技場のデザイン

状況は皆さんご存知のように、実際に建設するコストが、当初予算を大幅に超えるので、安倍首相が英断(NHKの言葉では)して、プロジェクトを途中で止めたということである。私に言わせれば、これは上司の「ちゃぶ台返し」で、通常プロジェクト・マネージャーは更迭になるパターンなのだが。

この問題、民間企業のプロジェクトでいうと以下のような問題点が指摘できる。

  • プロジェクト・マネージャーが不明
  • チーム・メンバーの中での専門性(特に、建設・競技場)の欠如
  • プロジェクトの進捗管理がされていない
  • このプロジェクトのレポート先である、上司(首相)との意思疎通が良くない

このような感じで、まだまだ上げられるだろう。プロジェクト・マネージャーは、政治的な問題も多いのでここでは問題にしないする。簡単にきちんと出来たものとして、チーム・メンバーの最適化がある。チーム・メンバーは、純粋に今回のプロジェクトのタスクを書き出した段階で、どのようなスキルの人間が必要か、容易にわかるはずなのである。おそらく、スポーツ競技場の専門家、デザインと設計の関係がわかる専門家、建設会社との交渉に詳しい人などが必要だったのであろう。しかし、後から文部科学省に大きな建物の専門家がいないことが、判明する。

話を、マーケティング領域における、Big Dataのプロジェクトに戻そう。実は、多くの企業のマーケティング領域のBig Dataに関する業務の現在の進み方は、「新国立競技場」となんら変わりがないのである。

  • そもそも、Big Data Prj.にかけている予算が妥当か不明
  • 進行途中で予算が増加する可能性があるが、その予算は確保されていない(通常の情報システムのPrj.では、予備費がある)
  • メンバーに、ITやData Baseの専門家がいない
  • システム保守の契約が、同じ会社の情報システム部門のレートと異なる可能性が高い

など、実は新国立競技場問題と同じところが多いのではないだろうか。

今回の新国立競技場問題を、せっかくなので、私たちの反面教師として考えると、以下のような示唆があるのではないだろうか。

  • メンバーに社内の情報システム部門を入れて、予算設定時に運用コスト、バージョン・アップ費用も入れて、償却を考えた予算設定を行うこと(建てただけでなく、メンテもしやすい)
  • 誰のための、Big Data分析かを明確にし、そもそも、Big Data分析が、その企業のためになっている(会社にも愛され、お客さまにも愛される)ものになっていること
  • 他の企業と比べても、過大な予算投資になっていないこと
  • あまりにも特別なかっこ良い(生ガキが垂れたような)分析ツールを作らないこと

このようなことを、再度考えてみてはどうだろうか。実は、このBlogを書いている最大の理由は新国立競技場の問題が起きたからではない。最近、マーケティング部門中心に多くのツールの契約の話が増えてきたからである。そのこと自身は良い。でも、新国立競技場問題になっていないか、今一度チェックしてみては如何だろうか。

統計だけでない、Data Science! 最新「数学セミナー(雑誌)」解説

標準

Data Scienceというと日本では、何かDataを統計することになっているようである。これを例えると、本日の天気は過去20年間のデータから「雨50%、晴れ30%、曇り20%です。さぁ、今日はどうなるでしょうか」と言っている感じたど思う。

天気予報 天気予報

実際には、今日の天気どうなるか、シミュレーションしてと思うものである。ところで、統計分析とシミュレーションに大きなGapがあることを読者はお気づきだろうか。天気予報は、統計ではなく、大気の物理的な現象を記述した以下のような方程式群を解くことになる。

  • 運動量保存の法則
    • 球体表面の水力学的運動を表現するナビエ・ストークス方程式の変形。
    • 運動の水平スケールが鉛直スケールよりも十分大きい、静水圧近似の状態を前提(条件)とする。
  • 熱エネルギー方程式(エネルギー保存の法則)
    • 熱の出入りおよび、系全体の熱・エネルギーの変化とその状態を記述。
  • 連続の方程式
    • 質量の保存則を記述。

まさに、天気という自然現象を記述する必要がある。本来であれば、自然現象に何らか支配されているものは、このように自然現象の式で表現することを挑戦するべきです。なぜなら、本質の理解ができる可能性があるからです。

実際に、WikipediaのData Scienceの記述には、数学の要素が必要だと書かれています。ところで、今マーケティングを行っているData Scientistチームに数学者はいますか?

数学セミナー2015年8月号 数学セミナー2015年8月号

そんな疑問と数学の効能を説明するために、最新の数学セミナー2015年8月号(7月10日発売)という雑誌に、東京大学大学院数理科学研究科の山本昌宏教授と、Twitterの記事伝播のモデルについて数学的にアプローチした記述を投稿しました。

数学的に実際のデータから式を作ると、意外とTwitterで炎上というか継続的に拡散するという能力が低いことがわかります。この雑誌の中での記述していますが、炎上する場合が少ないのです。

これを、統計的なアプローチで行うと、おそらく過去Twitterで炎上したケース、しないケースをわけて、意外と炎上するケースは少ないという結論は出るでしょう。でも、その理由がわからないのです。

この数学的な記述でわかることは、Twitterの拡散は、それまでの積算効果ではなく、過去の直前の効果が一番効いています。全員がre-tweetするようなことは一般にはなく、Tweetを見た人の中で、ある確率の集合だけががre-tweetするから、一般に同じ記事の伝播は緩やかに収まり、その記事固有の伝播量になるのです。

Twitter Twitter

このようなことが、数学の力を借りてモデルを作ることで、すぐにわかるのです。雑誌にも書きましたが、ここまでの分析が大學の数学レベルでほぼ見通しのたつ問題です。

ちなみに、この続きの解説は数学セミナー2015年10月号にも掲載しますので、乞うご期待です。

数学セミナー2015年8月号

数学セミナー2015年8月号


[参考]

数学と産業界のコラボについては、以下の朝日新聞の記事も参考になります。

数学と社会/「数学力」が国力を左右

見えない炉の中」を見る 新日鉄が特命チームを編成

金融危機で「主犯」説 そんなに金融工学は悪いのか?

Webアクセス分析セミナーが終わったのだが….

標準

この前の記事で、Web広告研究会のセミナー「Web解析ツールの最新状況 ~進化した解析ツールでできること~」を開催することを伝えました。その際は、広告主の参加が少ないことを問題として指摘させて頂きました。そして、本日2015年6月22日、結果圧倒的に広告主の参加比率が少ないまま、200名の出席を頂き、セミナーを終了しました。

Google Analytics Google Analytics

そして、開催した今日、更に私が驚くような事実を目の当たりにしました。今日の驚きは、アクセス分析ツールを入れている広告主がとても少ないことです。今日は、Google AnalyticsAdobe Marketing Cloudの説明でした。そして、驚愕の事実は、今日の参加広告主の中で、

  • Google Analytics Premiumの導入は2社(2名)
  • Adobe Analyticsの導入は、5,6社(5,6名)

ということです。もちろん、日本人の性格から、恥ずかしくて手を挙げない方もいると思いますが、この比率はとても少ないのではないでしょうか?

Adobe Analytics Adobe Analytics

Data Driven Marketingとか、Big Dataとか言っている日本のマーケティングは、声だけだったのでしょうか?それとも、前の記事に書いたように、広告代理店に丸投げなのでしょうか?

いや、本当はこのようなツールを導入したくてもできていないのではないでしょうか?最近よく聞く話は、Marketoのような最新マーケティング分析ツールも、昔からある大企業ではなく、StartUp企業や、若い企業の導入が多いようです。

この理由を考えると、大企業の広告主のマーケティング部門には、巨大な広告予算はあるが、システム導入予算も、システム導入メンバーがいない。そして、組織の壁があると思い込み、打ち合わせが長引き、社内承認がおりない。StartUpはそんなに組織も複雑ではない、広告予算の前に、一番良い投資の仕方を知りたいので、分析ツールを導入する。そんなことが、後ろに隠れている背景ではないでしょうか?

サイロ サイロ

さぁ、マーケティング部門の人は、今までは、売上伸ばした、業績伸ばしたとかで、社内で存在をアピールしてきたかもしれません。しかしこれからは、他部門に協力を仰ぐことです。情報システムと、分析ツールの導入5カ年計画書を作る。財務・会計部門と効果・効率についての議論を行い、広告予算と新製品開発予算、顧客サービス予算など、もう一つ上位の階層での予算の最適化の議論を行う。このように、関連部門と議論して、

  1. タスクリストを完成させる
  2. 期日の入ったRoad Mapと必要な予算を明確にする
  3. 上記を実行するために必要なチームを検討する

そして、この2と3を幹部に説明して、新しいマーケティングの入り口を開けないと行けないのです。

広告主の持っている責任・役割を再確認すること。Digital Marketing、Data Driven Marketingを実行可能な状況にするのは、広告主のマーケッターです。

1年たった頃には、アクセス分析セミナーの今日のような初心者編とともに、運用メンバーの中級編の開催ができることを夢見ています。ぜひ、多くの広告主企業に、データ分析の武器がたくさん導入されるように、支援しますし、ぜひ一緒に行いましょう。マーケティングを変えるのは、マーケッターの仕事です。