週末Data Scientist養成。

標準

Marketing業界で、Data Scientistのニーズが引き続き、高い。数学のアカデミア関係者としては、非常にありがたいことです。

一方、Data Scientistがあまり大学から排出されない課題として、高校生や大学で専門を決める前に、Data Scientistという職業が認知されていないことも課題になっています。先月、文部科学省で最近の高校生の進路決定のお話を聞いたのですが、高校進学時に自分の進路を決めている高校生が多いそうなのです。つまり、優秀なData Scientistをアカデミアから排出するためには、高校生などにData Scientistをあこがれてもらわないといけないということですね。これは、まさに産業界の課題でしょう。Star Data Scientistを産業界で創ることも急務なのでしょう。

そして、そのStarになるかは別として、自らData Scientistになりたい方は多いはずなので、ここでは少し、Data Scientistになる勉強方法について参考までに紹介したいと思います。

まずは、いくつか動画のサイトを紹介します。

文部科学省委託事業「データサイエンティスト育成ネットワークの形成」では、統数研の先生たちによる講義があります。

データサイエンティスト育成クラッシュコース(データサイエンティストの基礎が2.5時間で学べます)

この講義は、とても充実しています。これが無料で好きなときに見れるというのは非常に良い時代になりました。

統計数理研究所では、その他に多くの講義をYouTubeにて公開しています。なかには、「音楽情報処理が切り拓く未来」などという応用の講義も含まれていて、大変充実していります。視聴者が増えれば、公開される講義も増えると思います。ぜひ、積極的に活用してみてはいかがでしょうか。

次に、総務省統計局が行う講義です。こちらは、2016年4月19日に、「社会人のためのデータサイエンス演習」がスタートします。《特別開講》「社会人のためのデータサイエンス入門」は、3/1に公開され、もう受講羽化脳です。いずれも、テキストだけ購入すれば受講可能です。おそらく、「社会人のためのデータサイエンス入門」→「社会人のためのデータサイエンス演習」がBestな受講パターンなのでしょう。講師も豪華ですし、必要なのはエクセルだけというのも非常に良いですね。

最近ではこのような、ネットの動画サイトも多くなってきましたが、家で勉強するのは無理!という方には、講義軽視の講座も沢山あります。先ほど紹介した、統計数理研究所(統数研)では、統計思考院という取り組みを行っており、そこで無料・有料のセミナーを多数開催しています。例えば、「HadoopとRによるビッグデータ解析」では、開催は6月28日(火)10時~16時 (5時間)で、受講料は5000円です。とても、安いです。ただし、倍率は高いので、そこは覚悟をしてくださいね。

さらに、もっと基本的なことから勉強したいという人に、さまざまな統計手法の前に、統計に触れてみたい人への私のお勧めの本は、

です。この本は、統計を体系立てて勉強するのではなく、事例からそこに使うべき統計の手法を理解するという本です。統計のさまざまな手法のどれを学んだらよいかわからないという方には、この本からスタートするのをお勧めします。問題が一杯あるので、本を読みながら、実際に計算してみるのも良いのではないでしょうか。

まぁ、このように自分でデータ・サイエンスの勉強を出来る機会が沢山あるのは良いですね。上手く、目的やスタイルに合わせて選んでみては如何でしょうか?また他の勉強方法や講座などあれば、教えてくださいね。

企業のData Scientistは、もっと大学を有効に使おう。

標準

昨日は、東洋経済に私が転職した理由を広告として掲載されました。本当に、自分の転職理由を、広告枠まで買って、記事にしてくれて、アビームコンサルテイングには、感謝の言葉しかありありません。これから、がんばらないと。

51cvg2b0cuvl-_sx373_bo1204203200_

週刊東洋経済 2015/11/21号

そして、今日は別な私の興味対象のData Scienceについてです。なぜか、企業でData Science、特にマーケティングでData Scienceでは、”R”とか”Excel”のような分析ツールの話題が多いですが、本当は分析方法や、分析してわかったことの数理モデル作りだと思います。

私は、幸いなことに現在、東京大学大学院数理科学研究科で、客員教授をさせていただいていることもあり、アカデミアとの接点が非常に多いです。しかし、企業のData Scientistの方は、もっとアカデミアと接触したり、活用したほうが良いと思うのです。今回は、私が研究の相談をさせていただいている、東京大学大学院数理科学研究科の山本教授に、数学におけるBig Dataの取り組みや、東大での企業向けのプログラムについて、取材し、日経Big Data12月号に掲載してもらうことになりました。そして、Web版は昨日公開されたので、定期購読者の方は、こちらからご覧ください。

東大の山本教授とは、多くのBig Dataに関する研究を行い、そのいくつかは、数学セミナーという雑誌にて、結果もまとめました。

数学セミナー2015/8月号では、twitterの炎上の問題について、実際のデータを使って数学的なアプローチをまとめました。数学セミナー2015/10月号では、企業のWebサイトの設置する旧来型のBBSの投稿と参加者の関係を、考えました。

ここで、やや私も書いていて違和感のあることとして、日本の学問体系の問題があります。日本の大学のカリキュラムは、海外から輸入されたものが多いのですが、数学と統計が別な学問になっているのは、日本の特徴で、現在では問題なのではと思っています。これは、日経Big Data12月号の中でも、山本先生もお話されています。

本来、学問というのは教わるときに、ある体系が存在しますが、活用するときには、その壁を越えたほうが良いのでしょう。数学も統計も、必要なものを使う。企業のData Scientistは、統計学者ではなく、実務家なのでしょうから、使えるToolは、境なく使えば良いと思うのです。そして、企業のData Scientistは解けない問題があれば、「解けないから一緒に考えて欲しい」とそれぞれの専門家に相談すれば良いのです。

その意味でも、企業のData Scientistは、もっとアカデミアという専門研究機関を上手く活用すべきなのです。ぜひ、アカデミアにも、どんどんアプローチしましょう。もちろん、私は半分アカデミアの立場もあるので、相談にものりますよ!!

統計だけでない、Data Science! 最新「数学セミナー(雑誌)」解説

標準

Data Scienceというと日本では、何かDataを統計することになっているようである。これを例えると、本日の天気は過去20年間のデータから「雨50%、晴れ30%、曇り20%です。さぁ、今日はどうなるでしょうか」と言っている感じたど思う。

天気予報 天気予報

実際には、今日の天気どうなるか、シミュレーションしてと思うものである。ところで、統計分析とシミュレーションに大きなGapがあることを読者はお気づきだろうか。天気予報は、統計ではなく、大気の物理的な現象を記述した以下のような方程式群を解くことになる。

  • 運動量保存の法則
    • 球体表面の水力学的運動を表現するナビエ・ストークス方程式の変形。
    • 運動の水平スケールが鉛直スケールよりも十分大きい、静水圧近似の状態を前提(条件)とする。
  • 熱エネルギー方程式(エネルギー保存の法則)
    • 熱の出入りおよび、系全体の熱・エネルギーの変化とその状態を記述。
  • 連続の方程式
    • 質量の保存則を記述。

まさに、天気という自然現象を記述する必要がある。本来であれば、自然現象に何らか支配されているものは、このように自然現象の式で表現することを挑戦するべきです。なぜなら、本質の理解ができる可能性があるからです。

実際に、WikipediaのData Scienceの記述には、数学の要素が必要だと書かれています。ところで、今マーケティングを行っているData Scientistチームに数学者はいますか?

数学セミナー2015年8月号 数学セミナー2015年8月号

そんな疑問と数学の効能を説明するために、最新の数学セミナー2015年8月号(7月10日発売)という雑誌に、東京大学大学院数理科学研究科の山本昌宏教授と、Twitterの記事伝播のモデルについて数学的にアプローチした記述を投稿しました。

数学的に実際のデータから式を作ると、意外とTwitterで炎上というか継続的に拡散するという能力が低いことがわかります。この雑誌の中での記述していますが、炎上する場合が少ないのです。

これを、統計的なアプローチで行うと、おそらく過去Twitterで炎上したケース、しないケースをわけて、意外と炎上するケースは少ないという結論は出るでしょう。でも、その理由がわからないのです。

この数学的な記述でわかることは、Twitterの拡散は、それまでの積算効果ではなく、過去の直前の効果が一番効いています。全員がre-tweetするようなことは一般にはなく、Tweetを見た人の中で、ある確率の集合だけががre-tweetするから、一般に同じ記事の伝播は緩やかに収まり、その記事固有の伝播量になるのです。

Twitter Twitter

このようなことが、数学の力を借りてモデルを作ることで、すぐにわかるのです。雑誌にも書きましたが、ここまでの分析が大學の数学レベルでほぼ見通しのたつ問題です。

ちなみに、この続きの解説は数学セミナー2015年10月号にも掲載しますので、乞うご期待です。

数学セミナー2015年8月号

数学セミナー2015年8月号


[参考]

数学と産業界のコラボについては、以下の朝日新聞の記事も参考になります。

数学と社会/「数学力」が国力を左右

見えない炉の中」を見る 新日鉄が特命チームを編成

金融危機で「主犯」説 そんなに金融工学は悪いのか?

NFL 2015 は、DARRELLE REVISは活躍する?アメフトとDataの深い話

New York Jets
標準

NFL 2015の開幕まで、もう少し(2ヶ月を切った)なことは、前のBlogでも触れました。今日は、今年からアメフト(アメフット/アメラグ ともいう)を見る人のために、選手の応援の仕方を少し書きましょう。

このVideoの選手はDarrelle Revis(ダレル・リービス)という選手で、New York Jetsの守備(Defense)選手です。カッコいいでしょう。まぁ、カッコよさで選手を選ぶのは主観的な話なので、ここでは、Data Scientist風に、選手をデータから見る(選ぶ)方法を、紹介しましょう。

NFLでは、すべての選手の活躍の記録が、NFL.comのサイトで公開されています。このサイトのSTATSというメニューになります。

Darrelle Revis Darrelle Revis(ダレル・リービス)

さて、このDarrelle Revis(ダレル・リービス)のデータのページを開けてみましょう。DEFENSIVEという欄があります。一番、右にシーズンの年、その横に所属していたチームがあります。

Darrelle Revis   #24 DB Stats

Darrelle Revis #24 DB Stats

次に、[G] [Comb] [Total] [Ast] [Sck] [SFTY]とあります。

[G]は、出場ゲーム数です。年間のレギュラーの試合は全部で16試合ですので、その中で何ゲーム出場したかわかります。

[Comb][Total][Ast]は、この選手は守備の選手たので、アメフトのボールを持っている相手の選手を何回タックルして止めたかです。[Comb]は、合計。[Total]は、この選手がメインで行ったタックル。[Ast]は、タックルのアシストの回数になります。

[Sck]は、ボールを持ったクォーターバックをサックと言って、止めた回数。

[SFTY]は、相手のゴールで、ボールを持った選手を止めた回数になります。

大体ここまでの数字で、この数字が大きい選手を探せばディフェンスの良い選手が探せます。

Luke Kuechly Luke Kuechlyは、普段はメガネなんですよね。

2014年のタックル多い選手リストもすぐ見ることが出来て、一番多い選手は、カロライナ・パンサーズのLuke Kuechly(ルーク・クエッチリー)で、なんと153回です。試合数が16ですから、試合平均9回程度タックルしています。とても多いというか、そんなにタックルしても壊れないタフな選手でもあるのでしょうね。

NFLの面白さは、このように多くのデータを見ながら、チームや選手を応援できます。

NFLの選手のデータは、他にもさまざま公開されています。

http://www.footballdb.com/stats/

や、選手の契約金を公開している、

http://www.spotrac.com/nfl/

なんかもありますね。

Data Scientistには、とても面白いスポーツNFL。ぜひ、今年はデータを使って観戦してみるのはいかがでしょうか?

ちなみに、スポーツとデータ分析は本当に重要で、アメリカでは書籍も出ていますよ。

Analytic Methods in Sports: Using Mathematics and Statistics to Understand Data from Baseball, Football, Basketball, and Other Sports Analytic Methods in Sports: Using Mathematics and Statistics to Understand Data from Baseball, Football, Basketball, and Other Sports

そうそう、NFL 2015のDARRELLE REVIS(ダレル・リービス)は、活躍するのかって。ここ数年、タックルは50回程度行えており、それはあまり変わっていないので、そこは大丈夫でしょう。しかし、実は、上で説明していない[Int]というデータが下がっています。これは、インターセプトの数字で、パスを横取りした回数です。この数が減ってきているので、やはり走行力・跳躍力が下がってきていることもあり、昔ほどの活躍はしないのでしょうね。

と書きつつも、NFLは、チーム・プレーでもあり、どのようなディフェンスを今年するのかで、このデータも変わりますね。そう、NFLとデータ分析は、このように完全にシミュレーション出来ないのも、その面白さだったりします。

どっちにしても、私は主観的にも、客観的にもNFLを楽しみます!!!

Webアクセス分析セミナーが終わったのだが….

標準

この前の記事で、Web広告研究会のセミナー「Web解析ツールの最新状況 ~進化した解析ツールでできること~」を開催することを伝えました。その際は、広告主の参加が少ないことを問題として指摘させて頂きました。そして、本日2015年6月22日、結果圧倒的に広告主の参加比率が少ないまま、200名の出席を頂き、セミナーを終了しました。

Google Analytics Google Analytics

そして、開催した今日、更に私が驚くような事実を目の当たりにしました。今日の驚きは、アクセス分析ツールを入れている広告主がとても少ないことです。今日は、Google AnalyticsAdobe Marketing Cloudの説明でした。そして、驚愕の事実は、今日の参加広告主の中で、

  • Google Analytics Premiumの導入は2社(2名)
  • Adobe Analyticsの導入は、5,6社(5,6名)

ということです。もちろん、日本人の性格から、恥ずかしくて手を挙げない方もいると思いますが、この比率はとても少ないのではないでしょうか?

Adobe Analytics Adobe Analytics

Data Driven Marketingとか、Big Dataとか言っている日本のマーケティングは、声だけだったのでしょうか?それとも、前の記事に書いたように、広告代理店に丸投げなのでしょうか?

いや、本当はこのようなツールを導入したくてもできていないのではないでしょうか?最近よく聞く話は、Marketoのような最新マーケティング分析ツールも、昔からある大企業ではなく、StartUp企業や、若い企業の導入が多いようです。

この理由を考えると、大企業の広告主のマーケティング部門には、巨大な広告予算はあるが、システム導入予算も、システム導入メンバーがいない。そして、組織の壁があると思い込み、打ち合わせが長引き、社内承認がおりない。StartUpはそんなに組織も複雑ではない、広告予算の前に、一番良い投資の仕方を知りたいので、分析ツールを導入する。そんなことが、後ろに隠れている背景ではないでしょうか?

サイロ サイロ

さぁ、マーケティング部門の人は、今までは、売上伸ばした、業績伸ばしたとかで、社内で存在をアピールしてきたかもしれません。しかしこれからは、他部門に協力を仰ぐことです。情報システムと、分析ツールの導入5カ年計画書を作る。財務・会計部門と効果・効率についての議論を行い、広告予算と新製品開発予算、顧客サービス予算など、もう一つ上位の階層での予算の最適化の議論を行う。このように、関連部門と議論して、

  1. タスクリストを完成させる
  2. 期日の入ったRoad Mapと必要な予算を明確にする
  3. 上記を実行するために必要なチームを検討する

そして、この2と3を幹部に説明して、新しいマーケティングの入り口を開けないと行けないのです。

広告主の持っている責任・役割を再確認すること。Digital Marketing、Data Driven Marketingを実行可能な状況にするのは、広告主のマーケッターです。

1年たった頃には、アクセス分析セミナーの今日のような初心者編とともに、運用メンバーの中級編の開催ができることを夢見ています。ぜひ、多くの広告主企業に、データ分析の武器がたくさん導入されるように、支援しますし、ぜひ一緒に行いましょう。マーケティングを変えるのは、マーケッターの仕事です。

Data分析とバレーボール

標準

Big Data,Big Dataと叫ばれている昨今ですが、Data分析はさまざまな領域で、活用されていますよね。皆さんの中にも、映画マネーボールでも、弱小だったオークランド・アスレチックスを、打率ではなく、出塁率という指標で立て直していました。

そして、「Mathletics :  How Gamblers, Managers, and Sports Enthusiasts Use Mathematics in Baseball, Basketball, and Football」なる本も、発売されており、アメリカでは多くのPro Sportsにデータ分析の手法が取り込まれています。

さらに、最近の女子バレーでは、監督がiPadを持って、選手に支持を出している姿を見ませんか?そして、その分析にも、なんと世界標準のイタリア製の「DataVolley 2007」というソフトがあるそうです。驚きました。詳しくは、バレーボールと数学のサイトに、バレーボールアナリスト、渡辺啓太さんのインタビュー記事として出ています。