Data Scienceというと日本では、何かDataを統計することになっているようである。これを例えると、本日の天気は過去20年間のデータから「雨50%、晴れ30%、曇り20%です。さぁ、今日はどうなるでしょうか」と言っている感じたど思う。
実際には、今日の天気どうなるか、シミュレーションしてと思うものである。ところで、統計分析とシミュレーションに大きなGapがあることを読者はお気づきだろうか。天気予報は、統計ではなく、大気の物理的な現象を記述した以下のような方程式群を解くことになる。
- 運動量保存の法則
- 球体表面の水力学的運動を表現するナビエ・ストークス方程式の変形。
- 運動の水平スケールが鉛直スケールよりも十分大きい、静水圧近似の状態を前提(条件)とする。
- 熱エネルギー方程式(エネルギー保存の法則)
- 熱の出入りおよび、系全体の熱・エネルギーの変化とその状態を記述。
- 連続の方程式
- 質量の保存則を記述。
まさに、天気という自然現象を記述する必要がある。本来であれば、自然現象に何らか支配されているものは、このように自然現象の式で表現することを挑戦するべきです。なぜなら、本質の理解ができる可能性があるからです。
実際に、WikipediaのData Scienceの記述には、数学の要素が必要だと書かれています。ところで、今マーケティングを行っているData Scientistチームに数学者はいますか?
そんな疑問と数学の効能を説明するために、最新の数学セミナー2015年8月号(7月10日発売)という雑誌に、東京大学大学院数理科学研究科の山本昌宏教授と、Twitterの記事伝播のモデルについて数学的にアプローチした記述を投稿しました。
数学的に実際のデータから式を作ると、意外とTwitterで炎上というか継続的に拡散するという能力が低いことがわかります。この雑誌の中での記述していますが、炎上する場合が少ないのです。
これを、統計的なアプローチで行うと、おそらく過去Twitterで炎上したケース、しないケースをわけて、意外と炎上するケースは少ないという結論は出るでしょう。でも、その理由がわからないのです。
この数学的な記述でわかることは、Twitterの拡散は、それまでの積算効果ではなく、過去の直前の効果が一番効いています。全員がre-tweetするようなことは一般にはなく、Tweetを見た人の中で、ある確率の集合だけががre-tweetするから、一般に同じ記事の伝播は緩やかに収まり、その記事固有の伝播量になるのです。
このようなことが、数学の力を借りてモデルを作ることで、すぐにわかるのです。雑誌にも書きましたが、ここまでの分析が大學の数学レベルでほぼ見通しのたつ問題です。
ちなみに、この続きの解説は数学セミナー2015年10月号にも掲載しますので、乞うご期待です。
[参考]
数学と産業界のコラボについては、以下の朝日新聞の記事も参考になります。