Data分析は、事前準備が重要

私は、縁あって、昨年から東京大学大学院数理科学研究科の数学専攻の学生と一緒に研究をさせてもらっている。そこでは、主に実業のデータから、あるパターンを探し、数理モデルとして記述することを目標にしている。

もう少し、わかりやすく言えば、Aという数字の集合と、Bという数字の集合に、何か関係がないか、関係があるとしたら、どんな式で記述できるのかを考えているのである。たとえば、広告の投資金額と、売り上げの金額に関係があるかというような問題である。

このようなことを、３年も行っていると、このモデルづくりへの近道は、データを良く眺めることだということに、気づかされた。一般的には、すぐに、AとBの関係を、統計ソフトなどに投入し、近似式が作れないかとやってしまう。でも、これでは、統計的な式が作れても、数理モデルにはならないのである。

時として、このように統計ソフトは、物体の自由落下の方程式でも、複雑な式で、近似してしまい、現象の理解を遠ざけることすらあるのである。(ad tech Tokyo 2013の私の講演資料から)

最近私が行っている手法は、以下である。

(1) まず、数字データAのみ、数字データBのみの性格を理解する。たとえば、クラスタリングをすると、どれくらいの集合に分けられるかとか、それぞれのデータにNoiseのような特異点がないかなど。

(2) それぞれの特徴を理解したうえで、AとBの関係性について、広く議論する。でも、まだ数式は使わない。

(3)どんなモデルにあてはまりそうか、議論する。

(4) そのモデルだと検討し、証明する。だめなら、(3)や(2)に戻る。

何行っているんだと思うかもしれないが、先に式を考えて、モデルを作るのと、何も考えずに統計ソフトにデータを投入するのには、大きな違いがある。

しいて結えば、「きちんとオリエンを行ったパートナーに行う」のと、パートナーに「丸投げ」くらいである。

Data分析には、事前準備、特に分析メンバーの議論が重要なのだと、最近実感している。

さぁ、今日ももうすぐWeb広告研究会のフォーラムで、Big Dataの話をする。このような進め方を多くの企業で行ってもらいたいという期待値を持ちつつ。

rupurupu