データサイエンスのプロセス

CRISP-DM

データサイエンスのプロセス（ワークフロー）としてとりわけ有名なものに、CRISP-DMがあります。

CRISP-DMは”CRoss-Industry Standard Process for Data Mining”の略で、直訳すると「データマイニングのための業界横断型標準プロセス」です。

CRISP-DMについて詳しくは、下の記事をご参照ください。

もうひとつ、データサイエンスのプロセスをご紹介します。

Rachel SchuttとCathy O’Neilの共著『Doing Data Science』の中に掲載されています。

出展：Rachel Schutt, Cathy O’Neil『Doing Data Science』

本プロセスは、以下のステップから構成されています。

Real World（現実世界）からデータを取得します。

Raw Data is Collected（データの取得）の前に、「ビジネスの理解」というステップがあります。ここでは、Raw Data is Collected（データの取得）に含まれていると解釈します。

データをモデリングや探索的データ分析が可能な形に加工します。

Clean Dataは、Data is Processed（データの加工）のアウトプットと解釈します。

より予測精度の高いモデルを作るためだけでなく、より説明性の高いモデルを作るためにも、データの理解は重要なステップです。

データを統計モデルや、機械学習モデル（アルゴリズム）にあてはめます。

Machine Learning Algorithms/Statistical Models（モデリング）の前に、「特徴量抽出」というステップがあります。ここでは、Machine Learning Algorithms/Statistical Models（モデリング）に含まれていると解釈します。

Machine Learning Algorithms/Statistical Models（モデリング）の後に、「評価」というステップがあります。ここでは、Machine Learning Algorithms/Statistical Models（モデリング）に含まれていると解釈します。

レポーティングによる意思決定への貢献も、データサイエンスの重要な役割のひとつです。

モデルをビジネスの現場に展開（デプロイ）します。

Built Data Productは元々「製品への展開」を意味していたかもしれませんが、ここでは「ビジネス現場への展開」と広く捉えています。

Built Data Product（展開）の後に、「モニタリング」「再学習」というステップがあります。ここでは、Built Data Product（展開）に含まれていると解釈します。