CRISP-DMとは
CRISP-DMは”CRoss-Industry Standard Process for Data Mining”の略で、直訳すると「データマイニングのための業界横断型標準プロセス」です。
データマイニングはデータサイエンスの部分集合といってよいと思いますが、CRISP-DMはデータサイエンス全般に敷衍できるものと考えられています。
出展:Cross-industry standard process for data mining – Wikipedia
CRISP-DMのステップ
本プロセスは、以下の6つのステップから構成されています。
- Business Understanding(ビジネスの理解)
データサイエンスのプロジェクトはまず、ビジネスを理解することからはじまります。データサイエンティストに求められるスキルセットのうち、ビジネス力がもっとも必要とされるステップです。
Business Understanding(ビジネスの理解)とData Understanding(データの理解)の間に、「データの取得」というステップがあります。ここでは、Business Understanding(ビジネスの理解)とData Understanding(データの理解)のどちらかに含まれていると解釈します。
- Data Understanding(データの理解)
より予測精度の高いモデルを作るためだけでなく、より説明性の高いモデルを作るためにも、データの理解は重要なステップです。探索的データ分析(EDA)と読み替えてもよいでしょう。
Data Understanding(データの理解)を行うためにも、何らかのデータ整形が必要になる場合がほとんどです。Data Preparation(データの準備)との間に双方向の矢印がないため、Data Understanding(データの理解)に含まれていると解釈します。
- Data Preparation(データの準備)
データをモデリング可能な形に加工します。
Data Preparation(データの準備)とModeling(モデリング)の間に、「特徴量抽出」というステップがあります。ここでは、Data Preparation(データの準備)とModeling(モデリング)のどちらかに含まれていると解釈します。
- Modeling(モデリング)
データを統計モデルや、機械学習モデル(アルゴリズム)にあてはめます。
- Evaluation(評価)
モデルの予測精度を評価します。より広い意味では、ビジネスの目的に合っているかどうかを評価します。
- Deployment(展開)
モデルをビジネスの現場に展開(デプロイ)します。
Deployment(展開)の後に、「モニタリング」「再学習」というステップがあります。ここでは、Deployment(展開)に含まれていると解釈します。それらの結果によっては、Business Understanding(ビジネスの理解)からやり直さないといけない場合も出てくるかもしれません。大外の円環が、それを表現していると解釈します。
またCRISP-DMでは明示されていませんが、レポーティングによる意思決定への貢献も、データサイエンスが担う重要な役割のひとつです。下の記事も、併せてご参照ください。

データサイエンスのプロセス
CRISP-DMデータサイエンスのプロセス(ワークフロー)としてとりわけ有名なものに、CRISP-DMがあります。CRISP-DMは"CRoss-Industry Standard Process for Data Mining"の略...