データサイエンス全般

CRISP-DM

CRISP-DMとは

CRISP-DMは”CRoss-Industry Standard Process for Data Mining”の略で、直訳すると「データマイニングのための業界横断型標準プロセス」です。

データマイニングはデータサイエンスの部分集合といってよいと思いますが、CRISP-DMはデータサイエンス全般に敷衍できるものと考えられています。


出展:Cross-industry standard process for data mining – Wikipedia

CRISP-DMのステップ

本プロセスは、以下の6つのステップから構成されています。

  • Business Understanding(ビジネスの理解)

データサイエンスのプロジェクトはまず、ビジネスを理解することからはじまります。データサイエンティストに求められるスキルセットのうち、ビジネス力がもっとも必要とされるステップです。

Business Understanding(ビジネスの理解)とData Understanding(データの理解)の間に、「データの取得」というステップがあります。ここでは、Business Understanding(ビジネスの理解)とData Understanding(データの理解)のどちらかに含まれていると解釈します。
  • Data Understanding(データの理解)

より予測精度の高いモデルを作るためだけでなく、より説明性の高いモデルを作るためにも、データの理解は重要なステップです。探索的データ分析(EDA)と読み替えてもよいでしょう。

Data Understanding(データの理解)を行うためにも、何らかのデータ整形が必要になる場合がほとんどです。Data Preparation(データの準備)との間に双方向の矢印がないため、Data Understanding(データの理解)に含まれていると解釈します。
  • Data Preparation(データの準備)

データをモデリング可能な形に加工します。

Data Preparation(データの準備)とModeling(モデリング)の間に、「特徴量抽出」というステップがあります。ここでは、Data Preparation(データの準備)とModeling(モデリング)のどちらかに含まれていると解釈します。
  • Modeling(モデリング)

データを統計モデルや、機械学習モデル(アルゴリズム)にあてはめます。

  • Evaluation(評価)

モデルの予測精度を評価します。より広い意味では、ビジネスの目的に合っているかどうかを評価します。

  • Deployment(展開)

モデルをビジネスの現場に展開(デプロイ)します。

Deployment(展開)の後に、「モニタリング」「再学習」というステップがあります。ここでは、Deployment(展開)に含まれていると解釈します。それらの結果によっては、Business Understanding(ビジネスの理解)からやり直さないといけない場合も出てくるかもしれません。大外の円環が、それを表現していると解釈します。

またCRISP-DMでは明示されていませんが、レポーティングによる意思決定への貢献も、データサイエンスが担う重要な役割のひとつです。下の記事も、併せてご参照ください。

データサイエンスのプロセス
CRISP-DMデータサイエンスのプロセス(ワークフロー)としてとりわけ有名なものに、CRISP-DMがあります。CRISP-DMは"CRoss-Industry Standard Process for Data Mining"の略...
タイトルとURLをコピーしました