データサイエンス全般

CRISP-DM

CRISP-DMとは

CRISP-DMは”CRoss-Industry Standard Process for Data Mining”の略で、直訳すると「データマイニングのための業界横断型標準プロセス」です。

データマイニングはデータサイエンスの部分集合といってよいと思いますが、CRISP-DMはデータサイエンス全般に敷衍できるものと考えられています。


出展:Cross-industry standard process for data mining – Wikipedia

CRISP-DMのステップ

本プロセスは、以下の6つのステップから構成されています。

  • Business Understanding(ビジネスの理解)
  • データサイエンスのプロジェクトはまず、ビジネスを理解することからはじまります。データサイエンティストに求められるスキルセットのうち、ビジネス力がもっとも必要とされるステップです。

    Business Understanding(ビジネスの理解)とData Understanding(データの理解)の間に、「データの取得」というステップがあります。ここでは、Business Understanding(ビジネスの理解)とData Understanding(データの理解)のどちらかに含まれていると解釈します。
  • Data Understanding(データの理解)
  • より予測精度の高いモデルを作るためだけでなく、より説明性の高いモデルを作るためにも、データの理解は重要なステップです。探索的データ分析(EDA)と読み替えてもよいでしょう。

    Data Understanding(データの理解)を行うためにも、何らかのデータ整形が必要になる場合がほとんどです。Data Preparation(データの準備)との間に双方向の矢印がないため、Data Understanding(データの理解)に含まれていると解釈します。
  • Data Preparation(データの準備)
  • データをモデリング可能な形に加工します。

    Data Preparation(データの準備)とModeling(モデリング)の間に、「特徴量抽出」というステップがあります。ここでは、Data Preparation(データの準備)とModeling(モデリング)のどちらかに含まれていると解釈します。
  • Modeling(モデリング)
  • データを統計モデルや、機械学習モデル(アルゴリズム)にあてはめます。

  • Evaluation(評価)
  • モデルの予測精度を評価します。より広い意味では、ビジネスの目的に合っているかどうかを評価します。

  • Deployment(展開)
  • モデルをビジネスの現場に展開(デプロイ)します。

    Deployment(展開)の後に、「モニタリング」「再学習」というステップがあります。ここでは、Deployment(展開)に含まれていると解釈します。それらの結果によっては、Business Understanding(ビジネスの理解)からやり直さないといけない場合も出てくるかもしれません。大外の円環が、それを表現していると解釈します。

    またCRISP-DMでは明示されていませんが、レポーティングによる意思決定への貢献も、データサイエンスが担う重要な役割のひとつです。下の記事も、併せてご参照ください。

    データサイエンスのプロセス
    CRISP-DM データサイエンスのプロセス(ワークフロー)としてとりわけ有名なものに、CRISP-DMがあります。 CRISP-DMは"CRoss-Industry Standard Process for Data Mini...
    タイトルとURLをコピーしました