データサイエンス全般

データサイエンスのプロセス

CRISP-DM

データサイエンスのプロセス(ワークフロー)としてとりわけ有名なものに、CRISP-DMがあります。

CRISP-DMは”CRoss-Industry Standard Process for Data Mining”の略で、直訳すると「データマイニングのための業界横断型標準プロセス」です。

CRISP-DMについて詳しくは、下の記事をご参照ください。

CRISP-DM
CRISP-DMとはCRISP-DMは"CRoss-Industry Standard Process for Data Mining"の略で、直訳すると「データマイニングのための業界横断型標準プロセス」です。データマイニングはデータ...

Schutt & O’Neil

もうひとつ、データサイエンスのプロセスをご紹介します。

Rachel SchuttとCathy O’Neilの共著『Doing Data Science』の中に掲載されています。


出展:Rachel Schutt, Cathy O’Neil『Doing Data Science』

本プロセスは、以下のステップから構成されています。

  • Raw Data is Collected(データの取得)

Real World(現実世界)からデータを取得します。

Raw Data is Collected(データの取得)の前に、「ビジネスの理解」というステップがあります。ここでは、Raw Data is Collected(データの取得)に含まれていると解釈します。
  • Data is Processed(データの加工)

データをモデリングや探索的データ分析が可能な形に加工します。

Clean Dataは、Data is Processed(データの加工)のアウトプットと解釈します。
  • Exploratory Data Analysis(探索的データ分析)

より予測精度の高いモデルを作るためだけでなく、より説明性の高いモデルを作るためにも、データの理解は重要なステップです。

  • Machine Learning Algorithms/Statistical Models(モデリング)

データを統計モデルや、機械学習モデル(アルゴリズム)にあてはめます。

Machine Learning Algorithms/Statistical Models(モデリング)の前に、「特徴量抽出」というステップがあります。ここでは、Machine Learning Algorithms/Statistical Models(モデリング)に含まれていると解釈します。
Machine Learning Algorithms/Statistical Models(モデリング)の後に、「評価」というステップがあります。ここでは、Machine Learning Algorithms/Statistical Models(モデリング)に含まれていると解釈します。
  • Communicate/Visualizations/Report Findings(レポーティング)

レポーティングによる意思決定への貢献も、データサイエンスの重要な役割のひとつです。

  • Built Data Product(展開)

モデルをビジネスの現場に展開(デプロイ)します。

Built Data Productは元々「製品への展開」を意味していたかもしれませんが、ここでは「ビジネス現場への展開」と広く捉えています。
Built Data Product(展開)の後に、「モニタリング」「再学習」というステップがあります。ここでは、Built Data Product(展開)に含まれていると解釈します。
タイトルとURLをコピーしました