データサイエンス全般 Irisデータセット Irisデータセットとは Irisデータセットは、データサイエンスの世界でもっとも有名なデータセットのひとつです。 統計学に多大な功績を残したロナルド・エイルマー・フィッシャー(Ronald Aylmer Fisher)が論文で... 2021.05.21 データサイエンス全般
データサイエンス全般 データの種類(良いデータの条件) データの種類 様々な観点から、データを種類分けすることができます。 ここでは、構造化データと非構造化データ、時系列データと非時系列データ、実験データと観察データ、ビッグデータとスモールデータについて投稿した記事をまとめています。... 2021.05.15 データサイエンス全般
データサイエンス全般 ワイドデータとロングデータ ワイドデータとロングデータ ワイドデータ(wide data)とロングデータ(long data)ワイド型(式)とロング型(式)という場合もあります。またロングを、「狭い」という意味でナロー(narrow)と表現する場合もあります。は... 2021.05.09 データサイエンス全般
データサイエンス全般 ビッグデータとスモールデータ ビッグデータとは ビッグデータ(Big Data)とは何でしょうか? この回答は、構造化データと非構造化データ、時系列データと非時系列データ、あるいは実験データと観察データについて語るより、ずっと困難です。 ビッグデータと... 2021.05.08 データサイエンス全般
データサイエンス全般 実験データと観察データ 実験データとは 次のように実験計画に基づき取得されたデータのことをいいます。本例は、JMPのサンプルデータCustom RSM.jmpより。 X1 X2 X3 Y -1 -1 -1 57.42 ... 2021.05.03 データサイエンス全般
データサイエンス全般 時系列データと非時系列データ 時系列データとは 時系列データ(Time Series Data)とは、下表のtime列のように、時系列に関する情報が含まれたデータのことをいいます。本例は、Rのvarsパッケージに含まれるCanadaデータセットより。 時系列... 2021.05.02 データサイエンス全般
データサイエンス全般 構造化データと非構造化データ 構造化データとは 構造化データ(Structured Data)とは、次のような表形式で初めから与えられているデータのことをいいます。本例は、Rにプリセットされているirisデータセットより。 Sepal.Length、Sepa... 2021.05.01 データサイエンス全般
データサイエンス全般 データサイエンスのプロセス CRISP-DM データサイエンスのプロセス(ワークフロー)としてとりわけ有名なものに、CRISP-DMがあります。 CRISP-DMは"CRoss-Industry Standard Process for Data Mining"の略... 2021.04.23 データサイエンス全般
データサイエンス全般 CRISP-DM CRISP-DMとは CRISP-DMは"CRoss-Industry Standard Process for Data Mining"の略で、直訳すると「データマイニングのための業界横断型標準プロセス」です。 データマイニングはデータ... 2021.04.22 データサイエンス全般
データサイエンス全般 「分析」と「解析」の違い? 「分析」と「解析」の違いを、このように説明する向きがあるようです。 「分析」とは、構成要素を明らかにし、問題点を絞り込むこと。 「解析」とは、その問題点をさらに細かく調べ、真の原因を追究すること。 つまり「分析」してから、「解... 2021.03.21 データサイエンス全般