全般 実験データと観察データ 実験データとは次のように実験計画に基づき取得されたデータのことをいいます。本例は、JMPのサンプルデータCustom RSM.jmpより。X1X2X3Y-1-1-157.4200055.070-1057.65-10058.411-172.8... 2021.05.03 全般
全般 時系列データと非時系列データ 時系列データとは時系列データ(Time Series Data)とは、下表のtime列のように、時系列に関する情報が含まれたデータのことをいいます。本例は、Rのvarsパッケージに含まれるCanadaデータセットより。時系列データには、本例... 2021.05.02 全般
全般 構造化データと非構造化データ 構造化データとは構造化データ(Structured Data)とは、次のような表形式で初めから与えられているデータのことをいいます。本例は、Rにプリセットされているirisデータセットより。Sepal.Length、Sepal.Width、... 2021.05.01 全般
全般 データサイエンスのプロセス CRISP-DMデータサイエンスのプロセス(ワークフロー)としてとりわけ有名なものに、CRISP-DMがあります。CRISP-DMは"CRoss-Industry Standard Process for Data Mining"の略で、直... 2021.04.23 全般
全般 CRISP-DM CRISP-DMとはCRISP-DMは"CRoss-Industry Standard Process for Data Mining"の略で、直訳すると「データマイニングのための業界横断型標準プロセス」です。データマイニングはデータサイエ... 2021.04.22 全般
全般 「分析」と「解析」の違い? 「分析」と「解析」の違いを、このように説明する向きがあるようです。「分析」とは、構成要素を明らかにし、問題点を絞り込むこと。「解析」とは、その問題点をさらに細かく調べ、真の原因を追究すること。つまり「分析」してから、「解析」するという流れが... 2021.03.21 全般
全般 データサイエンスのツール データサイエンスのツールとは「データサイエンスのツール」といった場合、大きくはデータ管理に関するツール、データ分析に関するツール、そしてアプリケーション開発に関するツールに分けることができますここではツールという言葉を、ソフトウェアおよび言... 2021.03.14 全般
Python・R R と Python R と Pythonの比較データ分析のツールとして代表的な存在である、R と Python を比較します。どちらも、無償のオープンソースプログラミング言語である点は共通しています。R が統計解析用のプログラミング言語としてはじめから開発され... 2021.03.07 Python・R
全般 統計解析と機械学習 本サイトでは様々なテーマを、「統計解析と機械学習の違い」という切り口で説明しています。しかし何が統計解析であり、何が機械学習であるというのは、じつのところ明確な答えのあるものではありません。あくまで「本サイトではこのように考えている」という... 2021.02.26 全般
全般 データサイエンティスト データサイエンティストとはハーバード・ビジネス・レビューの2012年10月号において、「データサイエンティスト:21世紀でもっとも魅力的な職業(Data Scientist: The Sexiest Job of the 21st Cent... 2021.02.11 全般