全般

全般

データサイエンティスト検定

データサイエンティスト検定とは「データサイエンティスト検定 リテラシーレベル」は、一般社団法人データサイエンティスト協会が主催している検定です。2021年9月に、第1回試験が開催されました。データサイエンティスト協会では、データサイエンティ...
全般

半構造化データ(XML/JSON)

半構造化データとは半構造化データ(Semi-structured Data)とは、名前の通り構造化データと非構造化データの中間的な性質を持つデータです。そのままではRDBで扱うことができないため、一般的には半構造化データは非構造化データの一...
全般

プログラミングにおける変数

変数とは数学(代数学)において、変数(variable)とは数字を文字で代用したものです。文字には様々な数字を入れることができるため、「変化する数」という意味でそう呼ばれています。ちなみに、ある変数とある変数の関係を表すものを関数(func...
全般

Irisデータセット

IrisデータセットとはIrisデータセットは、データサイエンスの世界でもっとも有名なデータセットのひとつです。統計学に多大な功績を残したロナルド・エイルマー・フィッシャー(Ronald Aylmer Fisher)が論文で使用したデータセ...
全般

データの種類(良いデータの条件)

データの種類様々な観点から、データを種類分けすることができます。ここでは、構造化データと非構造化データ、時系列データと非時系列データ、実験データと観察データ、ビッグデータとスモールデータについて投稿した記事をまとめています。構造化データと非...
全般

ワイドデータとロングデータ

ワイドデータとロングデータワイドデータ(wide data)とロングデータ(long data)ワイド型(式)とロング型(式)という場合もあります。またロングを、「狭い」という意味でナロー(narrow)と表現する場合もあります。は、データ...
全般

ビッグデータとスモールデータ

ビッグデータとはビッグデータ(Big Data)とは何でしょうか?この回答は、構造化データと非構造化データ、時系列データと非時系列データ、あるいは実験データと観察データについて語るより、ずっと困難です。ビッグデータというのは、一種のバズワー...
全般

実験データと観察データ

実験データとは次のように実験計画に基づき取得されたデータのことをいいます。本例は、JMPのサンプルデータCustom RSM.jmpより。X1X2X3Y-1-1-157.4200055.070-1057.65-10058.411-172.8...
全般

時系列データと非時系列データ

時系列データとは時系列データ(Time Series Data)とは、下表のtime列のように、時系列に関する情報が含まれたデータのことをいいます。本例は、Rのvarsパッケージに含まれるCanadaデータセットより。時系列データには、本例...
全般

構造化データと非構造化データ

構造化データとは構造化データ(Structured Data)とは、次のような表形式で初めから与えられているデータのことをいいます。本例は、Rにプリセットされているirisデータセットより。Sepal.Length、Sepal.Width、...