データサイエンス全般

データの種類(良いデータの条件)

データの種類

様々な観点から、データを種類分けすることができます。

ここでは、構造化データと非構造化データ、時系列データと非時系列データ、実験データと観察データ、ビッグデータとスモールデータについて投稿した記事をまとめています。

構造化データと非構造化データ

データを種類分けする方法のひとつに、構造化データと非構造化データがあります。

構造化データの代表例が、RDB(Relational Database)です。RDBはSQLを用いて問い合わせ(クエリ)を行いますが、SQLは”Structured Query Language”の略で、そのまま「構造化問い合わせ言語」です。

非構造化データとは、文字通り「構造化されていないデータ」です。非構造化データの代表的なものとして、画像データ、音声データ、自然言語データ(テキストデータ)があります。

構造化データと非構造化データについて詳しくは、下の記事をご参照ください。

構造化データと非構造化データ
構造化データとは 構造化データ(Structured Data)とは、次のような表形式で初めから与えられているデータのことをいいます。本例は、Rにプリセットされているirisデータセットより。 Sepal.Length、Sepa...

半構造化データ

半構造化データとは、名前の通り構造化データと非構造化データの中間的な性質を持つデータです。

そのままではRDBで扱うことができないため、一般的には半構造化データは非構造化データの一種とみなされます。

ある程度の構造を有しているため、適切に情報を補うことができれば、半構造化データを構造化データに変換することも可能です。

半構造化データについて詳しくは、下の記事をご参照ください。

半構造化データ(XML/JSON)
半構造化データとは 半構造化データ(Semi-structured Data)とは、名前の通り構造化データと非構造化データの中間的な性質を持つデータです。 そのままではRDBで扱うことができないため、一般的には半構造化デ...

時系列データと非時系列データ

時系列データは、非構造化データに分類される場合もあります。しかしRDBとして扱うことが不可能ではないという点において、構造化データの一種とみなすことも可能です。

時系列データは、(半構造化データとは違う意味で)構造化データと非構造化データの中間に位置するものといえます。

時系列データと非時系列データについて詳しくは、下の記事をご参照ください。

時系列データと非時系列データ
時系列データとは 時系列データ(Time Series Data)とは、下表のtime列のように、時系列に関する情報が含まれたデータのことをいいます。本例は、Rのvarsパッケージに含まれるCanadaデータセットより。 時系列...

実験データと観察データ

実験データは、実験計画に基づき取得されたデータです。

実験計画に基づき取得されたデータには、因子間の相関が小さいという特徴があります。

観察データとは、実験データのように積極的に何かの因子を操作する(介入を行う)のではなく、自然の流れの中にあるものを観察したデータです。

実験データと観察データについて詳しくは、下の記事をご参照ください。

実験データと観察データ
実験データとは 次のように実験計画に基づき取得されたデータのことをいいます。本例は、JMPのサンプルデータCustom RSM.jmpより。 X1 X2 X3 Y -1 -1 -1 57.42 ...

ビッグデータとスモールデータ

ビッグデータについて語ることは、構造化データと非構造化データ、時系列データと非時系列データ、あるいは実験データと観察データについて語るより、ずっと困難です。

ビッグデータというのは、一種のバズワードです。ビッグデータについての直截的な回答を避け、スモールデータとの対比において、どのような傾向的特徴があるかを見ていきます。

ビッグデータとスモールデータについて詳しくは、下の記事をご参照ください。

ビッグデータとスモールデータ
ビッグデータとは ビッグデータ(Big Data)とは何でしょうか? この回答は、構造化データと非構造化データ、時系列データと非時系列データ、あるいは実験データと観察データについて語るより、ずっと困難です。 ビッグデータと...

ワイドデータとロングデータ

ワイドデータ(wide data)とロングデータ(long data)は、データのまとめ方についての用語です。

ワイドデータは横幅(列方向)が大きくなるようにまとめられたデータ、ロングデータは縦の高さ(行方向)が大きくなるようにまとめられたデータです。

ワイドかロングかは相対的なものです。従って、ワイドからロングに変換する、あるいはロングからワイドに変換するといったように、変換を伴う場合によく用いられます。

ワイドデータとロングデータについて詳しくは、下の記事をご参照ください。

ワイドデータとロングデータ
ワイドデータとロングデータ ワイドデータ(wide data)とロングデータ(long data)ワイド型(式)とロング型(式)という場合もあります。またロングを、「狭い」という意味でナロー(narrow)と表現する場合もあります。は...

良いデータの条件とは

データ分析における有名な格言として、“Garbage in, garbage out”という言葉があります。

「ゴミのようなデータを入力とすれば、ゴミのような出力しか得られない」という意味です。どれだけ高度なアルゴリズムを駆使したとしても、それは変わりません。

ではゴミのようなデータを掴まないために、どのようなことに気を付ければよいでしょうか?

まず課題をはっきりさせた上で、アウトプットイメージを持ち、仮説に基づき取得あるいは選別されたデータであることです。

「とりあえずデータがあるから、何かに使えないか」と持ち込まれたデータであっても、同じ手続きを踏んだ上で、使えるデータかどうかを判断します。

次にデータが、ターゲットの母集団から偏りなく標本抽出(サンプリング)されていることです。単にデータ容量が大きくても、それが満たされていなければ誤った結論を得る可能性が高いです。

正しく標本抽出がされた前提で、観測値の数は大きければ大きいほど望ましいです。観測値の数が大きくなるほど、標本(観測値の集合)の特性は、母集団の特性に近づく傾向にあるためです

タイトルとURLをコピーしました