データの種類
様々な観点から、データを種類分けすることができます。
ここでは、構造化データと非構造化データ、時系列データと非時系列データ、実験データと観察データ、ビッグデータとスモールデータについて投稿した記事をまとめています。
構造化データと非構造化データ
データを種類分けする方法のひとつに、構造化データと非構造化データがあります。
構造化データの代表例が、RDB(Relational Database)です。RDBはSQLを用いて問い合わせ(クエリ)を行いますが、SQLは”Structured Query Language”の略で、そのまま「構造化問い合わせ言語」です。
非構造化データとは、文字通り「構造化されていないデータ」です。非構造化データの代表的なものとして、画像データ、音声データ、自然言語データ(テキストデータ)があります。
構造化データと非構造化データについて詳しくは、下の記事をご参照ください。
半構造化データ
半構造化データとは、名前の通り構造化データと非構造化データの中間的な性質を持つデータです。
そのままではRDBで扱うことができないため、一般的には半構造化データは非構造化データの一種とみなされます。
ある程度の構造を有しているため、適切に情報を補うことができれば、半構造化データを構造化データに変換することも可能です。
半構造化データについて詳しくは、下の記事をご参照ください。
時系列データと非時系列データ
時系列データは、非構造化データに分類される場合もあります。しかしRDBとして扱うことが不可能ではないという点において、構造化データの一種とみなすことも可能です。
時系列データは、(半構造化データとは違う意味で)構造化データと非構造化データの中間に位置するものといえます。
時系列データと非時系列データについて詳しくは、下の記事をご参照ください。
実験データと観察データ
実験データは、実験計画に基づき取得されたデータです。
実験計画に基づき取得されたデータには、因子間の相関が小さいという特徴があります。
観察データとは、実験データのように積極的に何かの因子を操作する(介入を行う)のではなく、自然の流れの中にあるものを観察したデータです。
実験データと観察データについて詳しくは、下の記事をご参照ください。
ビッグデータとスモールデータ
ビッグデータについて語ることは、構造化データと非構造化データ、時系列データと非時系列データ、あるいは実験データと観察データについて語るより、ずっと困難です。
ビッグデータというのは、一種のバズワードです。ビッグデータについての直截的な回答を避け、スモールデータとの対比において、どのような傾向的特徴があるかを見ていきます。
ビッグデータとスモールデータについて詳しくは、下の記事をご参照ください。
ワイドデータとロングデータ
ワイドデータ(wide data)とロングデータ(long data)は、データのまとめ方についての用語です。
ワイドデータは横幅(列方向)が大きくなるようにまとめられたデータ、ロングデータは縦の高さ(行方向)が大きくなるようにまとめられたデータです。
ワイドかロングかは相対的なものです。従って、ワイドからロングに変換する、あるいはロングからワイドに変換するといったように、変換を伴う場合によく用いられます。
ワイドデータとロングデータについて詳しくは、下の記事をご参照ください。
良いデータの条件とは
データ分析における有名な格言として、“Garbage in, garbage out”という言葉があります。
「ゴミのようなデータを入力とすれば、ゴミのような出力しか得られない」という意味です。どれだけ高度なアルゴリズムを駆使したとしても、それは変わりません。
ではゴミのようなデータを掴まないために、どのようなことに気を付ければよいでしょうか?
まず課題をはっきりさせた上で、アウトプットイメージを持ち、仮説に基づき取得あるいは選別されたデータであることです。
「とりあえずデータがあるから、何かに使えないか」と持ち込まれたデータであっても、同じ手続きを踏んだ上で、使えるデータかどうかを判断します。
次にデータが、ターゲットの母集団から偏りなく標本抽出(サンプリング)されていることです。単にデータ容量が大きくても、それが満たされていなければ誤った結論を得る可能性が高いです。
正しく標本抽出がされた前提で、観測値の数は大きければ大きいほど望ましいです。観測値の数が大きくなるほど、標本(観測値の集合)の特性は、母集団の特性に近づく傾向にあるためです