時系列データと非時系列データ

時系列データとは
非時系列データとは

時系列データとは

時系列データ（Time Series Data）とは、下表のtime列のように、時系列に関する情報が含まれたデータのことをいいます。^[1]本例は、Rのvarsパッケージに含まれるCanadaデータセットより。

時系列データには、本例のように四半期や年の単位で取得されるものもあれば、センサーデータのようにミリ秒の単位で取得されるものもあります。前者は計量経済や社会統計の分野で、後者は製造業を中心とする品質管理の分野でよく見られるデータです。

e	prod	rw	U	time
929.6105	405.3665	386.1361	7.53	1980/1/1
929.804	404.6398	388.1358	7.7	1980/4/1
930.3184	403.8149	390.5401	7.47	1980/7/1
931.4277	404.2158	393.9638	7.27	1980/10/1
932.662	405.0467	396.7647	7.37	1981/1/1
933.5509	404.4167	400.0217	7.13	1981/4/1


958.7166	415.1678	467.6281	7.53	1999/7/1
959.4881	415.7016	467.7026	6.93	1999/10/1
960.3625	416.8674	469.1348	6.8	2000/1/1
960.7834	417.6104	469.3364	6.7	2000/4/1
961.029	418.003	470.0117	6.93	2000/7/1
961.7657	417.2667	469.6472	6.87	2000/10/1

時系列データは、非構造化データに分類される場合もあります。しかしRDB（Relational Database）として扱うことが不可能ではないという点において、構造化データの一種とみなすこともできるかもしれません。

時系列データは、（半構造化データとは違う意味で）構造化データと非構造化データの中間に位置するものといえます。

構造化データと非構造化データ

構造化データとは構造化データ（Structured Data）とは、次のような表形式で初めから与えられているデータのことをいいます。本例は、Rにプリセットされているirisデータセットより。Sepal.Length、Sepal.Width、...

時系列データには、自分自身（変数自身）の過去のデータと相関を持つ、自己相関と呼ばれる性質を持つ場合があります。

また時系列性をまったく無視して、2つの変数（目的変数と説明変数）に対して線形回帰モデルをあてはめると、本来ないはずの線形関係があるように見える、見せかけの回帰と呼ばれる現象が発生する可能性があります。^[2]よく似た言葉に「疑似相関」がありますが、「見せかけの回帰」と「疑似相関」は異なる概念です。

時系列データを正しく取り扱うためには、時系列分析（時系列解析）の知識が必要不可欠です。

結果を重視する機械学習のアプローチにおいては、時系列性を考慮したバリデーション（検証）により、モデルを評価します。予測する時点では取得できないはずの変数を使ってモデルを作成してしまう、リーケージと呼ばれる問題にも気を配る必要があります。

いずれにしても、単純に構造化データと同じ扱いをすることのできない、構造化データとは似て非なるものが時系列データです。

非時系列データとは

「非時系列データ」という言葉自体は、あまり一般的ではないかもしれません。

時系列データと対比してよく語られる言葉に、クロスセクションデータがあります。

「クロスセクションデータ」という言葉には、ある時刻で固定し、部門を横断（クロスセクション）して多変数の関係を見る、というニュアンスがあります。またこの視点における分析を、クロスセクション分析といいます。マーケティングや計量経済、社会統計の分野で用いられることの多い言葉ではないでしょうか。

このときセンサーデータのようなものはそもそも考えていないのと、時系列データのまま多変数の関係を見るということもよくありますので、「クロスセクションデータ」を時系列データの対義語と置くのは、（分野を限定しない）データサイエンスにおいては、あまり適切ではないかもしれません。

データの種類（良いデータの条件）

データの種類様々な観点から、データを種類分けすることができます。ここでは、構造化データと非構造化データ、時系列データと非時系列データ、実験データと観察データ、ビッグデータとスモールデータについて投稿した記事をまとめています。構造化データと非...

脚注[+]

脚注
1	本例は、Rのvarsパッケージに含まれるCanadaデータセットより。
2	よく似た言葉に「疑似相関」がありますが、「見せかけの回帰」と「疑似相関」は異なる概念です。