時系列データとは
時系列データ(Time Series Data)とは、下表のtime列のように、時系列に関する情報が含まれたデータのことをいいます。[1]本例は、Rのvarsパッケージに含まれるCanadaデータセットより。
時系列データには、本例のように四半期や年の単位で取得されるものもあれば、センサーデータのようにミリ秒の単位で取得されるものもあります。前者は計量経済や社会統計の分野で、後者は製造業を中心とする品質管理の分野でよく見られるデータです。
e | prod | rw | U | time |
---|---|---|---|---|
929.6105 | 405.3665 | 386.1361 | 7.53 | 1980/1/1 |
929.804 | 404.6398 | 388.1358 | 7.7 | 1980/4/1 |
930.3184 | 403.8149 | 390.5401 | 7.47 | 1980/7/1 |
931.4277 | 404.2158 | 393.9638 | 7.27 | 1980/10/1 |
932.662 | 405.0467 | 396.7647 | 7.37 | 1981/1/1 |
933.5509 | 404.4167 | 400.0217 | 7.13 | 1981/4/1 |
958.7166 | 415.1678 | 467.6281 | 7.53 | 1999/7/1 |
959.4881 | 415.7016 | 467.7026 | 6.93 | 1999/10/1 |
960.3625 | 416.8674 | 469.1348 | 6.8 | 2000/1/1 |
960.7834 | 417.6104 | 469.3364 | 6.7 | 2000/4/1 |
961.029 | 418.003 | 470.0117 | 6.93 | 2000/7/1 |
961.7657 | 417.2667 | 469.6472 | 6.87 | 2000/10/1 |
時系列データは、非構造化データに分類される場合もあります。しかしRDB(Relational Database)として扱うことが不可能ではないという点において、構造化データの一種とみなすこともできるかもしれません。
時系列データは、(半構造化データとは違う意味で)構造化データと非構造化データの中間に位置するものといえます。
時系列データには、自分自身(変数自身)の過去のデータと相関を持つ、自己相関と呼ばれる性質を持つ場合があります。
また時系列性をまったく無視して、2つの変数(目的変数と説明変数)に対して線形回帰モデルをあてはめると、本来ないはずの線形関係があるように見える、見せかけの回帰と呼ばれる現象が発生する可能性があります。[2]よく似た言葉に「疑似相関」がありますが、「見せかけの回帰」と「疑似相関」は異なる概念です。
時系列データを正しく取り扱うためには、時系列分析(時系列解析)の知識が必要不可欠です。
結果を重視する機械学習のアプローチにおいては、時系列性を考慮したバリデーション(検証)により、モデルを評価します。予測する時点では取得できないはずの変数を使ってモデルを作成してしまう、リーケージと呼ばれる問題にも気を配る必要があります。
いずれにしても、単純に構造化データと同じ扱いをすることのできない、構造化データとは似て非なるものが時系列データです。
非時系列データとは
「非時系列データ」という言葉自体は、あまり一般的ではないかもしれません。
時系列データと対比してよく語られる言葉に、クロスセクションデータがあります。
「クロスセクションデータ」という言葉には、ある時刻で固定し、部門を横断(クロスセクション)して多変数の関係を見る、というニュアンスがあります。またこの視点における分析を、クロスセクション分析といいます。マーケティングや計量経済、社会統計の分野で用いられることの多い言葉ではないでしょうか。
このときセンサーデータのようなものはそもそも考えていないのと、時系列データのまま多変数の関係を見るということもよくありますので、「クロスセクションデータ」を時系列データの対義語と置くのは、(分野を限定しない)データサイエンスにおいては、あまり適切ではないかもしれません。