データサイエンス全般

時系列データと非時系列データ

時系列データとは

時系列データ(Time Series Data)とは、下表のtime列のように、時系列に関する情報が含まれたデータのことをいいます。[1]本例は、Rのvarsパッケージに含まれるCanadaデータセットより。

時系列データには、本例のように四半期や年の単位で取得されるものもあれば、センサーデータのようにミリ秒の単位で取得されるものもあります。前者は計量経済や社会統計の分野で、後者は製造業を中心とする品質管理の分野でよく見られるデータです。

e prod rw U time
929.6105 405.3665 386.1361 7.53 1980/1/1
929.804 404.6398 388.1358 7.7 1980/4/1
930.3184 403.8149 390.5401 7.47 1980/7/1
931.4277 404.2158 393.9638 7.27 1980/10/1
932.662 405.0467 396.7647 7.37 1981/1/1
933.5509 404.4167 400.0217 7.13 1981/4/1
958.7166 415.1678 467.6281 7.53 1999/7/1
959.4881 415.7016 467.7026 6.93 1999/10/1
960.3625 416.8674 469.1348 6.8 2000/1/1
960.7834 417.6104 469.3364 6.7 2000/4/1
961.029 418.003 470.0117 6.93 2000/7/1
961.7657 417.2667 469.6472 6.87 2000/10/1

時系列データは、非構造化データに分類される場合もあります。しかしRDB(Relational Database)として扱うことが不可能ではないという点において、構造化データの一種とみなすこともできるかもしれません。

時系列データは、(半構造化データとは違う意味で)構造化データと非構造化データの中間に位置するものといえます。

構造化データと非構造化データ
構造化データとは 構造化データ(Structured Data)とは、次のような表形式で初めから与えられているデータのことをいいます。本例は、Rにプリセットされているirisデータセットより。 Sepal.Length、Sepa...

時系列データには、自分自身(変数自身)の過去のデータと相関を持つ、自己相関と呼ばれる性質を持つ場合があります。

また時系列性をまったく無視して、2つの変数(目的変数と説明変数)に対して線形回帰モデルをあてはめると、本来ないはずの線形関係があるように見える、見せかけの回帰と呼ばれる現象が発生する可能性があります。[2]よく似た言葉に「疑似相関」がありますが、「見せかけの回帰」と「疑似相関」は異なる概念です。

時系列データを正しく取り扱うためには、時系列分析(時系列解析)の知識が必要不可欠です。

結果を重視する機械学習のアプローチにおいては、時系列性を考慮したバリデーション(検証)により、モデルを評価します。予測する時点では取得できないはずの変数を使ってモデルを作成してしまう、リーケージと呼ばれる問題にも気を配る必要があります。

いずれにしても、単純に構造化データと同じ扱いをすることのできない、構造化データとは似て非なるものが時系列データです。

非時系列データとは

「非時系列データ」という言葉自体は、あまり一般的ではないかもしれません。

時系列データと対比してよく語られる言葉に、クロスセクションデータがあります。

「クロスセクションデータ」という言葉には、ある時刻で固定し、部門を横断(クロスセクション)して多変数の関係を見る、というニュアンスがあります。またこの視点における分析を、クロスセクション分析といいます。マーケティングや計量経済、社会統計の分野で用いられることの多い言葉ではないでしょうか。

このときセンサーデータのようなものはそもそも考えていないのと、時系列データのまま多変数の関係を見るということもよくありますので、「クロスセクションデータ」を時系列データの対義語と置くのは、(分野を限定しない)データサイエンスにおいては、あまり適切ではないかもしれません。

データの種類(良いデータの条件)
データの種類 様々な観点から、データを種類分けすることができます。 ここでは、構造化データと非構造化データ、時系列データと非時系列データ、実験データと観察データ、ビッグデータとスモールデータについて投稿した記事をまとめています。...

脚注

脚注
1 本例は、Rのvarsパッケージに含まれるCanadaデータセットより。
2 よく似た言葉に「疑似相関」がありますが、「見せかけの回帰」と「疑似相関」は異なる概念です。
タイトルとURLをコピーしました