GoogleResearchは、時系列予測を目的とした200MパラメータのTransformerベースの基礎モデルである、TimesFMを発表した。TimesFMは約100Bのデータポイントで学習され、教師あり学習モデルと同等以上のゼロショット予測性能を持つ。
TimesFMは、ChatGPTのような大規模言語モデル(LLM)に似たデコーダのみの変換器アーキテクチャを使用している。この方式では、時系列データの短いパッチが、モデルの入力と出力の両方でトークンとしてモデル化される。研究チームは、WikipediaやGoogleやGoogleデータと、合成データでモデルを事前訓練した。研究チームがいくつかの予測ベンチマークでモデルのゼロショット性能を評価したところ、TimesFMはARIMAやEMAのような従来の統計的手法や、ベンチマークのトレーニングデータセットでトレーニングされたディープラーニングモデルを上回った。Googleによると、以下のように述べられている。
最新の大規模言語モデルと比較すると、TimesFMははるかに小さいでしょう...しかし、我々は、そのような規模であっても、異なるドメインと時間粒度の様々な未見のデータセットに対するゼロショットのパフォーマンスが、これらのデータセットで明示的に訓練された最先端の教師ありアプローチに迫ることを示しています。
時系列予測は、小売販売、気象学、エネルギー生産を含む多くのドメインにとって重要なツールである。最近のディープラーニングの進歩により、DeepARのような、従来の手法を凌駕するモデルが登場している。しかし、これらは通常、タスク固有のデータセットでモデルを学習する必要がある。LLMは現在、基礎モデルとして使用されており、時系列予測を含む「ゼロショット」設定で多くのタスクを実行できることから、Googleの研究者たちは、ほとんどのLLMの基礎となっているTransformerアーキテクチャを使用してTimesFMを開発することを思いついた。
TimesFMニューラル・アーキテクチャ(出典: Google Research)
Transformerは離散的なトークンで動作するため、TimesFMモデルの最初のレイヤーは、入力データの短いシーケンス(パッチ)をトークンベクトルにマッピングする。LLMと同様に、このトークンベクトルに位置符号化ベクトルが加えられる。これがいくつかの自己注意層のスタックに渡され、出力トークンが生成される。最後に、出力トークンは時系列データパッチに変換される。しかし、出力パッチの長さは入力パッチの長さよりも長くできるため、モデルはより少ない自己回帰呼び出しでより長い出力シーケンスを予測できる。
Googleチームは、ゼロショット・モードのTimesFMをいくつかのパブリック・データセットで評価した。Monash、Darts、Informerである。チームは平均絶対誤差(MAE)を測定し、いくつかのベースラインモデルやGPT-3と比較した。Monashでは、TimesFMは「トップ3」に入った。Dartsでは「最良のモデルの統計的有意差以内」であり、Informerでは他のすべてのモデルを上回った。
Hacker Newsでのディスカッションでは、あるユーザーがGoogleがこのモデルをオープンにしていないことを嘆いていた。
素晴らしいモデルのように思える。試してみたいが、リリースはされていないらしい(まだ?)。最近の言語モデルは、新しいモデルや微調整について耳にしたら、何でもダウンロードして実行できるので、自分は本当に甘やかされている。ローカルで実行できない限り、そのモデルにあまり意味を感じないところまで来ている。ローカルで実行したい時系列データがたくさんあるので、このモデルのローカル版が利用可能になることを願うばかりだ!
Googleは、このモデルを同社のVertex AIプラットフォームで"今年後半に "利用できるようにする予定だと述べている。研究者たちはまた、将来的にはこのモデルについて「より理論的な理解を深めたい」と考えている。