以下の内容は、元関データボスの技術記事を読んだ要約の一部です。元のテキストを確認してください。時系列予測について話す-バイト記事-Zhihu zhuanlan.zhihu.com/p/486343380
1.効果テスト
-
数値ディメンションに依存しないメトリック:
-
SMPAE(対称MAPE):
-
-
パーセント表現でのMAE
-
上限(200%)下限(0%)がある
-
-
WMAPE(加重MAPE):
-
-
さまざまな桁の誤差を同等に評価します
-
MAPEのゼロ除算を解く
-
-
2.モデル分類
2.1従来の方法
-
MA(移動平均。過去n時点の観測値の平均を次の時点の予測として使用します):
- 利点:高速で、ベースラインとして適切に機能します。
- 短所:複数のステップを実行できず、ラグの問題があります。
-
ARIMA(自己回帰移動平均):
- 長所:MAおよびARフィットよりも強力
- 短所:パラメータ検索、実行時間が長い、各シーケンスを個別に予測する必要があります。
-
預言者(順次分解加法モデル):
- 利点:非線形トレンドは季節外部変数に利点がなく、確率を出力できます。
- 短所:単一シーケンスの予測、大規模な面倒。
-
その他:OrbitとNeuralProphet、あまり良くありません。
-
欠点:
- エンドツーエンドの最適化ではなく、タイミング自体にいくつかの性質の要件があります。
- 単一のシーケンス予測しか実行できず、パフォーマンスのオーバーヘッドが高くなります。
- 自己回帰、共変量を導入することはできません。
- マルチステップ予測は機能しません。
2.2MLメソッド
-
モデリング
- 時系列変換テーブルの問題
-
特徴工学
-
新しい機能はさまざまな機能タイプに従って構築されるため、前処理部分についてはここでは説明しません。
-
自動時系列特徴エンジニアリングツール-tsfresh(他のドキュメントによると、完全自動化は十分にインテリジェントではなく、多くの機能を生成し、メモリをバーストする可能性があります)
-
他の時系列機能メソッドの概要:zhuanlan.zhihu.com/p/67832773
-
-
モデル
-
GBDT:
- lightGBM、fastai(OptunaまたはFLAMLは自動パラメーター調整に使用できます)
- ビジネス機能の表現はNNよりも優れています
-
NN:
- カテゴリ変数式の学習には、より適切な埋め込みがあります
- 柔軟な損失設計
- 多目的学習は、ツリーモデルよりも便利です。
-
2.3DL方式
- RNN(RNN、LSTM、GRU)
- Seq2Seq(RNN結合形式)
- 以RNN组件作为基本单元,encoder中做训练窗口的信息提取,decoder中做预测的多部输出。
- 评估:效果一般,计算开销大,稳定性不行,误差分析和模型解释难做。
复制代码
- WaveNet(Atrous Causal Convolution)
- 比RNN好并行,使用一维CNN做序列预测,还加入residual connection和skip connection和一系列复杂的门机制。
- 评估:没RNN好用
复制代码
- LSTNet
- 评估:不如特征工程+fastai
复制代码
- DeepAR
- Seq2Seq形式,但是能输出概率分布。
- 评估:难以稳定收敛,精度波动大,效果比不过GBDT。
复制代码
- Nビート
- 单变量预测,有一定的季节和趋势解释性。
- 评估:效果一般,不好加额外的特征变量。
复制代码
- TFT
- 能和树模型叫板的DL模型,跟树模型有一定近似性,有特征变量选择网络。
- 评估:有点意思,由于其拟树形式的原理,效果稳定不少,但计算开销还是比较大。
复制代码
-
まとめ:
- 現在のところ、GBDTの効果は大規模なDLよりも優れています。
- DLの長所には、事前トレーニング、転移学習、表現学習が含まれ、生成モデルを時系列フィールドで使用することは困難です。
2.4タイミングAutoML
-
ライブラリ:
- Auto_TS
-
主流の方法:
- 特徴工学+GBDT
- TFT構造化時間データセットインターフェイスは、自動特徴エンジニアリングに適しています。
\