時系列予測について話す

以下の内容は、元関データボスの技術記事を読んだ要約の一部です。元のテキストを確認してください。時系列予測について話す-バイト記事-Zhihu zhuanlan.zhihu.com/p/486343380

1.効果テスト

  • 数値ディメンションに依存しないメトリック:

    • SMPAE(対称MAPE):

      • S M A P E = 1 n t = 1 n F t A t ( A t + F t ) / 2 SMAPE = \ frac {1} {n} \ sum_ {t = 1} ^ {n} \ frac {| F_t-A_t |} {(A_t + F_t)/ 2}

      • パーセント表現でのMAE

      • 上限(200%)下限(0%)がある

    • WMAPE(加重MAPE):

      • W M A P E = t = 1 n A t F t t 1 n A t WMAPE = \ frac {\ sum_ {t = 1} ^ {n} | A_t-F_t |} {\ sum_ {t-1} ^ n | A_t |}

      • さまざまな桁の誤差を同等に評価します

      • MAPEのゼロ除算を解く

2.モデル分類

2.1従来の方法

  • MA(移動平均。過去n時点の観測値の平均を次の時点の予測として使用します):

    • 利点:高速で、ベースラインとして適切に機能します。
    • 短所:複数のステップを実行できず、ラグの問題があります。
  • ARIMA(自己回帰移動平均):

    • 長所:MAおよびARフィットよりも強力
    • 短所:パラメータ検索、実行時間が長い、各シーケンスを個別に予測する必要があります。
  • 預言者(順次分解加法モデル):

    • 利点:非線形トレンドは季節外部変数に利点がなく、確率を出力できます。
    • 短所:単一シーケンスの予測、大規模な面倒。
  • その他:OrbitとNeuralProphet、あまり良くありません。

  • 欠点:

    • エンドツーエンドの最適化ではなく、タイミング自体にいくつかの性質の要件があります。
    • 単一のシーケンス予測しか実行できず、パフォーマンスのオーバーヘッドが高くなります。
    • 自己回帰、共変量を導入することはできません。
    • マルチステップ予測は機能しません。

2.2MLメソッド

  • モデリング

    • 時系列変換テーブルの問題

  • 特徴工学

    • 新しい機能はさまざまな機能タイプに従って構築されるため、前処理部分についてはここでは説明しません。

    • 自動時系列特徴エンジニアリングツール-tsfresh(他のドキュメントによると、完全自動化は十分にインテリジェントではなく、多くの機能を生成し、メモリをバーストする可能性があります)

    • 他の時系列機能メソッドの概要:zhuanlan.zhihu.com/p/67832773

  • モデル

    • GBDT:

      • lightGBM、fastai(OptunaまたはFLAMLは自動パラメーター調整に使用できます)
      • ビジネス機能の表現はNNよりも優れています
    • NN:

      • カテゴリ変数式の学習には、より適切な埋め込みがあります
      • 柔軟な損失設計
      • 多目的学習は、ツリーモデルよりも便利です。

2.3DL方式

  • RNN(RNN、LSTM、GRU)
  • Seq2Seq(RNN結合形式)

- 以RNN组件作为基本单元,encoder中做训练窗口的信息提取,decoder中做预测的多部输出。
- 评估:效果一般,计算开销大,稳定性不行,误差分析和模型解释难做。
复制代码
  • WaveNet(Atrous Causal Convolution)

-   比RNN好并行,使用一维CNN做序列预测,还加入residual connection和skip connection和一系列复杂的门机制。
-   评估:没RNN好用
复制代码
  • LSTNet

-   评估:不如特征工程+fastai
复制代码
  • DeepAR

-   Seq2Seq形式,但是能输出概率分布。
-   评估:难以稳定收敛,精度波动大,效果比不过GBDT。
复制代码
  • Nビート

-   单变量预测,有一定的季节和趋势解释性。
-   评估:效果一般,不好加额外的特征变量。
复制代码
  • TFT

-   能和树模型叫板的DL模型,跟树模型有一定近似性,有特征变量选择网络。
-   评估:有点意思,由于其拟树形式的原理,效果稳定不少,但计算开销还是比较大。
复制代码
  • まとめ

    • 現在のところ、GBDTの効果は大規模なDLよりも優れています。
    • DLの長所には、事前トレーニング、転移学習、表現学習が含まれ、生成モデルを時系列フィールドで使用することは困難です。

2.4タイミングAutoML

  • ライブラリ:

    • Auto_TS
  • 主流の方法:

    • 特徴工学+GBDT
    • TFT構造化時間データセットインターフェイスは、自動特徴エンジニアリングに適しています。

\

おすすめ

転載: juejin.im/post/7078582980091838501