目次
8.5 ACF(自己相関関数)と偏自己相関関数 PACF(偏自己相関関数)
1 関連概念
時系列データを分析および予測するためのより完璧で正確なアルゴリズムはBox-Jenkins (Box-Jenkins) 法であり、その一般的に使用されるモデルには次のものが含まれます:自己回帰モデル (AR モデル)、移動平均モデル (MA モデル)、(自己回帰 - 移動)平均混合モデル) ARMA モデル、(微分積分移動平均自己回帰モデル) ARIMA モデル。
ARIMAモデル(英語: Auto regressive I Integrated Moving A verage model)とは、微分積分移動平均自己回帰モデル、統合移動平均自己回帰モデルとも呼ばれる(移動はスライディングとも呼ばれます)時系列予測分析手法 の 一つです。 一。ARIMA(p, d, q) では、AR は「自己回帰」、p は自己回帰項目の数、MA は「移動平均」、q は移動平均項目の数、d は作成される差分の数です。それは定常シーケンス (順序) です。ARIMA の英語名には「違い」という言葉は出てきませんが、これは重要なステップです。
1.1 定常性
- 定常性とは、サンプル時系列を通じて取得された近似曲線が将来の一定期間、既存の状態を「慣性的に」追跡し続けることができるという要件です。
- 定常性を実現するには、系列の平均と分散が大幅に変化しないことが必要です。
分散が大きいほどデータの変動が大きくなりますので、分散の計算式は次のようになります。
分散が 1 に等しい場合、標準偏差は 1 です。これは、対称軸の左右からの偏差が 1 である確率関数の位置導関数が 0 (変曲点) であることを意味します。期待値は 0 で、確率関数が y 軸に関して対称であることを示します。
定常性は厳密な定常性と弱い定常性に分けられます。
- 厳密に安定: 厳密と安定で表される分布は時間の経過とともに変化しません。たとえば、ホワイト ノイズ (正常)、どのように選択しても、期待値は 0、分散は 1 です。
- 弱い定常: 期待値と相関係数 (依存性) は変化せず、将来のある瞬間の t 値 Xt は過去の情報に依存するため、依存性が必要です。
では、取得したデータが大きく変動する場合、データを安定させる必要があります。データを安定させるにはどうすればよいでしょうか?
1.2 時系列の弱い定常性
自己回帰モデルを説明するには、時系列の弱い定常性について言及する必要があります。 弱い定常性を持つ時系列 (弱い定常性)は、以下を指します。
- すべてに対して 一定です。
- すべてに対して 一定です。
- と の共分散は すべての で 一定です。
また、時系列の自己相関関数(AutoCorrelation Function)とは 、次のように定義できるACFを指します。
時系列が 弱い定常性の仮定の下にある場合、ACF は次のように単純化されます。
1.3 差分法
1.3.1 コンセプト
差分方程式:差分方程式
係数が一定の n 次の均一線形差分方程式の解の構造: 係数が一定の n 次の均一線形差分方程式の解の構造 - 贾丁网
関数 f(x) が次のシーケンスで定義されていると仮定すると、対応する関数の値は次のようになります。
意味:
一次差分:独立変数が から までの とき 、関数の変化は次のようになります。
注: 差の独立変数は x であり、順序付けされて離散的であり、従属変数は対応する値ですが、これは必須ではありません。差異の背景は、独立変数を時間の関数として記述することであり、現実の多くの現象は時間とともに変化します。
独立変数が x から x+1 に変化するとき、関数 y=y(x) の 1 次差分の差は 2 次差分と呼ばれます。
1.3.2 差異の性質
1.3.3 差分方程式の概念
--定義1)
独立変数、未知の関数、および差分を含む方程式は差分方程式と呼ばれます。
差は方程式に含める必要があり、独立変数や関数を含めることはできません。
- 定義(2)
未知の関数のいくつかの周期の添字値を含む方程式は差分方程式と呼ばれます。
- 定義 (3)
関数が両辺が同一になるように差分方程式に代入される場合、その関数は方程式の解であると言われます。
例: 検証は 方程式 の解 です
解決策: 関数を次のように置き換えます。
方程式の両辺が等しいため、関数は方程式の解になります。
- 定義 (4)
差分方程式の解に定数 (変数など ) が含まれており、定数の数が方程式の次数と同じである場合、その方程式の一般解と呼ばれます。
1.4 問題の定義
問題の形式を単純化するために、単一の時系列のみを考慮します。長さ T の時系列は次のように記述できます。
時系列予測 (Time Series Forecasting) は、過去の観測データを使用して、将来のある時点 (セグメント) のデータを予測します。
統計的な観点から、変数の分布関数を理解すると、正規分布などのこの変数の特性を完全に説明できます。
前述の長さ T の数列のように、複数の変数がある場合は、結合分布関数が必要になります。当然のことながら、時系列内のすべての変数の同時分布関数があれば、任意の位置のデータの完全な統計的予測 (平均値、信頼区間など) を行うことができます。
もちろん、これはほとんど不可能であり、次のような困難があります。
- T は通常、大きな数になります (特に時系列が数年間のログである場合や、サンプリングされた音声である場合)。
- 実際のアプリケーションでは、特に帰納的設定 (限られたサンプルからの学習) では、厳密な仮定が行われない限り、同時分布関数を取得することは通常不可能です。
- たとえ共同分布関数を持っていたとしても、その後の計算は非常に不便になります。これは計算の複雑さだけの問題ではありません。時系列予測タスクでは T が拡張される可能性があり、この結合分布関数の使用がより困難になるためです。
OK、非常に多くの記述は、厳密な統計的記述を使用して完全な予測を行うことは明らかに非現実的であることを説明するためのものです。しかし明らかに、問題を単純化し、分布関数を記述および研究できる時系列を設計し、その後何らかの手段を使用してあらゆる時系列を研究およびモデル化できる便利な時系列に変換できるため、合理的な予測が可能になります。作る。
そして、この種の記述可能な単純な時系列は定常時系列であり、いわゆる手法のいくつかは差分法であり、最終的なモデルが今日の主人公 (S) ARIMAです。次回からは個別に紹介していきます。
2 自己回帰モデル (AR)
2.1 ARモデルの導入
時系列の自己回帰モデル - 線形代数の観点から:時系列の自己回帰モデル - 線形代数の観点から-
自己回帰モデル (略して AR モデル) は、最も一般的な定常時系列モデルの 1 つです。
図に示す単純な振り子システムを考えてみましょう。xt を t 回目のスイング中のスイング振幅とする。物理原理によれば、t回目のスイング振幅xtは、 前回のスイング振幅によって決まる、すなわち、 となる。空気振動の影響を考慮すると、次のように仮定することがよくあります。
その中には、ランダムな干渉も含まれます。
初期瞬間 x0=1 とし、実験のために a1 と σ の異なる値を取ります。実験結果を下図に示します。
パラメータ a1 がシーケンスの安定性に決定的な役割を果たし、ノイズの強度が シーケンスの変動の度合いを決定することがわかります。
2.2 AR(1)モデル
AR(1) モデルは、 タイム スタンプにおける 時系列 の値が タイム スタンプ の値 に関連していることを示しており 、その式は次のとおりです。
この時系列は 次の条件を満たします。
- 、 iid 条件(独立同一分布 (iid、独立同一分布)) を満たします。これは ガウス正規分布を意味し、その平均は 0、分散は です 。
- それぞれ独立しています。
- 弱く定常である、つまり を満たさなければなりません
上記の AR(1) の定義から始めて、次のことが得られます。
1 の証明 。AR(1) モデルから始めて、次のことが得られます。
それによって、
2 の証明 。AR(1) モデルから始めて、次のことが得られます。
3 の証明 。 Order の 定義から 始めて、次を得ることができます。
それによって、
2.3 AR(p)モデル
前述の同様の定義によれば、AR(1) モデルは AR(p) モデルに拡張できます。つまり、次のようになります。
1. AR(1) モデルは次のようになります。
2. AR(2) モデルは次のようになります。
3. AR(p) モデルの形式は次のとおりです。
AR(p) モデルの安定性 - 線形代数に基づく:
AR(2) モデルの場合、 誤差項は仮定して無視できるため、次のようにモデルの簡略化されたバージョンを取得できます。
行列として書くと次のようになります。
その特性多項式を解くことは、ieを得るために解くこと に基づいています 。 。すべてが単位円の内側にある場合 、つまりモデルは 安定性の条件 を満たします。
より一般的な AR(p) モデルの場合、つまり、p 次の差分方程式を考慮します。
同じ方法で行列形式に変換できます。
計算すると、その特性多項式は次のように取得できます。
各固有値が単位円盤内にある場合、つまり、 p 次の差分方程式の 安定した解が存在します。
3 移動平均モデルMA
移動平均モデルは形式的に自己回帰モデルといくつかの類似点があり、その予測モデルは前の項の残差に関連しています。
この場合、MA(q) モデルは次のようによりコンパクトに記述できます。
このモデルは、過去 q 期間のランダムな外乱または予測誤差を 使用して、現在の予測値を線形に表現していることがわかります。
この移動平均モデルは、時系列の移動平均演算とは何の関係もないことに注意してください。MA モデルはノイズの伝達をより明確に記述し、自己回帰の性質によりステップ q の前でノイズを切り捨てて伝播し続けます。
2 つのモデルを加算すると、 ARMA(p, q) = AR(p) + MA(q)モデル が得られます。これは通常、定常時系列を必要とするデータに適合します。
4 アルマ
自己回帰 移動平均モデル(英語: Auto regressive Moving a verage model、略称: ARMA モデル)。自己回帰モデル(ARモデルといいます)と移動平均モデル(MAモデルといいます)をベースにした「混合」から構成される時系列を研究するための重要な手法です。これは、パネル調査では消費者の行動パターンの変化に関する調査に使用され、小売調査では販売量と市場規模の予測に使用されるなど、市場調査における長期追跡データの調査でよく使用されます。季節変動特性など
4.1 基本原則
4.2 基本形
ARMA モデルには 3 つのタイプがあります。
(1)自己回帰モデル(AR:Auto-regressive)
(2)移動平均モデル(MA:Moving-Average)
(3)自己回帰移動平均モデル (ARMA)
5つの差分技術を統合
以前にも定常時系列について議論してきましたが、定常時系列は日常生活においては滅多に得られないデータであると想像できますが、一般的にデータには傾向(Trend)と季節性(Seasonality)があり、それを満たさないようにしてください。定常時系列の定義。しかし、差分演算により、通常は時系列を ARMA モデリング用の準定常時系列に変換できます。まずこの章でトレンドについて説明し、次に次の章で季節性について説明します。
2 つの一般的な傾向について説明します。
1 つ目は、線形トレンドや二次多項式トレンドなどの多項式タイプのトレンドです。
ここで、Z_t は定常時系列であり、右側の最初の項は k 次の多項式トレンドです。この傾向は差分を行うことで簡単に排除できます。差分演算子は次のように定義されます。
次に、単純な導出の後、差分演算子を複数回計算することで k 次の多項式トレンドを消去し、定数項のみを残すことができることがわかります (定数項の追加は Z_t の定常性に影響しません)。
2 つ目はランダム トレンドです。代表的な例はランダム ウォーク モデルです。次の例では M_t はランダム ウォーク モデルであり、差分演算を通じて時系列を定常時系列に変換します。
このように、前のレコードを使用して次のレコードに直接影響を与えるモデルは、統合モデルとして定義されます。
6 有馬
したがって、 自動回帰統合移動平均モデルのすべてのコンポーネントを説明しました。 後はそれらを 合計するだけです。ARIMA(p,d,q) モデルは次のように定義できます。
その中で、次のように定義します。
7旬の 有馬
もちろん、季節性も時系列の安定性を損なう可能性のあるサブ項目であり、通常の差分演算では除去できませんが、同時に ARMA モデルでは期間の位置も考慮する必要があります。これら 2 つの考慮事項を追加すると、季節性ARIMA が得られます。
新しい季節差演算子を再定義できます。
AR モデルと MA モデルに追加の季節性演算子を定義することもできます。
実際、これら 2 つの演算子は理解するのが難しくありません。つまり、AR モデル と MA モデルで考慮されます。
最後に、SARIMA式は次のように書くことができます (下線部分は季節性を表す新たに追加された用語です)。
通常、SARIMAはパラメータに従って次のように表現されます。
ARIMAモデル8つの 注目ポイント
8.1 ARIMAの長所と短所
利点: モデルは非常に単純で、他の外生変数に頼らずに内生変数のみが必要です。
短所:
1. 時系列データは安定している (定常的)、または微分後に安定している必要があります。
2. 本質的に、線形関係のみを捕捉できますが、非線形関係は捕捉できません。
ARIMA モデルを使用して時系列データを予測するには、データが安定している必要があることに注意してください。データが不安定な場合、法則を捉えることはできません。例えば、ARIMAが株価データを予測できないのは、株価データが不安定であり、政策やニュースの影響で頻繁に変動するためです。
8.2 時系列データが安定した手法であると判断する
厳密な定義: 時系列確率変数は、そのすべての統計的特性が時間に依存しない (時間に対して一定である) 場合にのみ安定します。
判定方法:
安定したデータには傾向も季節性もありません。つまり、平均値は時間軸上で一定の振幅を持ち、分散は時間軸上で同じ安定した値になる傾向があります。
仮説検定は、ディッキー・フラー検定を使用して実行できます。
8.3 ARIMA のパラメータと数学的形式
ARIMA モデルには、p、d、q の 3 つのパラメータがあります。
- AR(p) -- 予測モデルで使用される時系列データ自体のラグ (遅れ) を表し、AR/自動回帰項目とも呼ばれます。
- I(d) -- 時系列データを安定させるには複数の段階で微分する必要があることを表し、統合アイテムとも呼ばれます。
- MA(q) -- 予測モデルで使用される予測誤差のラグ (ラグ) の数を表し、MA/移動平均項目とも呼ばれます。
8.4 ARIMA を使用したモデリング
ランダム処理に d 個の単位根が含まれていると仮定すると、これは d 倍の差の後に滑らかな自己回帰移動平均処理に変換できます。ランダム処理は単積 (積分) 自己回帰移動平均処理と呼ばれます。
初め:
(1) d 回の差の後、ランダムプロセスが安定しているかどうかを判断します。
(2) 適切な d を見つけた後、xt は安定したランダム過程 Δdxt に変換されます。
(3) Δdxt を自己回帰移動平均過程 ARMA(p,q) として構築する、つまりランダム過程 xt を ARIMA で表現する過程が完了し、構築された ARIMA 過程を ARIMA(p,d, q)。p、d、q はそれぞれ自己回帰次数、差分の数、移動平均次数を表します。
ARIMA モデルの構築は、差数 d を求めること、ARMA モデルのパラメータを推定することにあります。差分 d の数が大きすぎてはなりません。大きすぎると変動が大きくなりすぎます。ARMA モデルのパラメータ値は最尤法で推定されます。
ARIMA モデリング プロセス:
- 系列を静止させる (d を求める差分法)
- p および q 次数の決定: ACF および PACF
- 有馬(p,d,q)
8.5 ACF(自己相関関数)と偏自己相関関数 PACF(偏自己相関関数)
自己相関関数 ACF は、時系列観測とその過去の観測の間の線形相関を表します。次のように計算されます。
ここで、k は遅れ期間の数を表します。k=2 の場合、yt と yt-2 を表します。
偏自己相関関数 PACF は、時系列観測値と、中間観測値を考慮した予想される過去の観測値との間の線形相関を表します。
簡単な例を挙げると、k=3 とすると、yt と yt-3 の間の相関関係を説明しますが、この相関関係は yt-1 と yt-2 の影響も受けます。PACF ではこの効果が除去されますが、ACF ではこの効果が含まれています。
時系列モデル | ARIMA - 統計的および理論的レベルから - について知る
https://www.csdn.net/tags/OtDaUgxsNjE3NTMtYmxvZwO0O0OO0O0O.html