予測のプロセスと方法(予測の第3章:原則と実践)

  1. 予測者のツールボックス
    3.1整頓された予測ワークフロー
    が時系列データを生成する予測は、次のステップに分割できます。
    ここに画像の説明を挿入

データ準備(組織)
データ準備方法は、時系列のさまざまな特性を調査するためにも使用できます。データセットの前処理は、相互検証を使用してモデルのパフォーマンスを評価するための重要なステップです。

データのプロット(視覚化)

モデルの定義(指定)
モデルをデータに適合させる前に、まずモデルを説明する必要があります。予測に使用できるさまざまな時系列モデルがあり、適切な予測を生成するには、データに適切なモデルを指定することが重要です。

モデルの学習(推定)
線形変数のキー変数の各組み合わせについて、これは線形トレンドモデルをGDPデータに適合させます。この例では、モデルをデータセットの263か国に適合させます。生成されたオブジェクトは、モデルテーブルまたは「マーブル」です。

モデルのパフォーマンスの確認(評価)
モデルを近似した、データに対するモデルのパフォーマンスを確認することが重要です。モデルの動作をチェックするために使用できるいくつかの診断ツールがあり、あるモデルを別のモデルと比較できるいくつかの精度測定があります。

予測の生成(予測)

3.2いくつかの単純な予測方法
平均方法
すべての将来の値予測は、履歴データの平均(または「平均」)と同じです。
ここに画像の説明を挿入

ナイーブメソッド(ランダムウォーク予測
ナイーブ予測の場合、すべての予測を最後の観測値に設定します。
ここに画像の説明を挿入
多くの経済および金融時系列では、この方法は非常に効果的です。
ランダムウォーク予測(ナイーブ法):データがランダムウォーク(9.1節を参照)の場合、ナイーブの予測が最適になるため、すべての予測を最後の観測値に設定します。
ここに画像の説明を挿入

季節ナイーブ方法
のために非常に季節的データは、同様のアプローチも有用です。この場合、各予測は、その年の同じシーズン(たとえば、同じ月)の最後の観測と等しくなるように設定します正式には、時間の予測
ここに画像の説明を挿入ここに画像の説明を挿入

ドリフト法
は、ナイーブな方法を変更する方法であり、時間の経過とともに予測を増減できます。この時間の変化の大きさは、履歴データの平均変化に設定できます。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
これらの簡単な方法のいずれかが利用できる場合があります最良の予測方法。しかし、多くの場合、これらの方法は選択した方法ではなくベンチマークとして機能します。言い換えると、私たちが開発した予測方法は、これらの単純な方法と比較され、新しい方法がこれらの単純な方法よりも優れていることが保証されます。そうでない場合は、新しい方法を検討する価値はありません。この方法は、2015年のGoogleの1日の終値に適用され、翌月の価格を予測するために使用されます。株価は毎日観察されるわけではないため、最初に暦日ではなく取引日に基づいて新しい時間インデックスを作成します。

3.3変換と調整
履歴データを調整する4つの方法:
1)カレンダー調整
2)人口調整
3)インフレ調整
4)データ変換の
目的は、既知の異常を削除するか、データセット全体でパターンを一貫させることで簡素化することです単純なパターンはより正確な予測につながるため、履歴データのパターン

カレンダーの調整
季節データの一部の変更は、単純なカレンダーの影響が原因である可能性があるため、予測モデルを近似する前に差異を取り除いてください。
例:小売店の月間総売上高を調査すると、年間の季節変化に加えて、月間取引日数も異なるため、月間で差異が生じます。月の総売上高ではなく、各月の取引日の平均売上高を計算することにより、この差を簡単に解消でき、カレンダーの変更を効果的に削除できます。

人口統計の調整
人口統計の変更の影響を受けるすべてのデータを調整して、1人あたりのデータを提供できます。つまり、合計ではなく各個人のデータを考慮します。
例:特定の地域のベッド数を経時的に調査する場合、人口変化の影響を排除するために、1,000人あたりのベッド数を説明する方が簡単です。人口動態の変化の影響を受けるほとんどのデータについては、合計ではなく一人当たりのデータを使用する方が良いです。

インフレ調整
通貨値の影響を受けるデータ
は、モデル化する前に調整する必要があります例:新しい家の平均コストは、インフレにより過去数十年にわたって増加しているため、すべての値が特定されるように財務時系列を調整します今年のドル価値
ここに画像の説明を挿入

数学変換変換
は、系列レベルが増加または減少するときにデータが変化を示す場合に役立ちます。
例:対数変換は、元の観測値がの場合に役立ちますここに画像の説明を挿入
、次に変換された観測値ここに画像の説明を挿入
対数の有効性は、その解釈可能性にあります対数値の変化は、元の比率の相対的な(またはパーセンテージ)変化です。したがって、対数の底が10の場合、対数スケールでの1の増加は、元のスケールでの10の積に対応します。対数変換のもう1つの便利な機能は、元の範囲で正の値を維持するように予測を制限することです。
ときどき、平方根や立方根などの他の変換も役立ちます。これらは、次のように記述されるため、パワー変換と呼ばれます。ここに画像の説明を挿入

Box-Cox変換には、べき変換と対数変換が含まれ、ラムダパラメーターに依存します。次のように定義できます。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

良いλは、予測モデルを簡略化できるため、系列全体の季節変動をほぼ同じにする方法です。この場合、λ= 0.10が適切に機能しますが、λは0と0.2の間で同様の結果になります。

前に変換を選択した後、変換されたデータを予測する必要があります。次に、元の比率予測を取得するために、逆変換(または逆変換)する必要があります。逆ボックスコックス変換は、次の式で与えられます。
ここに画像の説明を挿入

パワー変換の機能
some一部のyt≤0の場合、すべての値が定数で増加して正になるまでパワー変換を使用できません
単純なλを選択して、
λを比較的予測しやすく解釈します
感度通常、変換は不要です
。変換は、予測にはほとんど影響しませんが、予測間隔に大きな影響を与えます。

変換の組み合わせ変換の組み合わせにより
、従属変数を大幅に変更できる方法が拡張されます。Box-Cox変換(λ≠0)は、いくつかの単純な変換(乗算、加算、べき乗演算)に分解できます。
例:対数変換により、結果の予測が負にならないことが保証されますこれは、合理的なデータを制約する場合に特に魅力的です
ただし、観測値が0(または負)のデータには対数変換を使用できません。代わりに、0を含むデータの対数変換にはlog(x + 1)を使用でき、変換のほとんどの組み合わせをこの方法で使用できます言った。

変換時間のスケーリングに役立つ別のロジットを使用して、予測が特定の時間間隔内に維持されるようにすることができます。スケールされたロジットは、予測値がaとbの範囲にあることを保証します(a <b)。
ここに画像の説明を挿入
この変換を逆にすると、適切な逆変換
ここに画像の説明を挿入
が可能になりますこの新しい変換関数を定義することにより、予測を指定した間隔に制限できるようになりましたたとえば、予測を0〜100に制限するには、モデルの左側の数式としてscaled_logit(y、0、100)を使用できます。

偏差調整
数学的変換(ボックスコックス変換)使用に関する問題逆変換の点予測は、予測分布の平均ではなく、通常は予測分布の中央値です。
多くの予測ではこれで十分ですさまざまな地域の売上予測を集計して国全体の予測を作成するなど、平均的な予測が必要になることもありますが、中央値は加算されず、平均はそうなります。
逆の平均変換のボックス-Cox変換は次式で与えられる。
ここに画像の説明を挿入
ここで、ここに画像の説明を挿入予測ステップHの分散は、予測分散、より大きな平均値と中央値との差が大きく、変換後です。

以前の単純な逆変換予測と平均逆変換予測の違いはバイアスと呼ばれます。中央値の代わりに平均を使用する場合、ポイント予測はバイアス調整されていると言います。
ここに画像の説明を挿入

図3.5の青い線は予測中央値を示し、赤い線は予測平均を示します。バイアス調整を使用する場合、歪んだ予測分布がポイント予測をどのように引き上げるかに注意してください。

3.5適合値と残差
適合値:過去のすべての観測値を使用して時系列の各値を予測し、これらの値を適合値と呼び、ラベルが付けられます。ここに画像の説明を挿入つまり、予測値ytはここに画像の説明を挿入通常、観測値に基づいています。近似値には、常に単一ステップの予測が含まれます。

残差
時系列モデルの残差は、モデルの近似後に残った残差です。ほとんどの時系列モデルでは、残差は観測値と対応する近似値の差に等しくなります。
ここに画像の説明を挿入
残差は、モデルがデータ内の情報を適切にキャプチャしたかどうかを確認するときに役立ちます。残差にパターンが観察できる場合、モデルを改善できます。

3.5予測区間
は、Ytが特定の確率で特定の区間内に収まるという期待を与えます。
例えば、残差は、通常95%予測区間工程時間、次いで、分配されると仮定:
ここに画像の説明を挿入
ここに画像の説明を挿入段差Hの配布判断基準を予測し、より広義には、我々は、呼び出すことができここに画像の説明を挿入
、ここで乗算器Cのカバレッジに依存。

予測間隔の値は、それらが予測の不確実性を表すということです。ポイント予測のみが生成された場合、予測の精度は説明できませんが、予測間隔も生成された場合、各予測の不確実性の程度を知ることができます。したがって、予測間隔は付加されておらず、ポイント予測にはほとんど価値がありません。

1ステップ予測間隔
1ステップ先に予測する場合、予測分布の標準偏差は残差の標準偏差とほぼ同じです。
例:Google株価データgoogle_2015の単純な予測を考えます(図3.3を参照)。観測シーケンスの最後の値は758.88であるため、GSPの次の値の予測は758.88です。単純な方法の標準偏差は11.19です。したがって、次のGSP値の95%予測間隔は
ここに画像の説明を挿入

マルチステップ予測間隔
予測間隔の一般的な機能は、予測範囲が増加するにつれて長さが増加することです予測が遠くなるほど、予測の不確実性が大きくなるため、予測間隔が広くなります。
つまり、σhは通常hとともに増加します(ただし、一部の非線形予測方法にはこのプロパティがありません)。

予測間隔を生成するには、σhを推定する必要があります。シングルステップ予測(h = 1)の場合、残差標準偏差は予測標準偏差の適切な推定値になる可能性があります。マルチステップ予測の場合、より複雑な方法が必要であり、これらの計算では残差無関係です。

ベンチマーク法
次の4つのベンチマーク法では、残差が無相関あるという仮定の下で、予測の標準偏差を数学的に導出できます。
ここに画像の説明を挿入

ブートストラップ残差予測区間残差は、通常無理仮定を分散している場合、代替のみ非相関残留想定されるブートストラップ方法を使用することですステップ予測誤差は、次のように定義されます。私たちはに書き込むことができ、それは観測時系列は、次のステップでシミュレートすることができます:ここにありますステップ予測値、および未知の将来のエラー。将来のエラーが過去のエラーに似ていると仮定すると、

ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入ここに画像の説明を挿入これを行うには、過去のエラーセット(つまり、残差)をサンプリングします。我々のデータセットに新しいアナログ測定値を追加するために、我々は、プロセスを繰り返すことができますされていますここに画像の説明を挿入
繰り返し行って、我々は可能な未来の多くを得ることができます。次に、各予測範囲のパーセンタイルを計算することにより、予測間隔を計算できます。結果はブートストラップ予測間隔と呼ばれますこのプロセスでは履歴データのみを使用して将来の不確実性を測定できるため、「ブートストラップ」という名前は、ブートストラップを使用して能力を向上させることを意味します。
ここに画像の説明を挿入

予測区間を変換
場合、変換を使用して、予測間隔は間隔をおいて、元のスケールを与えるために変換比に基づいて計算し、そしてエンドポイント予測逆変換されなければなりません。この方法は、予測区間の確率カバレッジを保持しますが、点予測に関して対称ではなくなります。

元の記事69件を公開 賞賛された11件 20,000回以上の閲覧

おすすめ

転載: blog.csdn.net/weixin_41636030/article/details/102853708