違い|対時系列回帰

 

 

要約:

(1)時系列回帰分析コア差すなわちするためのものであるデータの仮定:回帰分析は、各サンプルのデータポイントであることを前提と独立し、時系列の間でデータの使用での相関予測。例えば:ベースモデルにおける時系列分析は、将来を予測するために過去のデータポイントを使用してAR(自己回帰)モデルです。

ARモデル(自己回帰モデル)と線形回帰が、(2)は、多くの類似点を持っているように見えます。しかし、による独立性の欠如、それはされるだろうARモデルパラメータ解決するために、線形回帰を用いてバイアスをしかし、このための解決策と同じであるので、実用的なアプリケーションまたはに線形回帰を使用して、おおよその ARモデル。

(3)無視するか、データの独立性を仮定は、おそらくモデルの故障をもたらすことがありますモデリングと特に金融市場の予測、これに注意を払う必要があります。

  最初のデータは、ARモデル(バックモデルから自己回帰モデル)の2つの前提との間の特定の違いを説明します。この記事ではなぜそれが回帰分析のように思えるが、違いが残っていて、最終的には、金融の後、共通の混乱の両方を述べたが、問題は、方向性を生じる可能性があります。

 

データの仮定の回帰分析:独立


 

回帰分析では、我々はデータがあることを前提とし、互いに独立しさん。この独立性は、二つの側面に反映されている一の手で、独立変数(X)が固定され、従属変数(Y)の各々は、誤差項であり、一方、観察された値は、独立同一分布、線形であります回帰モデル、通常の誤差項は、独立同一分布、ゼロ平均を満たす、一定の分散です。

独立は、このデータの具体的な症状です:回帰分析では、データ配列は、任意の交換をすることができモデリングするとき、あなたはランダムにモデルを訓練するために順次データを選択することができ、データの一部はまた、ランダムに訓練セットと検証セットを分割するように選択することができます。このため、検証セットは、各予測誤差値が比較的一定である:より低い予測精度が得られ、誤差の蓄積がないであろう。

 

第二に、時系列データの仮定:相関


 

しかし、時系列分析のために、我々は、データの使用と仮定しなければならない関係コアの理由は、我々だけに、既存のデータを使用することができ、将来を予測する他の外部データを持っていないということです。したがって、我々は、各データポイントとの間に相関関係があることを想定し、モデリングを通じて対応する相関関係を見つけ、将来のデータの傾向を予測するためにそれを使用する必要があります。古典的な時系列分析(ARIMA)がデータACF(自己相関係数)とPACF(部分的自己相関係数)との相関関係を観察するために来る理由です。

独立性の仮定の回帰分析に直接反して、時系列の相関の仮定。マルチ時系列予測では、一方では、独立変数は、将来を予測するために観測された真実ではないかもしれないが、一方で、より多くの遠くの見通しとして、エラーが徐々に蓄積されます:あなたの長期的な将来のために優れた最新の予測よりもだろうより多くの不確実な予測。このように、完全に異なる視点を採用する時系列分析の必要性は異なるモデルで分析します。

 

三、ARモデル(自己回帰モデル)と線形回帰モデル「類似」の違い&


 

  時系列分析は、基本モデルのAR(自己回帰)モデルです。それは未来を予測するために過去のデータポイントを使用しています。将来の予測値の現在時刻データと、例えば、AR(1)モデル、それらの数学的関係は、として表すことができます。

  フォームとその発現は、線形回帰モデルは、非常に類似している確かに、あるいは通常のAR(n)と線形回帰モデルは、高い類似性を有します。唯一の違いは、方程式独立変数(X)の右辺は、従属変数(Y)の最後になったということです。それは完全に異なる2つの溶液をもたらす、このため小さな差で正確です。ARモデルでは、モデル以来、独立変数は、独立変数と過去のエラーの間に相関だから、原因変数に過去になります。そして、この相関のARモデルは、線形モデルを使用して得られた(自己回帰モデル)溶液を推定(バイアス)にバイアスされることになることができます。

   これらの結論を実証するために、我々はあまりにも多くの概念を導入する必要があります。ここでは、としてAR(1)モデルの唯一の特殊なケースを分析します。一般性を失うことなく、我々は次の形式で表現されるデータのAR(1)モデルを変換することができます。

 

 

 

   これらのモデルについて、線形回帰は、以下の推定値を与えるだろう。

 

 

   一般的な線形回帰モデルの場合は、すべての引数ので、本当の価値を認められてきたものとみなされます。我々は分母として知られている平均値を取るときだから我々は、過去の観測および将来におけるエラーの独立した自然から公平な結論を得ることができます。

 

 

   分子と分母が互いに干渉ので、しかし、時系列に、関心が公平得ることができません。引数が知られているとみなし、することはできませんので、今後の観測は互いに過去の誤差項に連絡します。したがって、得られたARモデルの線形モデルを用いて、そのようなソリューションの相関が推定(バイアスされた)にバイアスされることになります。

  より直感的なアナログデータは、問題を説明することができる[1] 以下に示すように、左が一定ギャップを平均値パラメータは、実際のデータシミュレーション0.9によって行われたとき、真の値を見ることができる(黒線)とシミュレーション値(赤線)であるが、データ量として増加ギャップが徐々に狭くされます。右は本当にさまざまなパラメータであるときのずれの大きさ。そのエラーが、データ量が増加があった、エラーが徐々に小さくなることがわかります。

 

 

   実際には、我々は、ARモデルを解決するためのおおよその線形回帰モデルを使用します結果はバイアスされますが、それは見積もりと一致しているもののので。データを十分な大きさの量は、解決する場合すなわち、値が真の値に収束します。ここでは、立ち上げません。

 

四、忽视独立性的后果:金融方向的常见错误


 

  希望看到这里你已经弄懂了为什么不能混淆模型的假设:尤其是独立性或相关性的假设。接下来我会说一个我见过的因为混淆假设导致的金融方向的错误。

随着机器学习的发展,很多人希望能够将机器学习和金融市场结合起来。利用数据建模来对股票价格进行预测。他们会用传统的机器学习方法将得到的数据随机的分配成训练集和测试集。利用训练集训练模型去预测股票涨跌的概率(涨或跌的二维分类问题)。然后当他们去将模型应用到测试集时,他们发现模型的表现非常优秀——能够达到80~90%的准确度。但是在实际应用中却没有这么好的表现。

  造成这个错误的原因就是他们没有认识到数据是高度相关的。对于时间序列,我们不能通过随机分配去安排训练集和测试集,否则就会出现“利用未来数据”来预测“过去走向”的问题。这个时候,即使你的模型在你的测试集表现出色,也不代表他真的能预测未来股价的走向。

 

【参考】 

【1】知乎 时间序列和回归分析有什么本质区别?

 

おすすめ

転載: www.cnblogs.com/zwt20120701/p/12192834.html
おすすめ