다변량 확률 시계열 예측을 위한 자기회귀 노이즈 제거 확산 모델

본 논문에서는 다변량 확률 시계열 예측 작업을 위한 TimeGrad 모델을 제안합니다.
오픈 소스 코드가 있습니다: PytorchTS
확률 예측은 아래 그림에 표시되어 있으며 미래 예측은 확률로 이루어집니다.
여기에 이미지 설명을 삽입하세요.

TimeGrad 모델은 확산 확률 모델(Diffusion Probabilistic Model)을 기반으로 하며, 여기서는 확산 확률 모델(Diffusion Probabilistic Model)에 대한 소개는 생략하고, 단순히 복잡한 분포에 적합할 수 있는 확률 모델이라고 생각하면 됩니다. 학습이 필요한 경우 "노이즈 제거 확산 확률 모델 소개" 블로그를 참조하세요 .
확산 확률 모델의 이해를 바탕으로 이 문서의 방법은 매우 간단합니다. TimeGrad 기반 확산 확률 모델을 가우스 분포로 대체하면 TimeGrad는 DeepAR과 유사하게 됩니다.

방법

다변량 시계열을 xi , t 0 ∈ R , i = { i , . . . , D } x_{i,t}^0\in \mathbb{R}, i=\{i,... , 디\}엑스, t0R ,={ ,... ,D } , 여기서ttt 는 시간 지수,DDD 는 다변수의 변수 수입니다. 연속 시계열t ∈ [ 1 , T ] t\in [1, T][ 1 ,T ] , 컨텍스트 창 [ 1 , t 0 ) [1,t_0)으로 나눕니다.[ 1 ,0) 와 예측 창[ t 0 , T ] [t_0,T][ t0,] . 이 작업의 목적은 컨텍스트 창의 시계열을 사용하여 예측 창의 시계열을 예측하는 것입니다.

TimeGrad는 자기회귀 모델입니다:
q : t − 1 0 , c 1 : T ) (1) q_{\mathcal X}(\mathbf x_{t_0:T}^0 | \mathbf x_{1:t_0-1}^ 0, \mathbf c_{1 :T})=\Pi_{t=t_0}^Tq_{\mathcal X}(\mathbf x_{t}^0 | \mathbf x_{1:t-1}^0, \ mathbf c_{1:T} ) \tag{1}엑스( x0: 0x1 : t0- 10,1 :)=파이= 0엑스( x0x1 : - 10,1 :)( 1 )其中ci , t \mathbf c_{i,t},이는 공변량, 즉 날씨 특성과 같은 특성입니다.
DeepAR과 유사하게 TimeGrad는 RNN 구조를 사용하여 과거 시계열을 모델링하고 숨겨진 상태를 얻습니다.
ht − 1 = RNN θ ( concat ( xt − 1 0 , ct ) , ht − 2 ) \mathbf h_{t- 1}= \text{RNN}_\theta(\text{concat}(\mathbf x_{t-1}^0, \mathbf c_{t}), \mathbf h_{t-2})시간t 1=RNN( 연결 ( x- 10,) ,시간t 2) , 그리고 확산 확률 모델을 사용하여 숨겨진 상태를 기반으로 시계열을 얻습니다.
그러면 공식 (1)은 근사치를 갖습니다:
Π t = t 0 T p θ ( xt 0 ∣ ht − 1 ) \Pi_{t=t_0}^T p_\theta(\mathbf x_{t}^0 | \mathbf h_ {t-1})파이= 0( x0시간t 1) 여기서θ \thetaθ 에는 RNN의 매개변수와 확산 확률 모델의 매개변수가 포함됩니다.

훈련 중 최적화된 손실은 음의 로그 가능도입니다:
∑ t = t 0 T − log ⁡ p θ ( xt 0 ∣ ht − 1 ) \sum_{t=t_0}^T -\log p_\theta(\mathbf x_{ t}^0 | \mathbf h_{t-1})= 0-로그 _( x0시간t 1)
시간TTt , 소음 수준nnn 확산 모델 소개
: E xt 0 , ϵ , n Bu ϵ − ϵ θ ( α ˉ tx 0 , ( 1 − α ˉ t ) ϵ , ht − 1 , n ) Bu 2 \mathbb{E}_ { \mathbf{x}_t^0,\epsilon,n}\|\epsilon-\epsilon_\theta(\sqrt{\bar{\alpha}_t}\mathbf{x}_0,\sqrt{(1-\ bar {\alpha}_t)}\epsilon, \mathbf h_{t-1}, n)\|^2이자형엑스0, ϵ , nrr ϵ-ϵ(ˉ 엑스0,( 1-ˉ) ϵ ,시간t 1,n ) rr2 는 실제로 조건부 노이즈 제거 확산 확률 모델입니다. 여기서주목할 가치가 있습니다.일반 확산 확률 모델 논문의 t 및 ttt 는 다르다,tt 는 시계열의 시간입니다. 여기서nn은n 은 대신 일반 확산 확률 모델 논문에서ttt

방법의 구조 다이어그램은 아래 그림에 나와 있습니다. RNN은 각 시점에서 Hidden State를 생성한 후 Diffusion Probabilistic Model을 사용하여 Hidden State에서 시계열 값을 생성합니다. RNN은 자기회귀적이므로 전체 모델이 자기회귀적입니다.
여기에 이미지 설명을 삽입하세요.
여기서 ϵ θ \epsilon_\thetaϵ구조는 다음과 같습니다.
여기에 이미지 설명을 삽입하세요.

평가지표

기사의 실험 부분에 대한 평가 지표는 CRPS(Continuous Ranked Probability Score)를 사용합니다.
베이지안 기계 학습에서 예측되는 것은 점 추정이 아니라 값의 분포입니다. 전통적인 채점 기능은 통계 설계에 적합하지 않으며 예측 분포를 평균 또는 중앙값으로 집계하면 예측 분포의 분산 및 모양에 대한 상당한 정보가 손실됩니다.
CRPS는 누적 분포 함수 F(z) F(z)를 계산합니다.F ( z ) 와 관측값의 호환성은 연속 확률 분포(이론적 값)와 결정론적 관측 표본(참값) 간의 차이를 정량화할 수 있습니다.
CRPS ( F , x ) = ∫ R ( F ( z ) − I { x ≤ z } ) 2 dz \text{CRPS}(F, x) = \int_{\mathbb{R}}(F(z) - \mathbb I \{x \leq z \})^2 dzCRPS ( F ,엑스 )=R( F ( z )-나는 { xz } )2 dzCRPS는 연속 확률 분포에 대한 평균 절대 오차(MAE)의 일반화로 간주될 수 있습니다. 예측된 분포가 실제 데이터 분포와 일치할 때 CRPS는 최소값을 얻습니다. 예측 분포F ^ (z ) = 1 S ∑ s = 1 SI { x 0 , s ≤ z } \hat F(z)=\frac{1}{S} \sum_{는 다음과 같이 샘플링된 표본을 사용하여 근사화할 수 있습니다. 모델 s=1}^S \mathbb I \{x^{0,s} \leq z \}에프^ (z)=에스1= 1에스나는 { x0 , z }

구체적으로 CRPS는 시계열의 각 차원에서 별도로 계산됩니다. CRPS 합계 \text{CRPS}_{\text{sum}} 사용CRPS합계시계열의 모든 차원의 합계를 나타냅니다.

Supongo que te gusta

Origin blog.csdn.net/icylling/article/details/128375626
Recomendado
Clasificación