반응형
- MA(q) 프로세스는 그 자체가 정상적인 백색잡음들의 가중합으로 항상 stationary하다.
- 시계열 Data의 경우 유클리드 거리 비추. 하지만 만약에 유클리드거리 사용이 합리적이라고 판단시 푸리에 변환거리 사용을 추천한다.
- Sin곡선과 직선사이의 거리를 측정하게 될 경우 일직선은 한 사인곡선대비 시계열Data의 나머지 곡선까지 더 짧은 유클리드 거리를 계산하게 되므로 비추
- 예측기간이 길어질수록 미래 예측은 실제 Data의 평균으로 수렴된다. 결국, 예측값과 오차항 모두분산이 0으로 수렴하게 된다. 즉, 현재 Data는 먼 미래 예측에 유용한 Data제공을 하지 못함.
- AR, MA, ARIMA 모두 단기 예측에 적합하다.
- MA Model은 강한 평균회귀 성향이 있다. 즉, 빠르게 예측이 과정의 평균으로 수렴된다.
- 차분 : 시계열값을 시간에 따른 값의 변화로 바꾸는 것을 의미하며, 보통 시간상 인접한 Data쌍의 차이를 계산하여 이루어진다.
- ARIMA(Autoregressive Integrated Moving Average) : 자기회귀누적이동평균
- AR, MA, ARIMA 모두 단기 예측에 적합하다.
반응형
- 시계열 Data 실제값과 예측값(실제보다 평균적으로 단조로운 그래프가 그려짐) 또는 t값과 t-1값 차분을 그래프로 그려보면 눈에 들어오는 게 있다.
- 금융 Data
- 주가보다는 수익에 대한 Modeling을 한다면 상관관계가 낮아보이지만 실세계에서 예측력이 좋을 가능성이 높다. 따라서 주가예측보다는 수익력 예측 Model을 개발해야한다.
- 금융 Data – 수익 è 지수평활화(지수이동평균) è 정규화(정상 시계열 Data) 만들기. 도 하나의 방법이지만 예측작업의 사전관찰에 의한 희석 가능성에 대해서 지속적으로 전처리 단계 한 것을 추적할 필요가 있다.
- Ensenble은 신호 대비 잡음이 낮은 금융 Data에서 유용하다.
- 금융시장의 변동성은 시간의 흐름에 따라 일정하지 않고 변화하며, “일시적 변동성의 클러스터링”을 보인다.
- 분산의 변화는 ARMA에 문제시된다. 따라서 변동성 Model을 만들어서 변화를 예측
- ARCH Model은 오차항의 분산을 이전기간들의 오차들의 함수로 표현
- 금융 Data Backtest시 고려할 사항
- 유효성 저해문제 : lookahead bias, survivorship bias, outlier control, selection of the sample data period(대표성문제, 특정기간 data로 전체를 대표할 경우 현재 특성이 반영 안되는 경우)
- Simulation 저해문제 : 시가평가성과(시간에 걸친 리스크 추적), 거래비용고려(슬리피지-주문가와 체결가의 차이, 거래상대방의 부재 경우), 의사결정 타이밍(종가로만 backtest할 경우 성과 차이)
- 통계량의 적합성
- 동일 Data를 통한 반복학습 경우 잘못된 학습 결과를 도출할 수 있다. è 과대적합의 위험이 있기에 패턴 타당성 검증이 필요
- 경제이론 다각도로 시나리오 test가 필요
728x90
반응형
'Data Science & AI Theories' 카테고리의 다른 글
배깅(Bagging), 앙상블(Ensemble), 부스팅(Boosting), 고워거리(Gower's Distance), 코페네틱 거리(Cophenetic Distance) (2) | 2023.08.16 |
---|---|
시계열분석(6) - ARCH, 변동성예측모델, Ljung-Box Q 통계량, 가법회귀모델, 이상감지솔루션, Adfuller test (0) | 2023.08.16 |
시계열분석(4) - 동적시간왜곡, 동적조화회귀 (0) | 2023.08.16 |
시계열분석(3) - 시계열 상태공간 모델, 칼만필터, 은닉 마르코프 모형, 주기도 (0) | 2023.08.16 |
시계열분석(2) - 최소제곱선형회귀, AR모델 적합성판단 (0) | 2023.08.16 |