본문 바로가기
Data Science & AI Theories

시계열분석(5) - 차분, 금융Data 및 Backtest

by Oliver J 2023. 8. 16.
반응형
  • MA(q) 프로세스는 그 자체가 정상적인 백색잡음들의 가중합으로 항상 stationary하다.

 

  • 시계열 Data의 경우 유클리드 거리 비추. 하지만 만약에 유클리드거리 사용이 합리적이라고 판단시 푸리에 변환거리 사용을 추천한다.
    • Sin곡선과 직선사이의 거리를 측정하게 될 경우 일직선은 한 사인곡선대비 시계열Data의 나머지 곡선까지 더 짧은 유클리드 거리를 계산하게 되므로 비추

 

  • 예측기간이 길어질수록 미래 예측은 실제 Data의 평균으로 수렴된다. 결국, 예측값과 오차항 모두분산이 0으로 수렴하게 된다. 즉, 현재 Data는 먼 미래 예측에 유용한 Data제공을 하지 못함.
    • AR, MA, ARIMA 모두 단기 예측에 적합하다.
      • MA Model은 강한 평균회귀 성향이 있다. , 빠르게 예측이 과정의 평균으로 수렴된다.
      • 차분 : 시계열값을 시간에 따른 값의 변화로 바꾸는 것을 의미하며, 보통 시간상 인접한 Data쌍의 차이를 계산하여 이루어진다.
      • ARIMA(Autoregressive Integrated Moving Average) : 자기회귀누적이동평균

반응형
  • 시계열 Data 실제값과 예측값(실제보다 평균적으로 단조로운 그래프가 그려짐) 또는 t값과 t-1값 차분을 그래프로 그려보면 눈에 들어오는 게 있다.

 

  • 금융 Data
    • 주가보다는 수익에 대한 Modeling을 한다면 상관관계가 낮아보이지만 실세계에서 예측력이 좋을 가능성이 높다. 따라서 주가예측보다는 수익력 예측 Model을 개발해야한다.
    • 금융 Data – 수익 è 지수평활화(지수이동평균) è 정규화(정상 시계열 Data) 만들기. 도 하나의 방법이지만 예측작업의 사전관찰에 의한 희석 가능성에 대해서 지속적으로 전처리 단계 한 것을 추적할 필요가 있다.
    • Ensenble은 신호 대비 잡음이 낮은 금융 Data에서 유용하다.
    • 금융시장의 변동성은 시간의 흐름에 따라 일정하지 않고 변화하며, “일시적 변동성의 클러스터링”을 보인다.
      1. 분산의 변화는 ARMA에 문제시된다. 따라서 변동성 Model을 만들어서 변화를 예측
      2. ARCH Model은 오차항의 분산을 이전기간들의 오차들의 함수로 표현

 

  • 금융 Data Backtest시 고려할 사항
    1. 유효성 저해문제 : lookahead bias, survivorship bias, outlier control, selection of the sample data period(대표성문제, 특정기간 data로 전체를 대표할 경우 현재 특성이 반영 안되는 경우)
    2. Simulation 저해문제 : 시가평가성과(시간에 걸친 리스크 추적), 거래비용고려(슬리피지-주문가와 체결가의 차이, 거래상대방의 부재 경우), 의사결정 타이밍(종가로만 backtest할 경우 성과 차이)
    3. 통계량의 적합성
      • 동일 Data를 통한 반복학습 경우 잘못된 학습 결과를 도출할 수 있다. è 과대적합의 위험이 있기에 패턴 타당성 검증이 필요
      • 경제이론 다각도로 시나리오 test가 필요
728x90
반응형