Advances in Financial ML 2

Ch 5. Fractional Differentiated Features

1. Stationarity vs Memory Dilemma 시계열의 정상성 (stationarity)란 mean, variance, covariance가 시간이 지나도 변하지 않는 성질을 의미한다. 시계열 분석에서 정상성을 가진 자료를 주로 사용하는데, 대표적인 것이 로그 1차 차분인데, 주가 자체를 사용하지 않고 수익률을 사용하는 것이 그 예이다. 그러나 이 경우 데이터가 갖고 있던 메모리를 잃게 되는 단점이 있다. 수익률과 원 주가 데이터의 상관계수는 0에 가깝다. 정상성을 가진 시계열 자료로 만드는 대신에 정보를 없애게 되는 stationarity vs memory 딜레마가 생기게 된다. 이를 해결할 수 있는 방법 중 하나가 분수 차분이다. 아래는 코스피 주가 데이터로 0부터 1까지 0.1씩 차분..

Ch 8. Feature Importance

1. Feature Importance 변수 중요도는 예측 모형의 각 feature가 예측력에 기여한 정도를 측정한 것이다. 기계학습의 문제점으로 지적되는 것 중 하나는 "블랙박스"라는 점이다. 머신러닝은 예측에 초점이 맞춰져 있고 단순한 모형을 여러번 조합하여 모형의 복잡도가 높아 예측 결과 과정을 설명하기 어렵다. 이를 보완한 분석 방법이 변수 중요도 분석이다. 변수 중요도는 향후 분석에 있어 중요한 역할을 할 수 있다. 어떤 feature가 어떤 기간에 혹은 어떤 레짐일 때 중요도가 높아지는지, 중요한 feature로부터 레짐을 예측할 수 있는지, 모든 시장에서 통용되는 feature가 있는지 등 예측 모형을 개발 또는 개선시키는 데 활용이 가능하다. 이번 포스팅에서는 변수 중요도를 측정하는 세 가..

1