ML for ASSET MANAGERS 6

Machine Learning for Asset Managers Ch 6. Feature Importance Analysis (1)

6.1 Motivation 6.2 p-Values p-Value 의 단점 분포에 대한 강한 가정 필요: type1, type2 error 발생 가능성 높음 다중공선성 있는 경우 잡아내지 못함 주어진 귀무가설 및 추정치에 대해, 추정치보다 같은 혹은 더 큰 값을 얻게 되는 확률에 대해 이야기함 -> 그러나 추정치가 관측 됐을 때 귀무가설이 사실일 확률에 더 관심이 있음 in-sample 에 대한 유의미성 평가만 함 6.3 Feature Importance 6.3.1 Mean-Decrease Impurity(MDI) Tree-based 알고리즘에 적용 N개의 sample, F개의 feature ${\lbrace {X_f}\ \rbrace}_{f=1,...,F}$ Purity 주어진 하나의 feature에 대..

[Machine Learning for Asset Managers] Ch 4. Optimal Clustering (1)

4.1 Motivation 4.2 Proximity Matrix Similarity 또는 dissimilarity 를 나타내는 matrix 예를 들면, correlation, mutual information 또는 3장에서 배웠던 다양한 distance metrics가 있음 반드시 metric일 필요는 없음 Undirected graph일 수 있음 Normalize 중요 4.3 Types of Clustering Cluster 종류 Connectivity distance에 기반 ex. hierachical clustering Centroids ex. K-means Distribution ex. Gaussian Mixture Density connected dense regions ex. DBSCAN or..

[Machine Learning for Asset Managers] Ch3. Distance Metrics (1)

3.1 Motivation 3.2 A correlation-based metrics 예시 (1) $X, Y, T, \rho \left[X, Y \right], \sigma \left[. \right]$ : tow random vectors, size, correlation estimate, standard deviation $\sigma \left[X, Y \right] = \rho \left[X, Y \right]\sigma \left[X\right]\sigma \left[Y \right]$ $d_{\rho}\left[X, Y \right] = \sqrt{1/2 \left(1- \rho \left[X, Y \right] \right) }$ $ d\left[X, Y \right] = \sqrt{\sum_..

[Machine Learning for Asset Managers] Ch 2. Denosing and Detoning (1)

2.1 Motivation Covariance matrix에 많은 noise 포함 Goal Noise 줄이기 Enhancing the signal 2.2 The Marcenko-Pastur Theorem 전제조건 Given $i.i.d$ random observations X size of (TxN) mean:0, variance: $ \sigma^2 $ $ C = T^{-1}X&#39;X $ has eigen value $ \lambda $ PDF(Probability Density Function) $N \rightarrow \infty, T \rightarrow \infty$ with $ 1 < N/T < \infty $, then converges to MP pdf the maximum expec..