clustering 3

Machine Learning for Asset Managers Ch 6. Feature Importance Analysis (1)

6.1 Motivation 6.2 p-Values p-Value 의 단점 분포에 대한 강한 가정 필요: type1, type2 error 발생 가능성 높음 다중공선성 있는 경우 잡아내지 못함 주어진 귀무가설 및 추정치에 대해, 추정치보다 같은 혹은 더 큰 값을 얻게 되는 확률에 대해 이야기함 -> 그러나 추정치가 관측 됐을 때 귀무가설이 사실일 확률에 더 관심이 있음 in-sample 에 대한 유의미성 평가만 함 6.3 Feature Importance 6.3.1 Mean-Decrease Impurity(MDI) Tree-based 알고리즘에 적용 N개의 sample, F개의 feature ${\lbrace {X_f}\ \rbrace}_{f=1,...,F}$ Purity 주어진 하나의 feature에 대..

[Machine Learning for Asset Managers] Ch 4. Optimal Clustering (1)

4.1 Motivation 4.2 Proximity Matrix Similarity 또는 dissimilarity 를 나타내는 matrix 예를 들면, correlation, mutual information 또는 3장에서 배웠던 다양한 distance metrics가 있음 반드시 metric일 필요는 없음 Undirected graph일 수 있음 Normalize 중요 4.3 Types of Clustering Cluster 종류 Connectivity distance에 기반 ex. hierachical clustering Centroids ex. K-means Distribution ex. Gaussian Mixture Density connected dense regions ex. DBSCAN or..