-
Hubness Phenomena in feature spaceML/etc 2022. 4. 21. 13:41
모든 데이터에서 만연하게 등장하는 특징에 대한 feature vectors는 rich하다. 반면 전체 데이터에서 일부만 존제하는 feature vector는 sparce하다. 따라서 cosine similarity는 만연하게 등장하는 특징에 대한 유사성을 측정하게 될것같다.
높은 차원의 feature 일때 hubness 현상이 발생한다.
hub샘플은 다른 샘플들과 유사성이 높다. 이 때문에 knn의 모델 성능에 영향을 끼친다.
모든 데이터에 등장하므로 knn의 분류 결과에 영향을 끼침
이러한 hub는 데이터의 중심점과 가깝다는 특징을 가지고 있다.
Reference
Ikumi Suzuki, The Effect of Data Centering for k-nearest neighbor, National Institute of Genetics Mishima, Shizuoka JAPAN
'ML > etc' 카테고리의 다른 글
Classes, properties, and instances 차이점 (0) 2023.09.29 Meaning of x^TAx (0) 2022.12.14 [Training] Mini Batch를 왜 사용할까? (0) 2022.04.04 [평가지표 정리] DST(Dialogue State Tracking) Micro f1-score (0) 2022.04.03 [평가지표 정리] STS(Semantic Textual Similarity) (0) 2022.04.03