분류 전체보기
-
-
Hubness Phenomena in feature spaceML/etc 2022. 4. 21. 13:41
모든 데이터에서 만연하게 등장하는 특징에 대한 feature vectors는 rich하다. 반면 전체 데이터에서 일부만 존제하는 feature vector는 sparce하다. 따라서 cosine similarity는 만연하게 등장하는 특징에 대한 유사성을 측정하게 될것같다. 높은 차원의 feature 일때 hubness 현상이 발생한다. hub샘플은 다른 샘플들과 유사성이 높다. 이 때문에 knn의 모델 성능에 영향을 끼친다. 모든 데이터에 등장하므로 knn의 분류 결과에 영향을 끼침 이러한 hub는 데이터의 중심점과 가깝다는 특징을 가지고 있다. Reference Ikumi Suzuki, The Effect of Data Centering for k-nearest neighbor, National In..
-
[Training] Mini Batch를 왜 사용할까?ML/etc 2022. 4. 4. 13:03
사진 100장으로 개와 고양이(각각 50장 씩)를 분류하는 모델을 학습하고자한다. 모든 사진을 한번에 모델에 넣고 학습하면 1. 모형은 데이터에서 개와 고양이를 잘 분류할 수 있는 특징을 찾을 것이다. - 그것이 수염이 될 수 있고, 뾰족한 귀가 될 수 있고, 눈이 될 수 있을것같다. - 간혹 개를 찍은 사진은 모두 잔디 들판이고, 고양이를 찍은 사진은 모두 도심이면 그것을 기준으로 나눌 위험도 있다. 가지고있는 100장에서, 모델이 학습을 하는데. 수염만 특징으로 잡고 학습해도 거의 정확하게 분류가 된다면 다른 특징을 학습할 이유가 있을까?(Local optimum) - 모형 입장에서 loss를 떨어뜨리는 목적(아주 같은 말은 아니지만; error를 낮게하는)만 있는것이고 현재의 결과들이 global한..