SMOTE는 불균형 데이터를 분류하고자 할 때 사용하는 방법으로 minority 데이터를 oversampling하는 방법입니다.
- T: minority 표본 수
- N: Amount of SMOTE N%
- k: Number of nearest neighbors
- x점과 k-nearest neighbor 내에 있는 점 중 임의의 점 y 선택
- minority 데이터 x와 임의의 점 y의 차이 diff 계산
- x + gap * diff (이 때, gap은 0과 1사이의 난수)
- 위의 과정 N번 반복
위와 같은 과정으로 두 개의 점을 잇는 선을 따라 임의의 점을 선택하여 oversampling할 수 있습니다.
'Data Science' 카테고리의 다른 글
[Clean Code] 1장 깨끗한 코드 (0) | 2024.02.20 |
---|---|
Mac M1 Konlpy (0) | 2023.09.16 |
Mac M1 Chromedriver (0) | 2023.09.16 |
네이버 부동산 기사 크롤링 (0) | 2023.09.09 |
pyLDAvis A task has failed to un-serialize 오류 (0) | 2023.09.09 |