알고리즘 | 개념 | 장점 | 단점 |
k-최근접 이웃 (K-Nearest Neighbor) |
- 주변의 가장 가까운 K개의 샘플을 통해 값을 예측 |
- 구현 쉬움 - 알고리즘 이해하기 쉬움 - 하이퍼파라미터 적음 |
- 계산 속도 느림 - 메모리 많이 씀 - 노이즈 데이터에 예민 |
서포트 벡터 머신 (Support Vector Machine) |
- 데이터들과 거리가 가장 먼 초평면을 선택하여 분리 |
- 정확도 높음 - 예측 속도 빠름 - 고차원 데이터 효과적 |
- 모형 구축 시간 오래 걸림 - 해석하기 어려움 - 커널 트릭 오사용 시 과대적합되기 쉬움 |
의사결정트리 (Decision Tree) |
- 특정 분류 규칙에 따라 데이터 분리 | - 결과 해석 용이 - 학습 및 예측 속도 빠름 - 전처리, 통계가정 필요없음 |
- 과대적합 가능성 - 하이퍼파라미터가 많음 |
랜덤포레스트 (Random Forest) |
- 의사결정나무 모델 여러 개를 훈련시켜서 그 결과를 종합 |
- 의사결정트리의 과대적합 보완 - 스케일링 불필요 |
- 하이퍼파라미터 많음 - 메모리 많이 씀 - 차원이 크고 희소한 데이터 부적합 |
나이브베이즈 (Naïve Bayes) |
- 베이즈 정리에 기반한 통계적 분류 기법 | - 고차원 데이터 처리하기 쉬움 - 구현 쉬움 - 학습 및 추론 시간 빠름 |
- 모든 변수가 독립변수가 아닐 경우 부적합 |
선형회귀 (Linear Regression) |
- 데이터를 표현하는 최적의 선 | - 결과 해석 용이 - 수집된 데이터를 통해 새롭게 관측된 데이터의 예측값을 구할 수 있음 |
- 데이터가 선형적인 관계를 가지지 않을 경우 부적합 |
로지스틱회귀 (Logistic Regression) |
- 출력변수의 조건부 확률을 softmax 함수로 모델링 | - 데이터 분류 시 확률 제공 - 회귀계수 해석 가능 |
- 데이터 특징이 많을 경우 학습이 어려워 과소적합 가능성 - 단순한 선형식이 아니기 때문에 해석 어려움 |
k-평균 (K-Means) |
- 거리 기반으로 K개의 군집으로 분리 | - 데이터 크기에 상관 없이 군집화 가능 - 구현 쉬움 |
- 군집화 결과에 대한 확률을 제공하지 않음 - 데이터의 분포가 균일하지 않을 경우 정확도가 떨어짐 |
주성분 분석 (Principal Component Analysis) |
- 분산을 최대로 보존하면서 데이터 차원 축소 | - 고차원 데이터를 저차원 데이터로 축소할 때 사용됨 - 구현 쉬움 |
- 차원 축소 시 정보 손실 |
'Data Science' 카테고리의 다른 글
파이썬 함수 help dir (0) | 2023.02.27 |
---|---|
주피터 노트북 병합 (0) | 2022.11.23 |
Xgboost Error (0) | 2022.11.19 |
파이썬 함수 (0) | 2022.11.09 |
데이터 용어 (0) | 2022.11.09 |