Machine Learning Model

Data Science

Machine Learning Model

봄프로 2022. 11. 19. 15:49

알고리즘	개념	장점	단점
k-최근접 이웃 (K-Nearest Neighbor)	- 주변의 가장 가까운 K개의 샘플을 통해 값을 예측	- 구현 쉬움 - 알고리즘 이해하기 쉬움 - 하이퍼파라미터 적음	- 계산 속도 느림 - 메모리 많이 씀 - 노이즈 데이터에 예민
서포트 벡터 머신 (Support Vector Machine)	- 데이터들과 거리가 가장 먼 초평면을 선택하여 분리	- 정확도 높음 - 예측 속도 빠름 - 고차원 데이터 효과적	- 모형 구축 시간 오래 걸림 - 해석하기 어려움 - 커널 트릭 오사용 시 과대적합되기 쉬움
의사결정트리 (Decision Tree)	- 특정 분류 규칙에 따라 데이터 분리	- 결과 해석 용이 - 학습 및 예측 속도 빠름 - 전처리, 통계가정 필요없음	- 과대적합 가능성 - 하이퍼파라미터가 많음
랜덤포레스트 (Random Forest)	- 의사결정나무 모델 여러 개를 훈련시켜서 그 결과를 종합	- 의사결정트리의 과대적합 보완 - 스케일링 불필요	- 하이퍼파라미터 많음 - 메모리 많이 씀 - 차원이 크고 희소한 데이터 부적합
나이브베이즈 (Naïve Bayes)	- 베이즈 정리에 기반한 통계적 분류 기법	- 고차원 데이터 처리하기 쉬움 - 구현 쉬움 - 학습 및 추론 시간 빠름	- 모든 변수가 독립변수가 아닐 경우 부적합
선형회귀 (Linear Regression)	- 데이터를 표현하는 최적의 선	- 결과 해석 용이 - 수집된 데이터를 통해 새롭게 관측된 데이터의 예측값을 구할 수 있음	- 데이터가 선형적인 관계를 가지지 않을 경우 부적합
로지스틱회귀 (Logistic Regression)	- 출력변수의 조건부 확률을 softmax 함수로 모델링	- 데이터 분류 시 확률 제공 - 회귀계수 해석 가능	- 데이터 특징이 많을 경우 학습이 어려워 과소적합 가능성 - 단순한 선형식이 아니기 때문에 해석 어려움
k-평균 (K-Means)	- 거리 기반으로 K개의 군집으로 분리	- 데이터 크기에 상관 없이 군집화 가능 - 구현 쉬움	- 군집화 결과에 대한 확률을 제공하지 않음 - 데이터의 분포가 균일하지 않을 경우 정확도가 떨어짐
주성분 분석 (Principal Component Analysis)	- 분산을 최대로 보존하면서 데이터 차원 축소	- 고차원 데이터를 저차원 데이터로 축소할 때 사용됨 - 구현 쉬움	- 차원 축소 시 정보 손실

출처: https://ahnsun98.tistory.com/m/32