Data Science

Machine Learning Model

봄프로 2022. 11. 19. 15:49
알고리즘 개념 장점 단점
k-최근접 이웃
(K-Nearest Neighbor)
- 주변의 가장 가까운 K개의
샘플을 통해 값을 예측
- 구현 쉬움
- 알고리즘 이해하기 쉬움
- 하이퍼파라미터 적음
- 계산 속도 느림
- 메모리 많이 씀
- 노이즈 데이터에 예민
서포트 벡터 머신
(Support Vector Machine)
- 데이터들과 거리가 가장 먼
초평면을 선택하여 분리
- 정확도 높음
- 예측 속도 빠름
- 고차원 데이터 효과적
- 모형 구축 시간 오래 걸림
- 해석하기 어려움
- 커널 트릭 오사용 시 과대적합되기 쉬움
의사결정트리
(Decision Tree)
- 특정 분류 규칙에 따라 데이터 분리 - 결과 해석 용이
- 학습 및 예측 속도 빠름
- 전처리, 통계가정 필요없음
- 과대적합 가능성
- 하이퍼파라미터가 많음
랜덤포레스트
(Random Forest)
- 의사결정나무 모델 여러 개를
훈련시켜서 그 결과를 종합
- 의사결정트리의 과대적합 보완
- 스케일링 불필요
- 하이퍼파라미터 많음
- 메모리 많이 씀
- 차원이 크고 희소한 데이터 부적합
나이브베이즈
(Naïve Bayes)
- 베이즈 정리에 기반한 통계적 분류 기법 - 고차원 데이터 처리하기 쉬움
- 구현 쉬움
- 학습 및 추론 시간 빠름
- 모든 변수가 독립변수가 아닐 경우 부적합
선형회귀
(Linear Regression)
- 데이터를 표현하는 최적의 선 - 결과 해석 용이
- 수집된 데이터를 통해 새롭게 관측된 데이터의 예측값을 구할 수 있음
- 데이터가 선형적인 관계를 가지지 않을 경우 부적합
로지스틱회귀
(Logistic Regression)
- 출력변수의 조건부 확률을 softmax 함수로 모델링 - 데이터 분류 시 확률 제공
- 회귀계수 해석 가능
- 데이터 특징이 많을 경우 학습이 어려워 과소적합 가능성
- 단순한 선형식이 아니기 때문에 해석 어려움
k-평균
(K-Means)
- 거리 기반으로 K개의 군집으로 분리 - 데이터 크기에 상관 없이 군집화 가능
- 구현 쉬움
- 군집화 결과에 대한 확률을 제공하지 않음
- 데이터의 분포가 균일하지 않을 경우 정확도가 떨어짐
주성분 분석
(Principal Component Analysis)
- 분산을 최대로 보존하면서 데이터 차원 축소 - 고차원 데이터를 저차원 데이터로 축소할 때 사용됨
- 구현 쉬움
- 차원 축소 시 정보 손실

 

출처: https://ahnsun98.tistory.com/m/32