Data Science

통계학 기초

봄프로 2023. 6. 28. 22:43

1. 통계의 이해

  • 기술 통계: 데이터를 요약하여 이해하기 쉬운 형태로 나타냄 Ex. 평균, 분산, 백분위수
  • 추론 통계: 수집된 데이터를 바탕으로 예측, 결론, 일반화를 내리는데 사용되는 통계적 방법

2. 변수

  • 연속 변수 Ex. 무게, 온도, 시간
  • 이산 변수 Ex. 개수
  • 범주형 변수 Ex. 순서형 변수 학점, 명목형 변수 혈액형

3. 데이터 및 확률 분포

  • 평균: 모든 데이터의 합을 개수로 나눈 값
  • 중앙값: 크기 순으로 나열했을 때 가운데 위치한 값
  • 최빈값: 가장 많이 등장하는 값
  • 범위: 최대값과 최소값 차이
  • 분산: 각 데이터가 평균으로부터 얼마나 떨어져있는지 나타낸 값
  • 이항 분포: 독립적인 N번의 시도에서 성공 횟수 X가 따르는 확률 분포
  • 포아송 분포: 일정한 시간 또는 공간에서 발생하는 이벤트 발생 확률 분포

4. 상관 분석

  • 상관 계수: 두 변수 간의 통계적 관계
  • 공분산: 두 변수가 어떻게 함께 변하는지를 나타내는 값

5. 회귀 분석

  • 회귀 분석: 독립 변수가 종속 변수에 미치는 영향 분석
  • 최소 제곱법: 잔차의 제곱합을 최소화하는 모델 파라미터 찾는 기법
  • 경사 하강법