4장. 통계분석
1절. 통계분석의 이해
- 표본추출
- 단순랜덤 추출법
- 계통추출법
- 집락추출법
- 층화추출법
- 측정
- 명목척도: 어느 집단에 속하는지 분류 (예: 성별)
- 순서척도: 서열관계 (예: 만족도)
- 구간척도: 구간 사이의 간격이 의미가 있는 자료 (예: 온도)
- 비율척도: 절대적 기준인 0이 존재하고 연산 가능 (예: 무게)
- 확률분포
- t-분포: 두 집단의 평균이 동일한지 검정
- 카이제곱 분포: 두 집단 간 동질성 검정
- F-분포: 두 집단 간 분산의 동일성 검정
- 가설검정
- 유의수준(alpha): 귀무가설이 옳은데도 이를 기각하는 확률의 크기
- 제1종 오류: 귀무가설이 옳은데도 이를 기각하게 되는 오류
- 제2종 오류: 귀무가설이 옳지 않은데도 이를 채택하게 되는 오류
- 비모수 검정
- 정의: 모집단 분포에 대한 가정을 하지 않는 검정
- 특징: 자료의 수가 많지 않거나 자료가 서열관계를 나타내는 경우
- 예시: 부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니의 U검정, 스피어만의 순위상관계수
2절. 기초통계분석
- 상관분석
- 스피어만: 순서형 변수들의 상관관계
- 피어슨: 연속형 변수들의 상관관계
3절. 통계분석 방법론
- t-검정
- 일표본 t-검정: 단일모집단
- 대응표본 t-검정: 단일모집단의 두 개의 표본
- 독립표본 t-검정: 두 개의 독립된 모집단
- 분산분석(ANOVA)
- 정의: 두 개 이상 집단들의 평균 차이
4절. 회귀분석
- 가정
- 선형성: 설명변수와 종속변수의 선형관계
- 등분산성: 잔차의 산점도
- 독립성: 자기상관독립
- 비상관성: 오차들끼리의 비상관성
- 정규성: Q-Q plot
5절. 고급 회귀분석
- 정규화 선형회귀
- 릿지회귀: 가중치들의 제곱합 최소화
- 라쏘회귀: 가중치 절댓값의 합 최소화
- 엘라스틱넷: 릿지회귀와 라쏘회귀의 결합
- 일반화 선형회귀
- 정의: 종속변수를 적절한 함수 f(x)로 변형시켜 독립변수와 선형결합한 모형
6절. 시계열 분석
- 정상성
- 차분: 평균이 일정하지 않은 시계열
- 변환: 분산이 일정하지 않은 시계열
- 공분산: 시점이 아닌 시차에 의존
- 분석방법
- 이동평균법: 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균 계산
- 지수평활법: 모든 시계열 자료를 사용하여 평균 계산
- 시계열모형
- 자기회귀모형(AR): p시점 전의 자료가 현재 자료에 영향, PACF로 절단점 판단
- 이동평균모형(MA): 백색잡음(white noise)로 이뤄진 모형으로 언제나 정상성 만족, ACF로 절단점 판단
- 자귀회귀누적이동평균모형(ARIMA): 비정상 시계열 자료를 차분해 정상성 만족시킴
- 분해시계열
- 추세요인: 자료가 오르거나 내리는 추세
- 계절요인: 각 분기에 의한 변화 등 고정된 주기
- 순환요인: 경제적이나 자연적인 이유 없이 알려지지 않은 주기
- 불규칙요인: 위의 세 가지 요인으로 설명할 수 없는 오차에 해당하는 요인
7절. 다차원척도법
- 다차원척도법
- 정의: 객체간 근접성을 시각화하는 통계기법
- 특징: 데이터 속에 잠재해 있는 패턴 발견
- 방법: 유클리드 거리행렬 활용
- 종류
- 계량적 MDS: 비율척도나 구간척도
- 비계량적 MDS: 순서척도
8절. 주성분 분석
- 주성분분석: 서로 상관성이 높은 변수들의 선형결합
- 요인분석: 등간척도로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법
5장. 정형 데이터 마이닝
1절. 데이터마이닝
- 분석방법
- 지도학습
- 의사결정나무
- 인공신경망
- 일반화 선형모형
- 회귀분석
- 로지스틱 회귀분석
- 사례기반 추론
- 최근접 이웃법(KNN)
- 비지도학습
- OLAP
- 연관성 규칙발견
- 군집분석
- SOM(Self Organizing Map)
- 지도학습
- 성과분석
- 오분류에 대한 추정치
- 정분류율(Accuracy)
- 오분류율(Error Rate)
- 특이도(Specificity, True Negative Rate)
- 민감도(Sensitivity, True Positive Rate)
- 정확도(Precision)
- 재현율(Recall)
- F1 Score
- ROC Curve
- 정의: 가로축 FPR(1-특이도), 세로축 TPR(민감도)로 두어 시각화한 그래프
- AUROC: ROC 아래의 면적을 의미하며, 값이 클수록 모형의 성능 좋음
- 이익도표(Lift Chart)
- 정의: 분류모형의 성능 평가
- 방법: 예측확률에 따라 내림차순 정렬 - 구간 나눔 - 구간별 반응률 산출
- 해석: 등급별로 Lift가 급격하게 감소할수록 좋은 모델
- 오분류에 대한 추정치
2절. 분류분석
- 분류모델링: 신용평가모형, 사기방지모형, 이탈모형, 고객세분화
- 로지스틱 회귀분석
- 정의: 반응변수가 범주형인 경우 적용하는 회귀분석
- 오즈: (성공할 확률)/(실패할 확률)로 성공확률이 실패확률의 몇 배인지 나타내는 확률
- 의사결정나무
- 분리기준
- 이산형 종속변수
- 카이제곱 통계량: (실제도수와 기대도수 차이의 제곱)/(기대도수)
- 지니지수: 노드의 불순도를 나타내는 값으로 값이 클수록 불순도가 높음
- 엔트로피 지수: 무질서 정도로 값이 클수록 순수도가 낮음
- 연속형 종속변수
- 분산분석의 F-통계량
- 분산의 감소량
- 이산형 종속변수
- 분리기준
5절. 군집분석
- 계층적 군집분석
- 정의: n개의 군집으로 시작해 점차 군집의 개수를 줄여가는 방법
- 최단연결법: 가장 거리가 가까운 데이터를 묶어 군집 형성
- 최장연결법: 최장거리로 계산하여 거리행렬 수정
- 평균연결법: 데이터와의 거리를 계산할 때 평균을 거리로 계산
- 와드연결법: 군집 내 편차들의 제곱합을 고려한 방법으로 정보 손실 최소화
- 비계층적 군집분석
- 정의: n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검하여 최적화한 군집형성
- k-means 군집분석: 클러스터 간 거리 차이의 분산을 최소화
6절. 연관분석
- 연관성 분석
- Apriori 알고리즘: 모든 품목집합에 대한 지지도를 계산하는 것이 아닌 최소 지지도 이상의 빈발항목집합을 찾은 후 계산
- FP-Growth: 후보 빈발항목집합을 생성하지 않고, FP-Tree를 만든 후 분할정복
6장. 데이터 마이닝
2절. 사회연결망 분석
- 사회연결망 분석
- SNA(Social Network Analysis): 개인과 집단들 간의 관계를 노드와 링크로 모델링
- 분류
- 집합론적: 객체들 간의 관계를 쌍(pair)로 표현
- 그래프 이론: 객체를 점으로 연결하고, 객체 간 연결은 두 점을 연결하는 선으로 표현
- 행렬: 객체를 행과 열에 대칭적으로 배치
- 기법
- 중심성
- 연결정도 중심성: 한 점에 직접적으로 연결된 점들의 합
- 근접 중심성: 한 노드로부터 다른 노드에 도달하기까지 필요한 최소 단계의 합
- 매개 중심성: 매개자 역할로 노드들 간의 최다 연결 경로에 위치할수록 중심성 높음
- 위세 중심성: 연결정도 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합하여 결정
- 중심성
'ADP' 카테고리의 다른 글
ADP 기출 1회 오답 (0) | 2022.11.09 |
---|---|
ADP 서술형 (0) | 2022.11.09 |
ADP 3과목 (0) | 2022.11.09 |
ADP 모의고사 1회 오답 (0) | 2022.11.09 |
ADP 5과목 (0) | 2022.11.09 |