ADP 4과목

2022. 11. 9. 20:21·ADP

4장. 통계분석

1절. 통계분석의 이해

  1. 표본추출
    1. 단순랜덤 추출법
    2. 계통추출법
    3. 집락추출법
    4. 층화추출법
  2. 측정
    1. 명목척도: 어느 집단에 속하는지 분류 (예: 성별)
    2. 순서척도: 서열관계 (예: 만족도)
    3. 구간척도: 구간 사이의 간격이 의미가 있는 자료 (예: 온도)
    4. 비율척도: 절대적 기준인 0이 존재하고 연산 가능 (예: 무게)
  3. 확률분포
    1. t-분포: 두 집단의 평균이 동일한지 검정
    2. 카이제곱 분포: 두 집단 간 동질성 검정
    3. F-분포: 두 집단 간 분산의 동일성 검정
  4. 가설검정
    1. 유의수준(alpha): 귀무가설이 옳은데도 이를 기각하는 확률의 크기
    2. 제1종 오류: 귀무가설이 옳은데도 이를 기각하게 되는 오류
    3. 제2종 오류: 귀무가설이 옳지 않은데도 이를 채택하게 되는 오류
  5. 비모수 검정
    1. 정의: 모집단 분포에 대한 가정을 하지 않는 검정
    2. 특징: 자료의 수가 많지 않거나 자료가 서열관계를 나타내는 경우
    3. 예시: 부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니의 U검정, 스피어만의 순위상관계수

 

2절. 기초통계분석

  1. 상관분석
    1. 스피어만: 순서형 변수들의 상관관계
    2. 피어슨: 연속형 변수들의 상관관계

 

3절. 통계분석 방법론

  1. t-검정
    1. 일표본 t-검정: 단일모집단
    2. 대응표본 t-검정: 단일모집단의 두 개의 표본
    3. 독립표본 t-검정: 두 개의 독립된 모집단
  2. 분산분석(ANOVA)
    1. 정의: 두 개 이상 집단들의 평균 차이

 

4절. 회귀분석

  1. 가정
    1. 선형성: 설명변수와 종속변수의 선형관계
    2. 등분산성: 잔차의 산점도
    3. 독립성: 자기상관독립
    4. 비상관성: 오차들끼리의 비상관성
    5. 정규성: Q-Q plot

 

5절. 고급 회귀분석

  1. 정규화 선형회귀
    1. 릿지회귀: 가중치들의 제곱합 최소화
    2. 라쏘회귀: 가중치 절댓값의 합 최소화
    3. 엘라스틱넷: 릿지회귀와 라쏘회귀의 결합
  2. 일반화 선형회귀
    1. 정의: 종속변수를 적절한 함수 f(x)로 변형시켜 독립변수와 선형결합한 모형

 

6절. 시계열 분석

  1. 정상성
    1. 차분: 평균이 일정하지 않은 시계열
    2. 변환: 분산이 일정하지 않은 시계열
    3. 공분산: 시점이 아닌 시차에 의존
  2. 분석방법
    1. 이동평균법: 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균 계산
    2. 지수평활법: 모든 시계열 자료를 사용하여 평균 계산
  3. 시계열모형
    1. 자기회귀모형(AR): p시점 전의 자료가 현재 자료에 영향, PACF로 절단점 판단
    2. 이동평균모형(MA): 백색잡음(white noise)로 이뤄진 모형으로 언제나 정상성 만족, ACF로 절단점 판단
    3. 자귀회귀누적이동평균모형(ARIMA): 비정상 시계열 자료를 차분해 정상성 만족시킴
    4. 분해시계열
      1. 추세요인: 자료가 오르거나 내리는 추세
      2. 계절요인: 각 분기에 의한 변화 등 고정된 주기
      3. 순환요인: 경제적이나 자연적인 이유 없이 알려지지 않은 주기
      4. 불규칙요인: 위의 세 가지 요인으로 설명할 수 없는 오차에 해당하는 요인

 

7절. 다차원척도법

  1. 다차원척도법
    1. 정의: 객체간 근접성을 시각화하는 통계기법
    2. 특징: 데이터 속에 잠재해 있는 패턴 발견
    3. 방법: 유클리드 거리행렬 활용
    4. 종류
      1. 계량적 MDS: 비율척도나 구간척도
      2. 비계량적 MDS: 순서척도

 

8절. 주성분 분석

  1. 주성분분석: 서로 상관성이 높은 변수들의 선형결합
  2. 요인분석: 등간척도로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법

 

5장. 정형 데이터 마이닝

1절. 데이터마이닝

  1. 분석방법
    1. 지도학습
      1. 의사결정나무
      2. 인공신경망
      3. 일반화 선형모형
      4. 회귀분석
      5. 로지스틱 회귀분석
      6. 사례기반 추론
      7. 최근접 이웃법(KNN)
    2. 비지도학습
      1. OLAP
      2. 연관성 규칙발견
      3. 군집분석
      4. SOM(Self Organizing Map)
  2. 성과분석
    1. 오분류에 대한 추정치
      1. 정분류율(Accuracy)
      2. 오분류율(Error Rate)
      3. 특이도(Specificity, True Negative Rate)
      4. 민감도(Sensitivity, True Positive Rate)
      5. 정확도(Precision)
      6. 재현율(Recall)
      7. F1 Score
    2. ROC Curve
      1. 정의: 가로축 FPR(1-특이도), 세로축 TPR(민감도)로 두어 시각화한 그래프
      2. AUROC: ROC 아래의 면적을 의미하며, 값이 클수록 모형의 성능 좋음
    3. 이익도표(Lift Chart)
      1. 정의: 분류모형의 성능 평가
      2. 방법: 예측확률에 따라 내림차순 정렬 - 구간 나눔 - 구간별 반응률 산출
      3. 해석: 등급별로 Lift가 급격하게 감소할수록 좋은 모델

 

2절. 분류분석

  1. 분류모델링: 신용평가모형, 사기방지모형, 이탈모형, 고객세분화
  2. 로지스틱 회귀분석
    1. 정의: 반응변수가 범주형인 경우 적용하는 회귀분석
    2. 오즈: (성공할 확률)/(실패할 확률)로 성공확률이 실패확률의 몇 배인지 나타내는 확률
  3. 의사결정나무
    1. 분리기준
      1. 이산형 종속변수
        1. 카이제곱 통계량: (실제도수와 기대도수 차이의 제곱)/(기대도수)
        2. 지니지수: 노드의 불순도를 나타내는 값으로 값이 클수록 불순도가 높음
        3. 엔트로피 지수: 무질서 정도로 값이 클수록 순수도가 낮음
      2. 연속형 종속변수
        1. 분산분석의 F-통계량
        2. 분산의 감소량

 

5절. 군집분석

  1. 계층적 군집분석
    1. 정의: n개의 군집으로 시작해 점차 군집의 개수를 줄여가는 방법
    2. 최단연결법: 가장 거리가 가까운 데이터를 묶어 군집 형성
    3. 최장연결법: 최장거리로 계산하여 거리행렬 수정
    4. 평균연결법: 데이터와의 거리를 계산할 때 평균을 거리로 계산
    5. 와드연결법: 군집 내 편차들의 제곱합을 고려한 방법으로 정보 손실 최소화
  2. 비계층적 군집분석
    1. 정의: n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검하여 최적화한 군집형성
    2. k-means 군집분석: 클러스터 간 거리 차이의 분산을 최소화

 

6절. 연관분석

  1. 연관성 분석
    1. Apriori 알고리즘: 모든 품목집합에 대한 지지도를 계산하는 것이 아닌 최소 지지도 이상의 빈발항목집합을 찾은 후 계산
    2. FP-Growth: 후보 빈발항목집합을 생성하지 않고, FP-Tree를 만든 후 분할정복

 

6장. 데이터 마이닝

2절. 사회연결망 분석

  1. 사회연결망 분석
    1. SNA(Social Network Analysis): 개인과 집단들 간의 관계를 노드와 링크로 모델링
    2. 분류
      1. 집합론적: 객체들 간의 관계를 쌍(pair)로 표현
      2. 그래프 이론: 객체를 점으로 연결하고, 객체 간 연결은 두 점을 연결하는 선으로 표현
      3. 행렬: 객체를 행과 열에 대칭적으로 배치
  2. 기법
    1. 중심성
      1. 연결정도 중심성: 한 점에 직접적으로 연결된 점들의 합
      2. 근접 중심성: 한 노드로부터 다른 노드에 도달하기까지 필요한 최소 단계의 합
      3. 매개 중심성: 매개자 역할로 노드들 간의 최다 연결 경로에 위치할수록 중심성 높음
      4. 위세 중심성: 연결정도 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합하여 결정

'ADP' 카테고리의 다른 글

ADP 기출 1회 오답  (0) 2022.11.09
ADP 서술형  (0) 2022.11.09
ADP 3과목  (0) 2022.11.09
ADP 모의고사 1회 오답  (0) 2022.11.09
ADP 5과목  (0) 2022.11.09
'ADP' 카테고리의 다른 글
  • ADP 기출 1회 오답
  • ADP 서술형
  • ADP 3과목
  • ADP 모의고사 1회 오답
봄프로
봄프로
Data Scientist
  • 봄프로
    To be professional
    봄프로
    • 분류 전체보기 (59)
      • LLM (16)
      • Data Science (24)
      • ADP (8)
      • Domain (8)
      • Etc (3)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 인기 글

  • 태그

    오블완
    YOLO
    티스토리챌린지
    KBI
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
봄프로
ADP 4과목
상단으로

티스토리툴바