- 데이터 베이스 특징: 통합, 저장, 공용, 운영
- DIKW 예시
- Data: A마트 라면 700원, B마트 라면 650원
- Information: B마트의 라면 가격이 더 저렴하다
- Knowledge: B마트에서 라면을 사는 것이 더 유리
- Wisdom: B마트의 다른 상품도 A마트보다 저렴할 것’이라고 예측
- 데이터 사이언티스트 소프트 역량: 창의적 사고, 호기심, 스토리텔링, 커뮤니케이션
- 빅데이터 시대 위기요인
- 사생활 침해: 개인정보 포함
- 책임 원칙 훼손: 잠재적 위협
- 데이터 오용: 잘못된 데이터
- 사물인터넷: 모든 사물에서 데이터를 추출할 수 있어야함
- ETL
- 특징: MPP(Massive Parallel Processing) 지원
- 작업단계
- Interface: 데이터 원천으로부터 데이터 획득
- Staging: 획득한 데이터 스테이징 테이블에 저장
- Profiling: 데이터 특성 식별 후 품질 측정
- Cleansing: 프로파일링된 데이터 보정
- Integration: 클렌징된 데이터 통합
- Denormalizing: 데이터 적재를 위한 비정규화
- VMware
- 특징
- 한 대의 컴퓨터를 여러 대의 컴퓨터를 사용하는 것과 같이 가상의 공간을 만들어줌
- 매핑 연산을 하드웨어적으로 도와주는 것을 TLB이라고 함
- 하이퍼바이저의 핵심 모듈은 VMkernel
- VMkernel은 디바이스 드라이버들의 메모리 영역을 제외한 나머지 메모리 영역을 관리하면서 가상머신에 메모리 할당
- 메모리 할당 문제 해결을 위한 방법
- Memory ballooning: 빈 값을 강제로 채움
- Transparent page sharing: 동일한 내용을 담고 있는 페이지는 물리적인 메모리 영역에 하나만 존재시킴
- Memory Overcommitment: 512MB 5개 수행
- 분석기회 발굴의 범위 중 시장니즈 탐색 관점에서 고객니즈의 변화: 고객, 채널, 영향자들
- 분석 프로젝트 관리영역: 범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스크, 의사소통, 이해관계자
- 분석과제 관리 프로세스
- 발생된 시사점과 분석 결과물 풀(pool)로 관리하고 공유
- 검정: 표본의 평균은 t-분포, 표본의 분산은 카이제곱분포를 따름
- 텍스트마이닝
- TDM(Term-Document-matrix): 전처리된 각 문서와 단어 간의 사용여부를 사용해 만들어진 행렬
- 스태밍(Stemming): 어간을 추출하는 방법
- 연관규칙
- 지지도: P(A∩B)로 동시에 포함하는 비율
- 신뢰도: P(B|A)로 A중에서 B를 포함하는 비율
- 향상도: P(B|A)/P(B)로 A→B일 때 임의로 B인 경우에 A가 포함되는 비율
- 시각화 인사이트 프로세스: 탐색 - 분석 - 활용
- 시각화
- 정보를 디자인할 때는 원인과 결과를 명확하게 제시하는 것이 좋음
- 시간보다는 공간에 따라 나열할 때 사용자의 이해가 쉬워짐
- 아이소타이프: 문자와 숫자 대신 상징적 도형이나 정해진 기호를 조합한 시각적 방식