1. 일반적인 데이터 분석 절차
문제 인식 - 연구조사 - 모형화 - 데이터 수집 - 데이터 분석 - 분석 결과 제시
2. 맵리듀스 데이터 처리과정
Split - Map - Shuffle - Reduce
3. 분석 마스터 플랜 수립 우선순위 결정 요인
전략적 중요도, 비즈니스 성과(ROI), 실행 용이성
- 비즈니스 성과(ROI) 투자비용 요소
: 데이터 크기, 형태, 속도
4. 대표적인 데이터 저장 방식
파일 시스템, 관계형 데이터베이스, 분산처리 데이터베이스
5. 하향식 접근 방식 4단계 구성요소
문제 탐색, 문제 정의, 해결방안 탐색, 타당성 평가
6. NoSQL 데이터베이스 저장방식 종류
key-value, column-oriented, document
7. 모수와 모수추정 개념
모수의 추정량의 선택기준 : 불편성효율성일치성_표본 크기가 증가할수록 좋은 추정값을 제시충분성
8. 스튜던트 t 분포 자유도
- 자유도가 클수록 정규분포 모양 수렴- 자유도가 1보다 클 때만 스튜던트 t 분포에서 기대값 0- 정규분포 평균 측정 시 주로 사용- 분포 모양 z-분포와 유사- 종 모양으로 t=0에 대하여 대칭, t-곡선 모양 결정
9. 시공간
- 정의언어 : 시공간 테이블 인덱스, 뷰의 정의문, 변경문 공간&시간적 속성 동시 포함, 점,선,면 공간속성 타입 추가
- 조작언어 : 객체의 삽입, 삭제, 변경
10. 무작위 & 비무작위 결측
나이대별(X) 성별(Y)과 체중(Z) 분석에 대한 모델링을 가정해 보면
X, Y, Z와 관계없이 Z가 없는 경우 : 데이터의 누락(응답 없음) → 완전 무작위 결측(MCAR)
여성(Y)은 체중공개를 꺼려 하는 경향 : Z가 누락될 가능성이 Y에만 의존→ 무작위 결측(MAR)
젊은(X) 여성(Y)의 경우는 체중공개를 꺼리는 경우가 더 높음 → 무작위 결측(MAR)
무거운(가벼운) 사람들은 체중 공개 가능성이 적음 : Z가 누락될 가능성이 Z값 자체에 관찰되지 않는 값에 달려 있음 → 비 무작위 결측(NMAR)
11. 공간데이터 용어
위상적 타입 : 공간 객체 간의 관계, 방위, 공간 객체 간 중첩, 포함, 교차, 분리 등 위치적 관계
12. 회귀분석 기본 가정
- 선형성
- 잔차 정규성
- 잔차 등분산성
- 다중공선성
13. 오토인코더
- 비지도학습
- 뉴럴 네트워크 두 개(인코더 + 디코더)
14. CART 불순도 측도
범주형 또는 이산형일 경우 => 지니 지수
연속형 => 이진분리
15. ReLU
- Sigmoid의 Gradient Vanishing 문제 해결
- 0보다 크면 입력값 그대로 출력, 0 이하의 값은 0으로 출력
16. 순환신경망(RNN)
- 필기체 인식, 높은 인식률
- 유닛 사이의 연결 Directed Cycle
- 기억 지님, 지금까지의 입력 데이터 요약한 정보
17. 분석모형 선정 프로세스
- 데이터 도식화, 분석목표 정의, 데이터 수집
18. 분석모형 리모델링 단계
- 데이터 품질 검토, 분석 알고리즘 개선, 매개변수 최적화
19. 초매개변수 최적화 기법
미니배치 크기, 훈련반복 횟수, 은닉층 개수조정
20. 오차행렬
훈련을 통한 예측 성능 측정, 예측값과 실제값 비교표
21. 매개변수 최적화 기법
Momentum : 확률적 경사 하강법(손실함수 가장 작은 지점)+ 기울기 방향으로 힘을 받으면 물체가 가속되는 물리법칙 알고리즘에 적용
SGD : 확률적 경사 하강법, 매개변수 값 조정 시 전체 데이터가 아닌 랜덤으로 선택한 하나의 데이터만 계산
22. 비지도학습 군집분석 성능 지표
군집의 분산, 지름, 군집 간 분산과 군집 내 분산 간 거리
23. 분석 모델별 활용되는 시각화 기법
- SVM : 비교시각화, 산점도
- KNN : 비교시각화, 평행좌표계
- 의사결정나무 : 관계시각화, 트리 다이어그램
- 회귀모델 : 비교, 시간, 관계시각화, 히트맵
24. 빅데이터 활용에 필요한 3 요소
자원(데이터), 인력, 기술
25. 계층적 프로세스 모델 구성요소
단계, 태스크, 스텝
26. 딥러닝 & 머신러닝
딥러닝
분석기법 : LSTM, RNN, Auto-encoder
시각화: 산포도, 차원축소, 노드-링크 다이어그램
머신러닝
분석기법: KNN
지도, 비지도, 준지도, 강화학습
27. NCS 데이터 분석 요구역량
- 도메인 이슈 도출
- 분석 목표 수립
- 프로젝트 계획 수립
- 보유 데이터 자산 확인
28. 비식별화된 개인정보의 재식별 가능성 검토
- k 익명성
- L 다양성
- t 근접성
29. 임계치 & 기각역
- 임계치 : 유의수준 a에서 귀무가설 채택과 기각 기준점
- 기각역 : 귀무가설 기각하게 되는 검정통계량 범위
30. 가설검정의 절차
유의 수준결정 - 검정 통계량 설정 - 기각역 설정 - 검정통계량 계산 - 통계적 의사결정
31. 적합도 검정 기법 : 범주형 변수 분석법
정규성 검정, 카이제곱 검정, 콜모고로프 스미르노프 검정
32. 연속형 데이터와 이산형 데이터의 시각적 속성
위치, 색, 크기
33. 모델 평가지표
- 지도학습 회귀 : RMSE, R^2, AIC
- 비지도학습 군집분석 : Dunn Index