1. 기술 통계 vs 추론 통계
기술 통계 (Descriptive Statistics) : 자료를 쉽게 파악하도록 정리, 요약, 시각화 => 주어진 자료의 특징 파악
Python | Excel | |||
평균 | Average | 전체합 / 개체 수 | mean | AVERAGE |
중앙값 | Median | 주어진 값 단순히 크기순으로 나열 시 중앙에 위치한 값 | median | MEDIAN |
최빈값 | Mode | 가장 많이 나타나는 값 | mode | MODE |
분산 | Variance | 관찰값에서 평균을 뺀 값의 제곱의 평균 (데이터가 중심에서 퍼진 정도) |
var | VAR |
표준편차 | Standard Deviation | 분산의 제곱근 표준편차 = √분산 |
std | STDEV |
백분위수 | Percentile | quantile | PERCENTILE |
추론 통계 (Inferential Statistics) : 표본 자료 정보로 분석하여 추론을 수행 => 주어진 자료로 모집단 추론
대한민국 1가구당 평균 주거비, 랜덤으로 1,000 가구 조사 |
|||
모집단 | Population | 관심의 대상이 되는 모든 개체의 모임 / 대상 | 대한민국 모든 가구 |
표본 | Sample | 모집단을 알기 위해 실제로 관측한 모집단의 일부 | 랜덤으로 뽑은 1,000 가구 |
모수 | Parameter | 모집단의 특성을 나타내는 대푯값 추론 통계를 통해 알고자 하는 값 |
대한민국 가구당 평균 주거비 |
통계량 | Statistic | 표본의 특성을 나타내는 대푯값 | 표본 1,000 가구의 주거비 |
2. 자료의 종류
자료 | 시각화 | 변수 | 예 | ||
질적 (범주형) |
막대그래프 | 명목 | 이름처럼 명명 | 성별(여성,남성), 혈액형(A, B, AB, O) | |
서열 | 순서가 있음 | 암의 병기(1기, 2기, 3기, 4기), 교육수준(초졸, 중졸, 고졸...) | |||
양적 | 히스토그램 | 연속형 | 실수 구간 안의 모든 값 가질 수 있음 셀 수 없는 값 |
몸무게, 키, 온도 | |
이산형 | 셀 수 있는 값 | 시험 점수, 가구당 아동 수 |
독립 변수 | 입력값이나 원인 | 예를 들어 Y = 2X +5 일 때, Y는 종속 변수, X는 독립변수 |
종속 변수 | 독립 변수에 영향을 받는 결과, 연구자가 알고 싶어하는 변수 |