반응형
SMALL
기술통계
- 데이터 분석의 목적으로 수집된 데이터를 확률·통계적으로 정리 및 요약하는 기초적인 통계임
- 분석의 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 주로 산출함
- 통계적 수치를 계산하고 도출하거나 그래프를 활용하여 데이터에 대한 전반적인 이해를 도움
1. 데이터 요약
1) 기초 통계량
① 평균(Mean)
- 자료를 모두 더한 후 자료 개수로 나눈 값
- 전부 같은 가중치를 두며, 이상값에 민감한 단점이 있음
- 평균에는 표본평균, 모평균, 가중평균이 있음
② 중위수(Median)
- 모든 데이터값을 크기 순서로 오름차순 정렬하였을 때 중앙에 위치한 데이터값으로 중앙값이라고도 함
- 특이값에 영향을 받지 않음
- 데이터 값의 수가 홀수일 경우에는 중위수가 하나가 되지만 짝수일 경우에는 중앙에 위치한 두 개의 값의 평균으로 중위수를 구함
③ 최빈수(Mode)
- 데이터 값 중에서 빈도수가 가장 높은 데이터 값
- 주어진 데이터 중에서 가장 많이 관측되는 수
④ 범위(Range)
- 최대 데이터 값(Max) - 최소 데이터 값(Min)
⑤ 분산(Variance)
- 데이터가 평균으로부터 흩어진 정도를 나타냄
- 표본 분산과 모분산이 있음
⑥ 표준편차(Standard Deviation)
- 분산에 양으 제곱근을 취한 값
- 표본의 표준편차와 모집단의 표준편차가 있음
⑦ 평균의 표준 오차(Standard Error of Mean)
- 표본 평균의 표본 추출 분포에 대한 표준 편차
- 모집단으로부터 수많은 표본들을 추출한 후 각 표본들에 대한 평균을 구하고, 각 평균들에 대한 전체 평균을 다시 구해 각 평균들이 전체 평균으로부터 평균적으로 얼마나 떨어져 있는지를 나타낸 값
⑧ 분포(Distribution)
- 데이터 분포의 형태와 대칭성을 설명할 수 있는 통계량
- 첨도(Kurtosis)와 왜도(Skewness)가 있음
2) 상관 분석
- 상관 분석(Correlation Analysis)은 두 개 이상의 변수 간에 존재하는 연관성의 정도를 측정하여 분석하는 방법
① 수치적 데이터 변수의 상관 분석
- 수치적 데이터 변수로 이루어진 두 변수 간의 선형적 연관성을 계량적으로 파악하기 위한 통계적 기법
- 일반적으로 피어슨 상관계수(Pearson Correlation Coefficient)를 선형관련성 정도로 측정하는 척도로 사용
② 명목적 데이터 변수의 상관 분석
- 항목들을 분류하기 위한 명목적 데이터 변수들로 이루어진 두 변수 간의 연관성을 계량적으로 파악하기 위한 통계적 기법
- 수치적 데이터 변수와 달리 분류의 의미를 지닌 명목적 데이터 변수 간의 상관계수를 계산하는 것이 큰 의미가 없음
③ 순서적 데이터 변수의 상관 분석
- 순서가 중요한 의미가 있는 순서적 데이터 변수들로 이루어진 두 변수 간의 연관성 및 상관관계를 검정하기 위한 통계적 분석기법
- 순서적 데이터의 변수의 상관 분석은 스피어만 순위상관계수(Spearman's Rank Correlation Coefficient)를 통해서 분석을 수행
3) 회귀 분석
- 회귀 분석은 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 회귀 분석 모델은 독립변수와 종속변수의 개수 및 형태에 따라서 다양한 세부 모델들로 분류함
① 회귀 분석 모형의 종류
모형 | 설명 |
단순 회귀 모형 | ☞ 독립변수와 종속변수가 1개씩이면서 모두 수치형 변수인 경우 |
다중 회귀 모형 | ☞ 2개 이상의 독립변수이면서 수치형 혹은 범주형 ☞ 1개의 수치형 종속변수 |
② 회귀 분석 모형의 적합성 평가
- 객관적으로 도출된 회귀식이 통계적으로 유의한지를 평가하기 위해 분산 분석표를 활용
- 모형이 얼마나 잘 설명력을 가지는지를 확인하기 위해서는 결정계수 R2을 확인함
- 회귀 분석 결과를 신뢰하고 효과적으로 활용하기 위해서는 5가지 전제조건이 있음
전제조건 | 설명 |
선형성 | ☞ 독립변수와 종속변수 간에는 선형관계가 존재 |
등분산성 | ☞ 잔차(추정오차)들은 같은 분산을 가짐 |
독립성 | ☞ 잔차와 독립변수의 값이 관련돼 있지 않음 |
비상관성 | ☞ 관측치들의 잔차들끼리 상관이 없어야 함 |
정규성 | ☞ 잔차는 정규 분포를 따름 |
③ 독립변수 선택 방법
선택 방법 | 설명 |
후진 제거법(Backward Elimination) | ☞ 모든 독립변수를 사용하여 하나의 회귀식을 수립 ☞ 회귀식에서 중요하지 않은 독립변수 값들에 대한 검정을 한 후, 그 값이 가장 작은 변수부터 차례로 제거하고 남은 나머지 독립변수들을 바탕으로 회귀식을 다시 추정하는 방법 |
전진 선택법(Forward Selection) | ☞ 종속변수에 가장 큰 영향을 줄 것으로 판단되는 하나의 독립변수를 이용하여 회귀식을 수립한 후, 단계마다 중요하다고 판단되는 독립변수를 하나씩 회귀식에 추가하여 회귀모델을 다시 추정하여 새로운 독립변수의 부분 검정을 통해 중요 정도를 계산하는 방법 |
단계적 방법(Stepwise Method) | ☞ 후진 제거법과 전진 선택법의 절충적인 형태 ☞ 전진 선택법에 따라 종속변수에 가장 큰 상관관계가 있는 독립변수를 택하고 각 단계에서 후진 제거법과 같이 회귀식에서 중요하지 않은 독립변수를 제거하는 방법 ☞ 가장 많이 활용되는 선택법 |
4) 분산 분석
- 분산 분석(Analysis of Variance)는 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분석 비교로 얻은 F-분포를 이용하여 가설 검정을 수행하는 방법
- 검정 통계량(Test Statistic)인 F-검정 통계량 값은 집단 내 분산 대비 집단 간 분산이 몇 배 더 큰지를 나타내는 값으로 해석됨
- 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이가 있는지 판정하는 분석 방법임
- 분산 분석의 종류는 아래와 같음
종류 | 설명 |
일원분산 분석 | ☞ 집단을 나누는 요인인 독립변수가 1개이고 종속변수도 1개인 경우 ☞ 독립변수에 의한 집단 사이의 종속변수 평균 차이를 비교하기 위한 분석 |
이원분산 분석 | ☞ 독립변수가 2개이고 종속변수가 1개일 경우에서의 집단 간 종속변수의 평균 차이를 분석하는 방법 |
다변량 분산 분석 | ☞ 종속변수가 2개 이상인 경우에 집단 간 종속변수의 평균 차이를 비교하는 방법 |
공분산 분석 | ☞ 연속형 외생병수가 종속변수에 미치는 영향을 제거한 후, 순수한 집단 간 종속변수의 평균 차이를 평가하는 방법 |
5) 주성분 분석
- 주성분 분석(Principal Component Analysis)는 많은 변수의 분산방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계 기법
- 주성분 변수는 원래 변수 정보를 축약한 변수이며, 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석 방법
- P개의 변수가 있는 경우 이를 통해 얻은 정보를 P보다 상당히 적은 K개의 변수로 요약하는 것임
- 가장 적은 수의 주성분을 사용하여 분산의 최대량을 설명함
6) 판별 분석
- 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계 기법
2. 표본 추출
1) 표본 추출 기법
기법 | 설명 |
단순 무작위 추출(Simple Random Sampling) | ☞ 모집단에서 정해진 규칙 없이 표본을 추출하는 방식 |
계통 추출(Systematic Sampling) | ☞ 모집단을 일정한 간격으로 추출하는 방식 |
층화 추출(Stratified Random Sampling) | ☞ 모집단을 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식 ☞ 계층은 내부적으로 동질적이고, 외부적으로 이질적이어야 함 |
군집 추출(Cluster Sampling) | ☞ 모집단을 여러 군집으로 나누고, 일부 군집의 전체 또는 일부를 추출하는 방식 ☞ 계층과는 다르게 군집의 성질은 따로 고려되지 않음 |
2) 자료 측정
- 측정하는 행위는 대상의 특정한 속성을 숫자 또는 기호로 표시하는 일이며, 관계를 부여하기 위해 사용되는 규칙을 척도(Scale)라고 함
속성 | 척도 | 설명 |
질적 속성 | 명목 척도 (Nominal Scale) |
☞ 단순히 집단의 분류를 목적으로 사용된 척도 |
순서 척도 (Ordinal Scale) |
☞ 측정대상 사이의 대소 관계를 나타내기 위한 척도 | |
양적 속성 | 구간 척도 (Interval Scale) |
☞ 등간 척도라고도 하며 서열과 의미 있는 차이를 가지는 척도 |
비율 척도 (Ratio Scale) |
☞ 구간 척도의 성질을 가지면서 척도 간의 비도 의미가 있는 척도 |
3. 확률분포
- 확률분포(Probability Distribution)는 확률변수가 특정한 값을 가질 확률을 나타내는 분포임
1) 이산확률분포
- 이산확률분포(Discrete Probability Distribution)는 이산확률변수 X가 가지는 확률분포임
- 이산확률변수는 확률변수 X가 셀 수 있는 값을 취함
종류 | 설명 |
포아송 분포 | ☞ 이산형 확률 분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포 |
베르누이 분포 | ☞ 특정 실험의 결과가 성공 또는 실패 중 하나를 얻는 확률 분포 |
이항 분포 | ☞ n번 시행 중에 각 시행의 확률이 p일 때, k번 성공할 확률 분포 ☞ n과 k가 1이면 베르누이 시행 |
2) 연속확률분포
- 확률변수 X가 실수와 같이 연속적인 값을 취할 때는 이를 연속확률변수라 하고 연속확률변수가 가지는 확률분포를 연속확률분포라 함
- 정규 분포, 표준 정규 분포(Z-분포), T-분포, 카이제곱-분포, F-분포가 있음
4. 표본 분포
- 표본 분포(Sampling Distribution)은 모집단에서 추출한 크기가 일정한 표본이 가지는 추정량의 확률 분포
- 통계량에 의해 모집단에 있는 모수를 추론함
- 표본 분포의 유형은 Z-분포, T-분포, 카이제곱 분포, F-분포 등이 있음
1) 표본 분포 용어
용어 | 설명 |
모집단(Population) | ☞ 정보를 얻고자 하는 대상이 되는 집단 전체 |
모수(Parameter) | ☞ 모집단의 특성을 나타내는 대푯값 |
통계량(Statistic) | ☞ 표본에서 얻은 평균이나 표준 오차와 같은 값 ☞ 이 값을 통해 모수를 추정하며, 무작위로 추출할 경우 각 표본에 따라 달라지는 확률변수 |
추정량(Estimator) | ☞ 모수의 추정을 위해 구해진 통계량 |
표준 편차(Standard Deviation) | ☞ 자료의 변동 정도 |
표준 오차(Standard Error) | ☞ 통계량의 변동 정도를 의미 ☞ 평균을 낸 값들의 표준편차를 표준 오차라고 함 |
2) 표본 조사 용어
구분 | 설명 |
표본 오차(Sampling Error) | ☞ 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못하기 때문에 발생하는 오차 |
비표본오차(Non-Sampling Error) | ☞ 표본오차를 제외한 모든 오차로써 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하여 조사대상이 증가하면 오차가 커짐 |
표본편의(Sampling Bias) | ☞ 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출 방법에서 기인하는 오차 ☞ 표본편의는 확률화(Randomization)에 의해 최소화하거나 없애지는 못함 |
3) 표본 분포와 관련된 법칙
법칙 | 설명 |
큰 수의 법칙(Law Large Number) | ☞ 데이터를 많이 뽑을수록 표본평균의 분산은 0에 가까워짐 ☞ 데이터의 퍼짐이 적어져 정확해짐 |
중심 극한 정리(Central Limit Theorem) | ☞ 표본의 개수가 커지면 모집단의 분포와 상관없이 표본 분포는 정규 분포에 근사 |
추론통계
1. 점 추정
- 점 추정(Point Estimation)은 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법
- 표본의 평균, 중위수, 최빈값 등을 사용함
- 점 추정에서 사용하는 통계는 표본평균, 표본분산, 중위수, 최빈값이 있음
- 점 추정 조건은 아래와 같음
조건 | 설명 |
불편성(Unbiasedness) | ☞ 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음 |
효율성(Efficiency) | ☞ 추정량의 분산이 작을수록 좋음 |
일치성(Consistency) | ☞ 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐 |
충족성(Sufficient) | ☞ 추정량은 모수에 대하여 모든 정보를 제공 |
2. 구간 추정
- 구간 추정(Interval Estimate)은 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
- 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 함
① 신뢰수준(Confidence Level)
- 추정값이 존재하는 구간에 모수가 포함될 확률
② 신뢰구간(Confidence Interval)
- 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위
3. 가설 검정
1) 가설
- 가설(Hypothesis)이란 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론을 말함
종류 | 설명 |
귀무가설(H0) (Null Hypothesis) |
☞ 현재까지 주장되어 온 것이나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설 |
대립가설(H1) (Alternative Hypothesis) |
☞ 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설 ☞ 연구가설(Research Hypothesis)이라고 함 |
2) 가설검정
- 가설검정(Statistical Hypothesis)은 모집단에 대한 통계적 가설을 세우고 표본을 추출한 후, 그 표본을 통해 얻은 정보를 이용하여 통계적 가설의 진위를 판단하는 과정을 말함
- 표본을 활용하여 모집단에 대입해 보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
- 가설검정 시 p-값과 유의수준을 비교하여 귀무가설 혹은 대립가설을 채택하는 절차를 거치게 됨
- p-값은 귀무가설이 참이라는 전제하에서 구한 검정 통계량의 값이 나타날 가능성으로 해석할 수 있으며, p-값이 유의수준보다 작으면(검정 통계량의 값이 나타날 가능성이 낮으면) 귀무가설을 기각하고 대립가설을 채택하게 되며, p-값이 유의수준보다 크면 귀무가설을 채택하게 됨
- 가설검정 방법은 아래와 같음
검정 | 설명 |
양측검정 | ☞ 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 같은지 여부를 판단 |
단측검정 | ☞ 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 큰지 작은지 여부를 판단 |
3) 가설검정의 오류
- 통계적인 방법에 근거하여 주어진 가설을 검증하는 데 있어 모집단 전체를 통해 검증하는 것이 아닌 모집단으로부터 추출된 표본을 기반으로 모집단에 대한 결론을 내리는 것이기 때문에 다음과 같은 통계적인 오류가 발생할 가능성이 항상 존재함
① 제1종 오류
- 귀무가설이 참인데 잘못하여 이를 기각하여 되는 오류
용어 | 설명 |
유의수준(Level of Significance) | ☞ 제1종 오류를 범할 최대 허용확률을 의미 |
신뢰수준(Level of Confidence) | ☞ 귀무가설이 참일 때 이를 참이라고 판단하는 확률 |
② 제2종 오류
- 귀무가설이 참이 아닌데 잘못하여 이를 채택하게 되는 오류
용어 | 설명 |
베타 수준 | ☞ 제2종 오류를 범할 최대 허용확률을 의미 |
검정력 | ☞ 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률 |
4) 검정 통계량
- 검정 통계량은 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량임
- 귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산됨
5) p-값
- 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률값을 p-값이라고 함
- 검정 통계량 및 이의 확률분포에 근거하여 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률로도 볼 수 있음
반응형
LIST
'Database' 카테고리의 다른 글
[Big Data] 분석 모형 설계 (1) | 2020.11.23 |
---|---|
[Big Data] 데이터 탐색 (0) | 2020.11.15 |
[Big Data] 데이터 전처리 (2) | 2020.11.15 |
[Database] 성능 개선 (0) | 2020.11.13 |
[Database] 데이터 품질과 표준화 (0) | 2020.11.12 |