Database

[Big Data] 통계기법

구루싸 2020. 11. 19. 23:55
반응형
SMALL

기술통계

  • 데이터 분석의 목적으로 수집된 데이터를 확률·통계적으로 정리 및 요약하는 기초적인 통계임
  • 분석의 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 주로 산출함
  • 통계적 수치를 계산하고 도출하거나 그래프를 활용하여 데이터에 대한 전반적인 이해를 도움

1. 데이터 요약

1) 기초 통계량

① 평균(Mean)

  • 자료를 모두 더한 후 자료 개수로 나눈 값
  • 전부 같은 가중치를 두며, 이상값에 민감한 단점이 있음
  • 평균에는 표본평균, 모평균, 가중평균이 있음

② 중위수(Median)

  • 모든 데이터값을 크기 순서로 오름차순 정렬하였을 때 중앙에 위치한 데이터값으로 중앙값이라고도 함
  • 특이값에 영향을 받지 않음
  • 데이터 값의 수가 홀수일 경우에는 중위수가 하나가 되지만 짝수일 경우에는 중앙에 위치한 두 개의 값의 평균으로 중위수를 구함

③ 최빈수(Mode)

  • 데이터 값 중에서 빈도수가 가장 높은 데이터 값
  • 주어진 데이터 중에서 가장 많이 관측되는 수

④ 범위(Range)

  • 최대 데이터 값(Max) - 최소 데이터 값(Min)

⑤ 분산(Variance)

  • 데이터가 평균으로부터 흩어진 정도를 나타냄
  • 표본 분산과 모분산이 있음

⑥ 표준편차(Standard Deviation)

  • 분산에 양으 제곱근을 취한 값
  • 표본의 표준편차와 모집단의 표준편차가 있음

⑦ 평균의 표준 오차(Standard Error of Mean)

  • 표본 평균의 표본 추출 분포에 대한 표준 편차
  • 모집단으로부터 수많은 표본들을 추출한 후 각 표본들에 대한 평균을 구하고, 각 평균들에 대한 전체 평균을 다시 구해 각 평균들이 전체 평균으로부터 평균적으로 얼마나 떨어져 있는지를 나타낸 값

⑧ 분포(Distribution)

  • 데이터 분포의 형태와 대칭성을 설명할 수 있는 통계량
  • 첨도(Kurtosis)와 왜도(Skewness)가 있음

2) 상관 분석

  • 상관 분석(Correlation Analysis)은 두 개 이상의 변수 간에 존재하는 연관성의 정도를 측정하여 분석하는 방법

① 수치적 데이터 변수의 상관 분석

  • 수치적 데이터 변수로 이루어진 두 변수 간의 선형적 연관성을 계량적으로 파악하기 위한 통계적 기법
  • 일반적으로 피어슨 상관계수(Pearson Correlation Coefficient)를 선형관련성 정도로 측정하는 척도로 사용

② 명목적 데이터 변수의 상관 분석

  • 항목들을 분류하기 위한 명목적 데이터 변수들로 이루어진 두 변수 간의 연관성을 계량적으로 파악하기 위한 통계적 기법
  • 수치적 데이터 변수와 달리 분류의 의미를 지닌 명목적 데이터 변수 간의 상관계수를 계산하는 것이 큰 의미가 없음

③ 순서적 데이터 변수의 상관 분석

  • 순서가 중요한 의미가 있는 순서적 데이터 변수들로 이루어진 두 변수 간의 연관성 및 상관관계를 검정하기 위한 통계적 분석기법
  • 순서적 데이터의 변수의 상관 분석은 스피어만 순위상관계수(Spearman's Rank Correlation Coefficient)를 통해서 분석을 수행

3) 회귀 분석

  • 회귀 분석은 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
  • 회귀 분석 모델은 독립변수와 종속변수의 개수 및 형태에 따라서 다양한 세부 모델들로 분류함

① 회귀 분석 모형의 종류 

모형 설명
단순 회귀 모형 ☞ 독립변수와 종속변수가 1개씩이면서 모두 수치형 변수인 경우
다중 회귀 모형 ☞ 2개 이상의 독립변수이면서 수치형 혹은 범주형
☞ 1개의 수치형 종속변수

② 회귀 분석 모형의 적합성 평가

  • 객관적으로 도출된 회귀식이 통계적으로 유의한지를 평가하기 위해 분산 분석표를 활용
  • 모형이 얼마나 잘 설명력을 가지는지를 확인하기 위해서는 결정계수 R2을 확인함
  • 회귀 분석 결과를 신뢰하고 효과적으로 활용하기 위해서는 5가지 전제조건이 있음
전제조건 설명
선형성 ☞ 독립변수와 종속변수 간에는 선형관계가 존재
등분산성 ☞ 잔차(추정오차)들은 같은 분산을 가짐
독립성 ☞ 잔차와 독립변수의 값이 관련돼 있지 않음
비상관성 ☞ 관측치들의 잔차들끼리 상관이 없어야 함
정규성 ☞ 잔차는 정규 분포를 따름

③ 독립변수 선택 방법

선택 방법 설명
후진 제거법(Backward Elimination) ☞ 모든 독립변수를 사용하여 하나의 회귀식을 수립
☞ 회귀식에서 중요하지 않은 독립변수 값들에 대한 검정을 한 후, 그 값이 가장 작은 변수부터 차례로 제거하고 남은 나머지 독립변수들을 바탕으로 회귀식을 다시 추정하는 방법
전진 선택법(Forward Selection) ☞ 종속변수에 가장 큰 영향을 줄 것으로 판단되는 하나의 독립변수를 이용하여 회귀식을 수립한 후, 단계마다 중요하다고 판단되는 독립변수를 하나씩 회귀식에 추가하여 회귀모델을 다시 추정하여 새로운 독립변수의 부분 검정을 통해 중요 정도를 계산하는 방법
단계적 방법(Stepwise Method) ☞ 후진 제거법과 전진 선택법의 절충적인 형태
☞ 전진 선택법에 따라 종속변수에 가장 큰 상관관계가 있는 독립변수를 택하고 각 단계에서 후진 제거법과 같이 회귀식에서 중요하지 않은 독립변수를 제거하는 방법
☞ 가장 많이 활용되는 선택법

4) 분산 분석

  • 분산 분석(Analysis of Variance)는 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분석 비교로 얻은 F-분포를 이용하여 가설 검정을 수행하는 방법
  • 검정 통계량(Test Statistic)인 F-검정 통계량 값은 집단 내 분산 대비 집단 간 분산이 몇 배 더 큰지를 나타내는 값으로 해석됨
  • 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이가 있는지 판정하는 분석 방법임
  • 분산 분석의 종류는 아래와 같음
종류 설명
일원분산 분석 ☞ 집단을 나누는 요인인 독립변수가 1개이고 종속변수도 1개인 경우
☞ 독립변수에 의한 집단 사이의 종속변수 평균 차이를 비교하기 위한 분석
이원분산 분석 ☞ 독립변수가 2개이고 종속변수가 1개일 경우에서의 집단 간 종속변수의 평균 차이를 분석하는 방법
다변량 분산 분석 ☞ 종속변수가 2개 이상인 경우에 집단 간 종속변수의 평균 차이를 비교하는 방법
공분산 분석 ☞ 연속형 외생병수가 종속변수에 미치는 영향을 제거한 후, 순수한 집단 간 종속변수의 평균 차이를 평가하는 방법

5) 주성분 분석

  • 주성분 분석(Principal Component Analysis)는 많은 변수의 분산방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계 기법
  • 주성분 변수는 원래 변수 정보를 축약한 변수이며, 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석 방법
  • P개의 변수가 있는 경우 이를 통해 얻은 정보를 P보다 상당히 적은 K개의 변수로 요약하는 것임
  • 가장 적은 수의 주성분을 사용하여 분산의 최대량을 설명함

6) 판별 분석

  • 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계 기법

2. 표본 추출

1) 표본 추출 기법

기법 설명
단순 무작위 추출(Simple Random Sampling) ☞ 모집단에서 정해진 규칙 없이 표본을 추출하는 방식
계통 추출(Systematic Sampling) ☞ 모집단을 일정한 간격으로 추출하는 방식
층화 추출(Stratified Random Sampling) ☞ 모집단을 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식
☞ 계층은 내부적으로 동질적이고, 외부적으로 이질적이어야 함
군집 추출(Cluster Sampling) ☞ 모집단을 여러 군집으로 나누고, 일부 군집의 전체 또는 일부를 추출하는 방식
☞ 계층과는 다르게 군집의 성질은 따로 고려되지 않음

2) 자료 측정

  • 측정하는 행위는 대상의 특정한 속성을 숫자 또는 기호로 표시하는 일이며, 관계를 부여하기 위해 사용되는 규칙을 척도(Scale)라고 함
속성 척도 설명
질적 속성 명목 척도
(Nominal Scale)
☞ 단순히 집단의 분류를 목적으로 사용된 척도
순서 척도
(Ordinal Scale)
☞ 측정대상 사이의 대소 관계를 나타내기 위한 척도
양적 속성 구간 척도
(Interval Scale)
☞ 등간 척도라고도 하며 서열과 의미 있는 차이를 가지는 척도
비율 척도
(Ratio Scale)
☞ 구간 척도의 성질을 가지면서 척도 간의 비도 의미가 있는 척도

3. 확률분포

  • 확률분포(Probability Distribution)는 확률변수가 특정한 값을 가질 확률을 나타내는 분포임

1) 이산확률분포

  • 이산확률분포(Discrete Probability Distribution)는 이산확률변수 X가 가지는 확률분포임 
  • 이산확률변수는 확률변수 X가 셀 수 있는 값을 취함
종류 설명
포아송 분포 ☞ 이산형 확률 분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포
베르누이 분포 ☞ 특정 실험의 결과가 성공 또는 실패 중 하나를 얻는 확률 분포
이항 분포 ☞ n번 시행 중에 각 시행의 확률이 p일 때, k번 성공할 확률 분포
☞ n과 k가 1이면 베르누이 시행

2) 연속확률분포

  • 확률변수 X가 실수와 같이 연속적인 값을 취할 때는 이를 연속확률변수라 하고 연속확률변수가 가지는 확률분포를 연속확률분포라 함
  • 정규 분포, 표준 정규 분포(Z-분포), T-분포, 카이제곱-분포, F-분포가 있음

4. 표본 분포

  • 표본 분포(Sampling Distribution)은 모집단에서 추출한 크기가 일정한 표본이 가지는 추정량의 확률 분포
  • 통계량에 의해 모집단에 있는 모수를 추론함
  • 표본 분포의 유형은 Z-분포, T-분포, 카이제곱 분포, F-분포 등이 있음

1) 표본 분포 용어 

용어 설명
모집단(Population) ☞ 정보를 얻고자 하는 대상이 되는 집단 전체
모수(Parameter) ☞ 모집단의 특성을 나타내는 대푯값
통계량(Statistic) ☞ 표본에서 얻은 평균이나 표준 오차와 같은 값
☞ 이 값을 통해 모수를 추정하며, 무작위로 추출할 경우 각 표본에 따라 달라지는 확률변수
추정량(Estimator) ☞ 모수의 추정을 위해 구해진 통계량
표준 편차(Standard Deviation) ☞ 자료의 변동 정도
표준 오차(Standard Error) ☞ 통계량의 변동 정도를 의미
☞ 평균을 낸 값들의 표준편차를 표준 오차라고 함

2) 표본 조사 용어

구분 설명
표본 오차(Sampling Error) ☞ 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못하기 때문에 발생하는 오차
비표본오차(Non-Sampling Error) ☞ 표본오차를 제외한 모든 오차로써 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하여 조사대상이 증가하면 오차가 커짐
표본편의(Sampling Bias) ☞ 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출 방법에서 기인하는 오차
☞ 표본편의는 확률화(Randomization)에 의해 최소화하거나 없애지는 못함

3) 표본 분포와 관련된 법칙

법칙 설명
큰 수의 법칙(Law Large Number) ☞ 데이터를 많이 뽑을수록 표본평균의 분산은 0에 가까워짐
☞ 데이터의 퍼짐이 적어져 정확해짐
중심 극한 정리(Central Limit Theorem) ☞ 표본의 개수가 커지면 모집단의 분포와 상관없이 표본 분포는 정규 분포에 근사

추론통계

1. 점 추정

  • 점 추정(Point Estimation)은 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법
  • 표본의 평균, 중위수, 최빈값 등을 사용함
  • 점 추정에서 사용하는 통계는 표본평균, 표본분산, 중위수, 최빈값이 있음
  • 점 추정 조건은 아래와 같음
조건 설명
불편성(Unbiasedness) ☞ 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
효율성(Efficiency) ☞ 추정량의 분산이 작을수록 좋음
일치성(Consistency) ☞ 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐
충족성(Sufficient) ☞ 추정량은 모수에 대하여 모든 정보를 제공

2. 구간 추정

  • 구간 추정(Interval Estimate)은 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
  • 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 함

① 신뢰수준(Confidence Level)

  • 추정값이 존재하는 구간에 모수가 포함될 확률

② 신뢰구간(Confidence Interval)

  • 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위

3. 가설 검정

1) 가설

  • 가설(Hypothesis)이란 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론을 말함
종류 설명
귀무가설(H0)
(Null Hypothesis)
☞ 현재까지 주장되어 온 것이나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설
대립가설(H1)
(Alternative Hypothesis)
☞ 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설
☞ 연구가설(Research Hypothesis)이라고 함

2) 가설검정

  • 가설검정(Statistical Hypothesis)은 모집단에 대한 통계적 가설을 세우고 표본을 추출한 후, 그 표본을 통해 얻은 정보를 이용하여 통계적 가설의 진위를 판단하는 과정을 말함
  • 표본을 활용하여 모집단에 대입해 보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
  • 가설검정 시 p-값과 유의수준을 비교하여 귀무가설 혹은 대립가설을 채택하는 절차를 거치게 됨
  • p-값은 귀무가설이 참이라는 전제하에서 구한 검정 통계량의 값이 나타날 가능성으로 해석할 수 있으며, p-값이 유의수준보다 작으면(검정 통계량의 값이 나타날 가능성이 낮으면) 귀무가설을 기각하고 대립가설을 채택하게 되며, p-값이 유의수준보다 크면 귀무가설을 채택하게 됨
  • 가설검정 방법은 아래와 같음
검정 설명
양측검정 ☞ 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 같은지 여부를 판단
단측검정 ☞ 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 큰지 작은지 여부를 판단

3) 가설검정의 오류

  • 통계적인 방법에 근거하여 주어진 가설을 검증하는 데 있어 모집단 전체를 통해 검증하는 것이 아닌 모집단으로부터 추출된 표본을 기반으로 모집단에 대한 결론을 내리는 것이기 때문에 다음과 같은 통계적인 오류가 발생할 가능성이 항상 존재함

① 제1종 오류

  • 귀무가설이 참인데 잘못하여 이를 기각하여 되는 오류
용어 설명
유의수준(Level of Significance) ☞ 제1종 오류를 범할 최대 허용확률을 의미
신뢰수준(Level of Confidence) ☞ 귀무가설이 참일 때 이를 참이라고 판단하는 확률

② 제2종 오류

  • 귀무가설이 참이 아닌데 잘못하여 이를 채택하게 되는 오류
용어 설명
베타 수준 ☞ 제2종 오류를 범할 최대 허용확률을 의미
검정력 ☞ 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률

4) 검정 통계량

  • 검정 통계량은 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량임
  • 귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산됨

5) p-값

  • 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률값을 p-값이라고 함
  • 검정 통계량 및 이의 확률분포에 근거하여 귀무가설이 참일 때 귀무가설을 기각하게 되는 제1종 오류를 범할 확률로도 볼 수 있음
반응형
LIST

'Database' 카테고리의 다른 글

[Big Data] 분석 모형 설계  (1) 2020.11.23
[Big Data] 데이터 탐색  (0) 2020.11.15
[Big Data] 데이터 전처리  (2) 2020.11.15
[Database] 성능 개선  (0) 2020.11.13
[Database] 데이터 품질과 표준화  (0) 2020.11.12