Database

[Big Data] 데이터 탐색

구루싸 2020. 11. 15. 21:51
반응형
SMALL

데이터 탐색 기초 

1. 데이터 탐색 개요

  • 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법

① Four R's

  • 탐색적 데이터 분석(Exploratory Data Analysis)의 4가지 특징 
특징 설명
저항성
(Resistance)
☞ 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미
☞ 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
☞ 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용

잔차 해석
(Residual)
☞ 잔차란 관찰 값들이 주 경향으로부터 벗어난 정도임
☞ 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
☞ 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업

자료 재표현
(Re-expression)
☞ 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
☞ 자료의 재표현을 통하여 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조파악과 해석에 도움을 얻는 경우가 많음
현시성
(Graphic Representation)
☞ Display, Visualization으로 불림
☞ 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미
☞ 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능

② 개별 변수 탐색

데이터 유형 설명
범주형(질적) 데이터 ☞ 명목 척도와 순위 척도에 대한 데이터 탐색
☞ 빈도수, 최빈값, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악
☞ 시각화는 막대형 그래프를 주로 이용

수치형(양적) 데이터 ☞ 등간 척도와 비율 척도에 대한 데이터 탐색
☞ 평균, 분산, 표준 편차, 첨도, 왜도 등을 이용하여 데이터의 분포 특성을 중심성, 변동성, 정규성 측면에서 파악
☞ 시각화는 박스 플롯이나 히스토그램을 주로 이용

③ 다차원 데이터 탐색

데이터 조합 설명
범주형-범주형 ☞ 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율, 분석 등을 활용하여 데이터 간의 연관성을 분석
☞ 시각화는 막대형 그래프를 주로 이용
수치형-수치형 ☞ 산점도와 기울기를 통하여 변수 간의 상관성을 분석
☞ 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용하여 시각화
☞ 공분산을 통하여 방향성 파악
☞ 피어슨 상관계수를 통하여 방향과 강도 파악

범주형-수치형 ☞ 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교
☞ 그룹 간 비교를 위하여 주로 박스 플롯을 이용하여 시각화

2. 상관관계 분석

  • 상관관계 분석(Correlation Analysis)은 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법임

① 변수 사이의 상관관계의 종류

종류 설명
양(+)의 상관관계 ☞ 한 변수의 값이 증가할 때 다른 변수의 값도 증가하는 경향을 보이는 상관 관계
☞ 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계가 있음
음(-)의 상관관계 ☞ 한 변수의 값이 증가할 때 다른 변수의 값은 반대로 감소하는 경향을 보이는 상관관계
☞ 강도에 따라 강한 음의 상관관계, 약한 음의 상관관계가 있음
상관관계 없음 ☞ 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계

② 상관관계의 표현 방법

  • 산점도(Scatter Plot)
  • 공분산(Covariance)
    • 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향을 보이면 공분산의 값은 양수가 되며 반대로 음수일 때는 하강하는 경향을 보임
  • 상관계수(Correlation Coefficient)
    • 상관계수의 범위는 -1 ≤ r ≤ 1이며 절댓값 1에 가까울수록 강한 상관관계를 나타냄

③ 상관관계 분석의 분류

㉮ 변수의 개수에 따른 분류

분류 설명
단순 상관 분석 ☞ 두 개의 변수 사이의 상관성 분석
다중 상관 분석 ☞ 세 개 이상의 변수 사이의 상관성 분석

㉯ 변수의 속성에 따른 분류

  • 수치적 데이터
    • 두 변수가 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출하여 분석하는 방법
    • 수치형 데이터인 등간 척도, 비율 척도에 해당
    • 수치로 표현을 할 수 있는 측정 가능한 데이터 변수
    • 변수의 연산이 가능
    • 수치적 데이터의 상관 분석에서 피어슨 상관계수 방법을 일반적으로 사용
    • 두 변수의 분산이 동일하다는 전제조건 아래에서 사용
  • 명목적 데이터
    • 범주형 데이터 중에서 명목척도에 해당
    • 데이터의 특성을 구분하기 위하여 숫자나 기호를 할당한 데이터 변수
    • 변수의 연산이 불가능
    • 연관성은 카이제곱 검정(교차 분석)을 통해 분석
    • 데이터에 대한 분류의 의미를 지닌 명목적 데이터 변수 사이의 상관계수를 계산하는 것은 큰 의미가 없음
  • 순서적 데이터
    • 두 변수 사이의 연관성을 계량적으로 산출하여 분석하는 방법
    • 범주형 데이터 중에서 순서적 데이터에 해당
    • 데이터의 순서에 의미를 부여한 데이터 변수
    • 변수의 연산이 불가능
    • 스피어만 순위상관계수를 이용하여 분석

3. 기초통계량 추출

  • 데이터 탐색에서는 통계적인 방법을 통하여 데이터를 여러 각도에서 관찰하므로 기초 통계량에 대한 이해가 중요

① 중심 경향성의 통계량

  • 평균(Mean)
    • 평균은 변수의 값들의 합을 변수의 개수로 나눈 값
    • 이상값에 의해 값의 변동이 심할 수 있음
  • 중위수(Median)
    • 모든 데이터값을 크기 순서로 오름차순 정렬하였을 때 중앙에 위치한 데이터값(중앙값)
  • 최빈값(Mode)
    • 주어진 데이터 중에서 가장 많이 관측되는 수

② 산포도의 통계량

  • 범위(Range)
    • 데이터값 중에서 최대 데이터값과 최소 데이터값 사이의 차이
    • 범위 = 최댓값 - 최솟값
  • 분산(Variance)
    • 데이터가 평균으로부터 흩어진 정도를 나타내는 기초통계량
    • 편차의 합이 0이므로 편차의 제곱의 합을 이용하여 계산
    • 모분산은 편차의 제곱의 합을 모집단의 수로 나누고, 표분분산은 표분의 수에서 1을 뺀 자유도로 나누어 계산
  • 표준편차(Standard Deviation)
    • 표준편차는 분산의 양(+)의 제곱근의 값
    • 분산은 편차의 제곱을 했기 때문에 원래의 수학적 단위와 차이가 발생하므로 제곱근을 취한 값을 표준편차로 하고, 평균에서 흩어진 정도를 나타냄
  • 변동계수(Coefficient of Variation)
    • 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용하고 상대 표준편차라고도 함
    • 표준편차나 분산은 한 가지 자료의 산포도를 측정하는 데는 유용하지만 단위가 다른 두 자료 군의 산포도를 비교하는 데는 부적절함
    • 표준편차를 표본평균으로 나눈 값으로서 값이 클수록 상대적인 차이가 큼
  • 사분위 수 범위(InterQuartile Range)
    • 사분위 수 범위는 자료들의 중간 50%에 포함되는 자료의 산포도를 나타냄
    • 사분위 수 범위는 제1사분위 수와 제3사분위 수 사이의 차이임

③ 데이터 분포를 나타내는 통계량

  • 왜도(Skewness)
종류 설명
왼쪽 편포(Skewness to the left) ☞ 평균 < 중위수 < 최빈값
☞ 왜도 < 0
오른쪽 편포(Skewness to the right) ☞ 최빈값 < 중위수 < 평균
☞ 왜도 > 0
정규 분포 ☞ 최빈값 = 평균 = 중위수
☞ 왜도 = 0
  • 첨도(Kurtosis)
    • 데이터의 분포가 정규 분포 곡선으로부터 위 또는 아래쪽으로 뾰족한 정도를 보여주는 값
    • 정규 분포는 첨도가 3이지만 일반적으로 첨도의 정의에서 3을 뺀 0을 기준으로 함

4. 시각적 데이터 탐색

  • 히스토그램
  • 막대형 그래프
  • 박스 플롯(Box Plot)
  • 산점도(Scatter Plot)

고급 데이터 탐색

1. 시공간 데이터 탐색

① 시공간 데이터

  • 시공간 데이터(Spatio-Temporal Data)는 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터
  • 시공간 데이터의 특징과 타입은 아래와 같음
특징 설명
이산적 변화 ☞ 데이터 수집의 주기가 일정하지 않은 데이터를 이용하여 표현함
☞ 시간의 변화에 따라 데이터가 추가됨
연속적 변화 ☞ 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현함
☞ 연속적인 변화를 일종의 함수를 이용하여 표현함
타입 설명
포인트 타입 ☞ 하나의 노드로 구성되는 공간 데이터 타입
라인 타입 ☞ 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성
폴리곤 타입 ☞ n개의 노드와 n개의 세그먼트로 구성
폴리라인 타입 ☞ n개의 노드와 n-1개의 세그먼트로 구성

② 시공간 데이터 탐색 절차

  1. 문자열 처리 함수를 이용해 주소를 행정구역으로 변환
  2. 지오 코딩 서비스(Geo-Coding)를 이용해 주소를 좌표계로 변환
  3. 행정구역 및 좌표계를 지도에 표시
  4. 지도의 종류는 아래와 같음
종류 설명
코로플레스 지도(Choropleth Map)  어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 색칠해서 표현하는 방법으로 등치지역도라고도 함
 영역별 데이터를 표현하는 가장 보편적인 방법으로 데이터 값의 크기에 따라 지역별로 색을 다르게 표시함
 인구밀도가 매우 높은 지역과 낮은 지역에 동일한 척도를 적용할 경우 표시된 지역의 면적이 실제 데이터값의 크기를 반영할 수 없다는 단점이 있음

카토그램(Cartogram)  특정한 데이터 값의 변화에 따라 지도의 면적이 왜곡되는 지도로 변량비례도라고도 함
 데이터 값이 큰 지역의 면적이 시각적으로도 더 크게 표시됨으로써 데이터 값의 크기를 직관적으로 인지할 수 있다는 장점이 있음
 지도의 형태를 왜곡시킴으로써 데이터 지각의 왜곡을 방지하도록 보정함

버블 플롯맵(Bubble Plot Map)  버블 플롯맵은 버블 차트에 위도와 경도 정보를 적용하여 좌표를 원으로 시각화 한 지도임
 원의 크기, 색 등을 반영하여 시각화

2. 다변량 데이터 탐색

① 다변량 데이터

  • 변량(Variance)은 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값임
  • 변량 데이터의 유형은 아래와 같음
유형 설명
일변량 데이터  단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료로 단변량 자료라고도 함
이변량 데이터  각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료
다변량 데이터  하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료
 이변량 데이터도 다변량 데이터임

② 변량 데이터 탐색

구분 설명
일변량 데이터 탐색  기술 통계량(평균, 분산, 표준편차 등), 그래프 통계량(히스토그램, 박스 플롯 등) 두 가지 종류가 있음
이변량 데이터 탐색  조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측함
 일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상임
다변량 데이터 탐색  분석을 시행하기 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료를 탐색함

③ 다변량 데이터 탐색 도구

  • 산점도 행렬
    • 그림 행렬
    • 개별 Y 대 개별 X 산점도 행렬
  • 별 그림

3. 비정형 데이터 탐색

  • 비정형 데이터(Unstructured Data)는 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 이미지나 영상, 텍스트처럼 형태와 구조가 다른 구조화 되지 않은 데이터임
  • 비정형 데이터의 탐색 방법은 아래와 같음
방법 설명
텍스트 탐색 방법  소셜 데이터의 텍스트와 같은 스크립트 파일 형태일 경우 데이터를 파싱한 후 탐색
동영상, 이미지 탐색 방법  이진 파일 형태의 데이터일 때는 데이터의 종류별로 응용소프트웨어를 이용하여 탐색
반정형 데이터의 탐색 방법  XML, JSON, HTML 각각의 Parser를 이용하여 데이터를 파싱 후 탐색

 

반응형
LIST

'Database' 카테고리의 다른 글

[Big Data] 분석 모형 설계  (1) 2020.11.23
[Big Data] 통계기법  (0) 2020.11.19
[Big Data] 데이터 전처리  (2) 2020.11.15
[Database] 성능 개선  (0) 2020.11.13
[Database] 데이터 품질과 표준화  (0) 2020.11.12