반응형
SMALL
데이터 탐색 기초
1. 데이터 탐색 개요
- 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
① Four R's
- 탐색적 데이터 분석(Exploratory Data Analysis)의 4가지 특징
특징 | 설명 |
저항성 (Resistance) |
☞ 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미 ☞ 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음 ☞ 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 |
잔차 해석 (Residual) |
☞ 잔차란 관찰 값들이 주 경향으로부터 벗어난 정도임 ☞ 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색 ☞ 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업 |
자료 재표현 (Re-expression) |
☞ 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것 ☞ 자료의 재표현을 통하여 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조파악과 해석에 도움을 얻는 경우가 많음 |
현시성 (Graphic Representation) |
☞ Display, Visualization으로 불림 ☞ 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미 ☞ 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능 |
② 개별 변수 탐색
데이터 유형 | 설명 |
범주형(질적) 데이터 | ☞ 명목 척도와 순위 척도에 대한 데이터 탐색 ☞ 빈도수, 최빈값, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악 ☞ 시각화는 막대형 그래프를 주로 이용 |
수치형(양적) 데이터 | ☞ 등간 척도와 비율 척도에 대한 데이터 탐색 ☞ 평균, 분산, 표준 편차, 첨도, 왜도 등을 이용하여 데이터의 분포 특성을 중심성, 변동성, 정규성 측면에서 파악 ☞ 시각화는 박스 플롯이나 히스토그램을 주로 이용 |
③ 다차원 데이터 탐색
데이터 조합 | 설명 |
범주형-범주형 | ☞ 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율, 분석 등을 활용하여 데이터 간의 연관성을 분석 ☞ 시각화는 막대형 그래프를 주로 이용 |
수치형-수치형 | ☞ 산점도와 기울기를 통하여 변수 간의 상관성을 분석 ☞ 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용하여 시각화 ☞ 공분산을 통하여 방향성 파악 ☞ 피어슨 상관계수를 통하여 방향과 강도 파악 |
범주형-수치형 | ☞ 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교 ☞ 그룹 간 비교를 위하여 주로 박스 플롯을 이용하여 시각화 |
2. 상관관계 분석
- 상관관계 분석(Correlation Analysis)은 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법임
① 변수 사이의 상관관계의 종류
종류 | 설명 |
양(+)의 상관관계 | ☞ 한 변수의 값이 증가할 때 다른 변수의 값도 증가하는 경향을 보이는 상관 관계 ☞ 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계가 있음 |
음(-)의 상관관계 | ☞ 한 변수의 값이 증가할 때 다른 변수의 값은 반대로 감소하는 경향을 보이는 상관관계 ☞ 강도에 따라 강한 음의 상관관계, 약한 음의 상관관계가 있음 |
상관관계 없음 | ☞ 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계 |
② 상관관계의 표현 방법
- 산점도(Scatter Plot)
- 공분산(Covariance)
- 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향을 보이면 공분산의 값은 양수가 되며 반대로 음수일 때는 하강하는 경향을 보임
- 상관계수(Correlation Coefficient)
- 상관계수의 범위는 -1 ≤ r ≤ 1이며 절댓값 1에 가까울수록 강한 상관관계를 나타냄
③ 상관관계 분석의 분류
㉮ 변수의 개수에 따른 분류
분류 | 설명 |
단순 상관 분석 | ☞ 두 개의 변수 사이의 상관성 분석 |
다중 상관 분석 | ☞ 세 개 이상의 변수 사이의 상관성 분석 |
㉯ 변수의 속성에 따른 분류
- 수치적 데이터
- 두 변수가 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출하여 분석하는 방법
- 수치형 데이터인 등간 척도, 비율 척도에 해당
- 수치로 표현을 할 수 있는 측정 가능한 데이터 변수
- 변수의 연산이 가능
- 수치적 데이터의 상관 분석에서 피어슨 상관계수 방법을 일반적으로 사용
- 두 변수의 분산이 동일하다는 전제조건 아래에서 사용
- 명목적 데이터
- 범주형 데이터 중에서 명목척도에 해당
- 데이터의 특성을 구분하기 위하여 숫자나 기호를 할당한 데이터 변수
- 변수의 연산이 불가능
- 연관성은 카이제곱 검정(교차 분석)을 통해 분석
- 데이터에 대한 분류의 의미를 지닌 명목적 데이터 변수 사이의 상관계수를 계산하는 것은 큰 의미가 없음
- 순서적 데이터
- 두 변수 사이의 연관성을 계량적으로 산출하여 분석하는 방법
- 범주형 데이터 중에서 순서적 데이터에 해당
- 데이터의 순서에 의미를 부여한 데이터 변수
- 변수의 연산이 불가능
- 스피어만 순위상관계수를 이용하여 분석
3. 기초통계량 추출
- 데이터 탐색에서는 통계적인 방법을 통하여 데이터를 여러 각도에서 관찰하므로 기초 통계량에 대한 이해가 중요
① 중심 경향성의 통계량
- 평균(Mean)
- 평균은 변수의 값들의 합을 변수의 개수로 나눈 값
- 이상값에 의해 값의 변동이 심할 수 있음
- 중위수(Median)
- 모든 데이터값을 크기 순서로 오름차순 정렬하였을 때 중앙에 위치한 데이터값(중앙값)
- 최빈값(Mode)
- 주어진 데이터 중에서 가장 많이 관측되는 수
② 산포도의 통계량
- 범위(Range)
- 데이터값 중에서 최대 데이터값과 최소 데이터값 사이의 차이
- 범위 = 최댓값 - 최솟값
- 분산(Variance)
- 데이터가 평균으로부터 흩어진 정도를 나타내는 기초통계량
- 편차의 합이 0이므로 편차의 제곱의 합을 이용하여 계산
- 모분산은 편차의 제곱의 합을 모집단의 수로 나누고, 표분분산은 표분의 수에서 1을 뺀 자유도로 나누어 계산
- 표준편차(Standard Deviation)
- 표준편차는 분산의 양(+)의 제곱근의 값
- 분산은 편차의 제곱을 했기 때문에 원래의 수학적 단위와 차이가 발생하므로 제곱근을 취한 값을 표준편차로 하고, 평균에서 흩어진 정도를 나타냄
- 변동계수(Coefficient of Variation)
- 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용하고 상대 표준편차라고도 함
- 표준편차나 분산은 한 가지 자료의 산포도를 측정하는 데는 유용하지만 단위가 다른 두 자료 군의 산포도를 비교하는 데는 부적절함
- 표준편차를 표본평균으로 나눈 값으로서 값이 클수록 상대적인 차이가 큼
- 사분위 수 범위(InterQuartile Range)
- 사분위 수 범위는 자료들의 중간 50%에 포함되는 자료의 산포도를 나타냄
- 사분위 수 범위는 제1사분위 수와 제3사분위 수 사이의 차이임
③ 데이터 분포를 나타내는 통계량
- 왜도(Skewness)
종류 | 설명 |
왼쪽 편포(Skewness to the left) | ☞ 평균 < 중위수 < 최빈값 ☞ 왜도 < 0 |
오른쪽 편포(Skewness to the right) | ☞ 최빈값 < 중위수 < 평균 ☞ 왜도 > 0 |
정규 분포 | ☞ 최빈값 = 평균 = 중위수 ☞ 왜도 = 0 |
- 첨도(Kurtosis)
- 데이터의 분포가 정규 분포 곡선으로부터 위 또는 아래쪽으로 뾰족한 정도를 보여주는 값
- 정규 분포는 첨도가 3이지만 일반적으로 첨도의 정의에서 3을 뺀 0을 기준으로 함
4. 시각적 데이터 탐색
- 히스토그램
- 막대형 그래프
- 박스 플롯(Box Plot)
- 산점도(Scatter Plot)
고급 데이터 탐색
1. 시공간 데이터 탐색
① 시공간 데이터
- 시공간 데이터(Spatio-Temporal Data)는 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터
- 시공간 데이터의 특징과 타입은 아래와 같음
특징 | 설명 |
이산적 변화 | ☞ 데이터 수집의 주기가 일정하지 않은 데이터를 이용하여 표현함 ☞ 시간의 변화에 따라 데이터가 추가됨 |
연속적 변화 | ☞ 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현함 ☞ 연속적인 변화를 일종의 함수를 이용하여 표현함 |
타입 | 설명 |
포인트 타입 | ☞ 하나의 노드로 구성되는 공간 데이터 타입 |
라인 타입 | ☞ 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성 |
폴리곤 타입 | ☞ n개의 노드와 n개의 세그먼트로 구성 |
폴리라인 타입 | ☞ n개의 노드와 n-1개의 세그먼트로 구성 |
② 시공간 데이터 탐색 절차
- 문자열 처리 함수를 이용해 주소를 행정구역으로 변환
- 지오 코딩 서비스(Geo-Coding)를 이용해 주소를 좌표계로 변환
- 행정구역 및 좌표계를 지도에 표시
- 지도의 종류는 아래와 같음
종류 | 설명 |
코로플레스 지도(Choropleth Map) | ☞ 어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 색칠해서 표현하는 방법으로 등치지역도라고도 함 ☞ 영역별 데이터를 표현하는 가장 보편적인 방법으로 데이터 값의 크기에 따라 지역별로 색을 다르게 표시함 ☞ 인구밀도가 매우 높은 지역과 낮은 지역에 동일한 척도를 적용할 경우 표시된 지역의 면적이 실제 데이터값의 크기를 반영할 수 없다는 단점이 있음 |
카토그램(Cartogram) | ☞ 특정한 데이터 값의 변화에 따라 지도의 면적이 왜곡되는 지도로 변량비례도라고도 함 ☞ 데이터 값이 큰 지역의 면적이 시각적으로도 더 크게 표시됨으로써 데이터 값의 크기를 직관적으로 인지할 수 있다는 장점이 있음 ☞ 지도의 형태를 왜곡시킴으로써 데이터 지각의 왜곡을 방지하도록 보정함 |
버블 플롯맵(Bubble Plot Map) | ☞ 버블 플롯맵은 버블 차트에 위도와 경도 정보를 적용하여 좌표를 원으로 시각화 한 지도임 ☞ 원의 크기, 색 등을 반영하여 시각화 |
2. 다변량 데이터 탐색
① 다변량 데이터
- 변량(Variance)은 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값임
- 변량 데이터의 유형은 아래와 같음
유형 | 설명 |
일변량 데이터 | ☞ 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료로 단변량 자료라고도 함 |
이변량 데이터 | ☞ 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료 |
다변량 데이터 | ☞ 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료 ☞ 이변량 데이터도 다변량 데이터임 |
② 변량 데이터 탐색
구분 | 설명 |
일변량 데이터 탐색 | ☞ 기술 통계량(평균, 분산, 표준편차 등), 그래프 통계량(히스토그램, 박스 플롯 등) 두 가지 종류가 있음 |
이변량 데이터 탐색 | ☞ 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측함 ☞ 일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상임 |
다변량 데이터 탐색 | ☞ 분석을 시행하기 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료를 탐색함 |
③ 다변량 데이터 탐색 도구
- 산점도 행렬
- 그림 행렬
- 개별 Y 대 개별 X 산점도 행렬
- 별 그림
3. 비정형 데이터 탐색
- 비정형 데이터(Unstructured Data)는 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 이미지나 영상, 텍스트처럼 형태와 구조가 다른 구조화 되지 않은 데이터임
- 비정형 데이터의 탐색 방법은 아래와 같음
방법 | 설명 |
텍스트 탐색 방법 | ☞ 소셜 데이터의 텍스트와 같은 스크립트 파일 형태일 경우 데이터를 파싱한 후 탐색 |
동영상, 이미지 탐색 방법 | ☞ 이진 파일 형태의 데이터일 때는 데이터의 종류별로 응용소프트웨어를 이용하여 탐색 |
반정형 데이터의 탐색 방법 | ☞ XML, JSON, HTML 각각의 Parser를 이용하여 데이터를 파싱 후 탐색 |
반응형
LIST
'Database' 카테고리의 다른 글
[Big Data] 분석 모형 설계 (1) | 2020.11.23 |
---|---|
[Big Data] 통계기법 (0) | 2020.11.19 |
[Big Data] 데이터 전처리 (2) | 2020.11.15 |
[Database] 성능 개선 (0) | 2020.11.13 |
[Database] 데이터 품질과 표준화 (0) | 2020.11.12 |