반응형
SMALL

사전처리 2

[Python] 데이터 사전 처리(Preprocessing)_4

이번 학습 주제도 저번 시간에 이어 데이터 사전 처리(Preprocessing)에 관한 것입니다 그 중에서도 정규화(Normalization)와 시계열 데이터(time series)에 관해 학습하겠습니다 먼저 정규화(Normalization)에 대해 알아보겠습니다 분석하려는 데이터의 어떤 두 열 A, B가 각각 A 열의 데이터는 0~ 10000, B 열의 데이터는 0~1의 범위를 갖는다고 가정하겠습니다 이 때 두 개의 열에 대해서 그래프를 그린다고하면 범위가 더 큰 A 열에 의해 그래프가 더 영향도가 높을 것입니다 이런 차이를 제거하고 분석의 신뢰도를 높이기 위해 데이터를 동일한 크기 기준으로 나눈 비율로 나타내는 방법을 사용하는데 이를 정규화(Normalization)라고 하고 이 과정을 거친 데이터의..

Python 2019.10.10

[Python] 데이터 사전 처리(Preprocessing)_1

지금까지 파이썬(Python)의 판다스(Pandas), 맷플롯립(Matplotlib), 씨본(Seaborn), 폴리엄(Folium) 라이브러리(Library)를 통해 여러 데이터를 다양한 방법으로 출력해보면서 본래 이 학습의 목적인 데이터 분석을 위한 아주 미미한-_- 준비를 해보았습니다 그런데 머신러닝 등 데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우됩니다 일전 학습에서도 일부 데이터의 누락(NaN)으로 오류가 발생한다던지 결과가 잘못나온다던지 하는 현상이 있었습니다-_- 데이터 품질을 높이기 위해서는 누락된 데이터, 중복 데이터 등 오류를 수정하고 분석하려는 목적에 맞게 데이터를 가공해야합니다 먼저 누락 데이터를 처리하는 법을 학습해보도록 하겠습니다 import seaborn as sb ti..

Python 2019.10.01
반응형
LIST