반응형
SMALL

누락데이터 2

[Python] 데이터 사전 처리(Preprocessing)_2

오늘은 데이터 사전 처리(Preprocessing)에 대한 학습 두번째 시간입니다-_- 지난 번에 데이터셋의 누락 데이터, 중복 데이터를 처리하는 방법을 익혀보았습니다 이번에는 데이터의 일관성을 맞추기 위해 데이터를 표준화하는 방법을 익혀보겠습니다 데이터의 일관성을 맞춘다는 의미를 간단하게 설명하기 위해서 한 데이터셋에 길이 데이터가 있다고 가정해보겠습니다 그런데 이 길이 데이터의 수치가 어떤 것은 마일(mile)로 계산되었고 어떤 것은 미터(meter)로 계산되었다면? 이 데이터를 분석했을 때 정확도가 분명히 떨어질 것입니다 그래서 데이터를 분석하고자 할 때 데이터의 표준화는 필요합니다 그럼 오늘도 코드를 작성해보면서 학습해보겠습니다-_- # 판다스(Pandas) import pandas filepat..

Python 2019.10.07

[Python] 데이터 사전 처리(Preprocessing)_1

지금까지 파이썬(Python)의 판다스(Pandas), 맷플롯립(Matplotlib), 씨본(Seaborn), 폴리엄(Folium) 라이브러리(Library)를 통해 여러 데이터를 다양한 방법으로 출력해보면서 본래 이 학습의 목적인 데이터 분석을 위한 아주 미미한-_- 준비를 해보았습니다 그런데 머신러닝 등 데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우됩니다 일전 학습에서도 일부 데이터의 누락(NaN)으로 오류가 발생한다던지 결과가 잘못나온다던지 하는 현상이 있었습니다-_- 데이터 품질을 높이기 위해서는 누락된 데이터, 중복 데이터 등 오류를 수정하고 분석하려는 목적에 맞게 데이터를 가공해야합니다 먼저 누락 데이터를 처리하는 법을 학습해보도록 하겠습니다 import seaborn as sb ti..

Python 2019.10.01
반응형
LIST