반응형
SMALL

pandas 4

[Python] 데이터 사전 처리(Preprocessing)_2

오늘은 데이터 사전 처리(Preprocessing)에 대한 학습 두번째 시간입니다-_- 지난 번에 데이터셋의 누락 데이터, 중복 데이터를 처리하는 방법을 익혀보았습니다 이번에는 데이터의 일관성을 맞추기 위해 데이터를 표준화하는 방법을 익혀보겠습니다 데이터의 일관성을 맞춘다는 의미를 간단하게 설명하기 위해서 한 데이터셋에 길이 데이터가 있다고 가정해보겠습니다 그런데 이 길이 데이터의 수치가 어떤 것은 마일(mile)로 계산되었고 어떤 것은 미터(meter)로 계산되었다면? 이 데이터를 분석했을 때 정확도가 분명히 떨어질 것입니다 그래서 데이터를 분석하고자 할 때 데이터의 표준화는 필요합니다 그럼 오늘도 코드를 작성해보면서 학습해보겠습니다-_- # 판다스(Pandas) import pandas filepat..

Python 2019.10.07

[Python] 판다스(Pandas) 라이브러리(Library)_3

이번에는 판다스 객체의 산술연산에 대해 알아보겠습니다 판다스 객체의 산술연산은 먼저 ① 행/열 인덱스를 기준으로 모든 원소를 정렬하고 ② 동일한 위치에 있는 원소끼리 1:1 대응시켜 처리합니다 (단, 대응되는 원소가 없으면 NaN(Not a Number)으로 처리) # 판다스(Pandas) import pandas import numpy import seaborn #seaborn 내장 데이터셋의 종류 # 'anscombe', 'attention', 'brain_network', 'car_crashes', 'diamonds' # 'dots', 'exercise', 'flights', 'gammas', 'iris' # 'mpg', 'planets', 'tips', 'titanic' # 시리즈와 값 연산 se..

Python 2019.09.14

[Python] 판다스(Pandas) 라이브러리(Library)_2

오늘은 지난 번에 이어 판다스(Pandas) 라이브러리(Libarary)의 데이터프레임(DataFrame)에 대해 학습하겠습니다 지난 번에 데이터프레임의 행과 열을 생성하고 삭제하는 방법을 살펴보았는데 생성한 행과 열을 선택하거나 추가하고 값을 변경하는 법을 보겠습니다 선택을 위해서는 두가지의 인덱서를 사용합니다(loc, iloc) 구분 loc iloc 대상 인덱스 이름(index label) 정수형 위치 인덱스(integer position) 범위 범위의 끝을 포함한다 범위의 끝을 제외한다 # 판다스(Pandas) import pandas data = {'국어' : [100, 90, 80], '영어' : [98, 88, 78], '수학' : [76, 86, 96]} df = pandas.DataFram..

Python 2019.09.14

[Python] 판다스(Pandas) 라이브러리(Library)_1

오늘은 판다스(Pandas) 라이브러리(Library)에 대해 알아보겠습니다 판다스 라이브러리는 데이터를 수집하고 정리하는 데 유용한 오픈 소스(open source)입니다 데이터 분석을 위해서는 우선적으로 데이터가 필요합니다 그런데 다양한 소스(source)로부터 수집하는 데이터는 형태나 속성이 매우 다양하기 때문에 컴퓨터가 이해할 수 있으면서도 동일한 형식을 갖는 구조로 통합할 필요가 있습니다 이를 위해서 판다스는 시리즈(Series, 1차원 배열)와 데이터프레임(DataFrame, 2차원 배열)이라는 구조화된 데이터 형식을 제공합니다 시리즈(Series)는 앞서 언급했듯이 1차원 배열의 형태를 갖습니다 인덱스(index)와 데이터가 1:1 대응을 하는 형태로 파이썬(Python)의 딕셔너리(Dict..

Python 2019.09.09
반응형
LIST