Python

[Python] 판다스(Pandas) 라이브러리(Library)_5

구루싸 2019. 9. 17. 22:48
반응형
SMALL

오늘은 실제 데이터를 한 번 살펴보도록 하겠습니다

사용할 데이터셋은 UCI 머신러닝 저장소에 있는 자동차 연비(auto mpg) 입니다

https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/

 

Index of /ml/machine-learning-databases/auto-mpg

 

archive.ics.uci.edu

...더보기

판다스(Pandas) 자료형(Data Type)

판다스(Pandas) 파이썬(Python) 설명(Description)
int64 int 정수
float64 float 실수
object string 문자열
datetime64, timedelta64 datetime 라이브러리 필요 시간

 

# 판다스(Pandas)
import pandas

filepath = "/Users/dennis_sa/Documents/"
#header가 없고 길이가 정해지지 않은 공백이 구분자인 데이터
read_data = pandas.read_csv(filepath+"auto-mpg.data-original", header = None, sep = '\s+') 
print(read_data.head(), end = '\n')
read_data.columns = ['연비(mpg)', '실린더 수(cylinders)', '배기량(displacement)', '출력(horsepower)',
                     '차중(weight)', '가속능력(acceleration)', '출시년도(model_year)', '제조국(origin)', '모델명(name)']

print(read_data.head(), end = '\n') #앞 5행 보기
print(read_data.tail(), end = '\n') #뒤 5행 보기
print(read_data.shape, end = '\n') #데이터프레임의 크기(행,열) 출력
print(read_data.info(), end = '\n') #데이터프레임의 기본 정보 출력
print(read_data.dtypes, end = '\n') #데이터프레임의 자료형 확인
#산술 데이터를 갖는 열에 대한 주요 기술 통계 정보 요약
#include='all' 옵션을 추가하면 산술 데이터외 정보도 포함
print(read_data.describe(include='all'), end = '\n') 
print(read_data.count(), end = '\n') #데이터프레임의 각 열 데이터 수 출력
print(read_data['모델명(name)'].value_counts()) #시리즈 객체의 고유값(unique value) 개수
print(read_data.mean(), end = '\n') #산술 데이터를 갖는 모든 열이 평균값 계산
print(read_data[['연비(mpg)', '출력(horsepower)']].mean(), end = '\n') #특정 열을 선택하여 평균값 계산
print(read_data.median(), end = '\n') #산술 데이터를 갖는 모든 열의 중간값 계산
print(read_data[['연비(mpg)', '출력(horsepower)']].median(), end = '\n') #특정 열을 선택하여 중간값 계산
print(read_data.std(), end = '\n') #산술 데이터를 갖는 모든 열의 표준편차 계산
print(read_data[['연비(mpg)', '출력(horsepower)']].std(), end = '\n') #특정 열을 선택하여 표준편차 계산
print(read_data.max(), end = '\n') #각 열의 최대값
print(read_data[['연비(mpg)', '출력(horsepower)']].max(), end = '\n') #특정 열을 선택하여 최대값 계산
print(read_data.min(), end = '\n') #각 열의 최소값
print(read_data[['연비(mpg)', '출력(horsepower)']].min(), end = '\n') #특정 열을 선택하여 최소값 계산
print(read_data.corr(), end = '\n') #두 열 간의 상관계수(모든 경우 계산)
print(read_data[['연비(mpg)', '출력(horsepower)']].corr(), end = '\n') #특정 두 개 열을 선택하여 상관계수 계산

위의 코드는 데이터셋의 정보를 살펴보고 통계 함수를 적용한 것입니다(출력 결과는 각자-_- 넘 귀찮네요)

굉장히 간단하게 통계 함수를 적용하여 데이터를 살펴볼 수 있네요

다음에는 데이터를 시각화하는 작업을 학습하도록 하겠습니다 오늘은 이만-_-

반응형
LIST