반응형
SMALL
오늘은 실제 데이터를 한 번 살펴보도록 하겠습니다
사용할 데이터셋은 UCI 머신러닝 저장소에 있는 자동차 연비(auto mpg) 입니다
https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/
...더보기
판다스(Pandas) 자료형(Data Type)
판다스(Pandas) | 파이썬(Python) | 설명(Description) |
int64 | int | 정수 |
float64 | float | 실수 |
object | string | 문자열 |
datetime64, timedelta64 | datetime 라이브러리 필요 | 시간 |
# 판다스(Pandas)
import pandas
filepath = "/Users/dennis_sa/Documents/"
#header가 없고 길이가 정해지지 않은 공백이 구분자인 데이터
read_data = pandas.read_csv(filepath+"auto-mpg.data-original", header = None, sep = '\s+')
print(read_data.head(), end = '\n')
read_data.columns = ['연비(mpg)', '실린더 수(cylinders)', '배기량(displacement)', '출력(horsepower)',
'차중(weight)', '가속능력(acceleration)', '출시년도(model_year)', '제조국(origin)', '모델명(name)']
print(read_data.head(), end = '\n') #앞 5행 보기
print(read_data.tail(), end = '\n') #뒤 5행 보기
print(read_data.shape, end = '\n') #데이터프레임의 크기(행,열) 출력
print(read_data.info(), end = '\n') #데이터프레임의 기본 정보 출력
print(read_data.dtypes, end = '\n') #데이터프레임의 자료형 확인
#산술 데이터를 갖는 열에 대한 주요 기술 통계 정보 요약
#include='all' 옵션을 추가하면 산술 데이터외 정보도 포함
print(read_data.describe(include='all'), end = '\n')
print(read_data.count(), end = '\n') #데이터프레임의 각 열 데이터 수 출력
print(read_data['모델명(name)'].value_counts()) #시리즈 객체의 고유값(unique value) 개수
print(read_data.mean(), end = '\n') #산술 데이터를 갖는 모든 열이 평균값 계산
print(read_data[['연비(mpg)', '출력(horsepower)']].mean(), end = '\n') #특정 열을 선택하여 평균값 계산
print(read_data.median(), end = '\n') #산술 데이터를 갖는 모든 열의 중간값 계산
print(read_data[['연비(mpg)', '출력(horsepower)']].median(), end = '\n') #특정 열을 선택하여 중간값 계산
print(read_data.std(), end = '\n') #산술 데이터를 갖는 모든 열의 표준편차 계산
print(read_data[['연비(mpg)', '출력(horsepower)']].std(), end = '\n') #특정 열을 선택하여 표준편차 계산
print(read_data.max(), end = '\n') #각 열의 최대값
print(read_data[['연비(mpg)', '출력(horsepower)']].max(), end = '\n') #특정 열을 선택하여 최대값 계산
print(read_data.min(), end = '\n') #각 열의 최소값
print(read_data[['연비(mpg)', '출력(horsepower)']].min(), end = '\n') #특정 열을 선택하여 최소값 계산
print(read_data.corr(), end = '\n') #두 열 간의 상관계수(모든 경우 계산)
print(read_data[['연비(mpg)', '출력(horsepower)']].corr(), end = '\n') #특정 두 개 열을 선택하여 상관계수 계산
위의 코드는 데이터셋의 정보를 살펴보고 통계 함수를 적용한 것입니다(출력 결과는 각자-_- 넘 귀찮네요)
굉장히 간단하게 통계 함수를 적용하여 데이터를 살펴볼 수 있네요
다음에는 데이터를 시각화하는 작업을 학습하도록 하겠습니다 오늘은 이만-_-
반응형
LIST
'Python' 카테고리의 다른 글
[Python] 맷플롯립(Matplotlib) 라이브러리(Library)_1 (0) | 2019.09.21 |
---|---|
[Python] 판다스(Pandas) 라이브러리(Library)_6 (1) | 2019.09.20 |
[Python] 판다스(Pandas) 라이브러리(Library)_4 (0) | 2019.09.15 |
[Python] 판다스(Pandas) 라이브러리(Library)_3 (0) | 2019.09.14 |
[Python] 판다스(Pandas) 라이브러리(Library)_2 (0) | 2019.09.14 |