반응형
SMALL

전체 글 200

[Machine Learning] 분류(Classification)_2

오늘은 SVM(Support Vector Machine) 에 대해 알아보겠습니다 여태 사용했던 데이터프레임의 각 열은 열 벡터(Vector) 형태로 구현되고 이 열 벡터들이 각각 고유의 축을 갖는 벡터 공간을 생성하고 분석 대상이 되는 개별 관측값은 모든 속성에 관한 값을 해당 축의 좌표로 표시합니다 역시 직접 해보는게 이해하는 가장 빠른 길이겠죠-_- # 판다스(Pandas) import pandas import seaborn # Prepare Data titanic_data = seaborn.load_dataset('titanic') pandas.set_option('display.max_columns', 15) print(titanic_data.head(), end = '\n') # Explore ..

Machine Learning 2019.11.23

[Machine Learning] 분류(Classification)_1

프로젝트 deadline이 임박해서 거의 3~4일에 한 번 학습을 진행할 수 있네요-_- 이번 학습 주제는 예측하려는 대상의 속성을 입력 받아 목표 값(범주형) 중에서 어느 한 값으로 분류하여 예측하는 분류 알고리즘 중에서 새로운 관측값이 주어지면 기존 데이터 중 속성이 가장 비슷한 k개의 이웃을 찾아 이웃들이 갖는 목표 값과 같은 값으로 분류하는 KNN(K-Nearest-Neighbors) 알고리즘입니다 이 KNN 알고리즘은 k값에 따라 예측의 정확도가 달라지므로 k값을 잘 찾는 것이 관건이 되겠습니다 # -*- coding: utf-8 -*- # 판다스(Pandas) import pandas import seaborn # Prepare Data titanic_data = seaborn.load_dat..

Machine Learning 2019.11.11

[Machine Learning] 회귀분석(Regression)_3

정말 오랜만에 학습을 진행하네요-_- 역시 노는게 제일 좋다는 이번 학습의 주제는 다중회귀분석(Multivariate Regression)입니다 앞서 학습한 단순회귀분석은 단일 항이든 다항이든 결과에 영향을 주는 변수(독립 변수)가 한개 였습니다만 이번에 학습할 다중회귀분석은 이 독립 변수가 여러 가지일 때 사용합니다 # 판다스(Pandas) import pandas import numpy import matplotlib.pyplot as mp import matplotlib import seaborn # Prepare Data filepath = "/Users/dennis_sa/Documents/" # 0번 로우를 header로 설정 read_data = pandas.read_csv(filepath+"..

Machine Learning 2019.11.07

[Machine Learning] 회귀분석(Regression)_2

거의 일주일만에 다시 학습을 진행하게되었네요-_-(게을러 터져가지고..) 어찌되었든 이번 학습 주제는 지난 번에 이어 회귀분석 중 다항회귀분석(Polynomial Regression)입니다 지난 학습에서 살펴본 단순회귀분석은 일차식(y = ax + b) 즉, 두 변수 간의 관계를 직선 형태로 설명하는 알고리즘이었습니다 이번에 볼 다항회귀분석은 일차가 아닌 다차원 즉, 곡선 형태로 설명하는 알고리즘입니다 뭐 제 스타일은 일단 이해가 안되도 직진하고 모르는 부분을 계속해서 보는 것이기 때문에 바로 진행하도록 하겠습니다 # 판다스(Pandas) import pandas import numpy import matplotlib.pyplot as mp import matplotlib import seaborn # ..

Machine Learning 2019.10.28

[Machine Learning] 회귀분석(Regression)_1

이번 학습 주제는 머신러닝(Machine Learning) 알고리즘(Algorithms) 중 회귀분석(Regression)이고 두 변수 사이에 1:1로 대응되는 확률적, 통계적 상관성을 찾는 단순회귀분석(Simple Linear Regression)에 대해 알아보겠습니다 그 전에 머신러닝 프로세스(Machine Learning Process)에 대해 잠깐 살펴보면 아래와 같습니다 데이터 정리 머신러닝 데이터 분석을 시작하기 전에 컴퓨터가 이해할 수 있는 형태로 데이터를 변환하는 작업이 선행되어야하는데 분석 대상에 대한 관측값(observation)을 속성(feature or variable)을 기준으로 정리합니다 데이터 분리(훈련/검증) 알고리즘 준비 모형 학습 훈련 데이터 이용 예측 검증 데이터 이용 ..

Machine Learning 2019.10.20

[Python] 데이터 프레임(Data Frame) 심화_5

이번 학습은 엑셀(Excel)에서 사용하는 피벗(pivot) 테이블과 비슷한 기능을 처리하는 방법입니다 import pandas import seaborn def max_min(x) : return x.max() - x.min() def z_score(x) : return (x - x.mean()) / x.std() pandas.set_option('display.max_columns', 10) pandas.set_option('display.max_colwidth', 20) titanic_data = seaborn.load_dataset('titanic') pivot = pandas.pivot_table(titanic_data, # 피벗할 데이터프레임 index = 'class', # 행 위치에 들어갈..

Python 2019.10.19

[Python] 데이터 프레임(Data Frame) 심화_4

지난 학습에 이어 이번 학습 주제는 데이터를 집계, 변환, 필터링하는데 효율적인 그룹 연산입니다 그룹 연산은 데이터를 특정 조건에 의해 분할(split)하고 집계, 변환, 필터링에 필요한 메서드를 적용(apply)하여 그 결과를 결합(combine)하는 3단계의 과정으로 이루어집니다 또한, 여러 개의 열을 기준으로 그룹화할 수 있도록? 멀티 인덱스(MultiIndex)를 지원합니다 ...더보기 ※ 판다스(Pandas) 기본 집계(aggregation) 함수(Function) mean(), max(), min(), sum(), count(), size(), var(), std(), describe(), info(), first(), last() 등 import pandas import seaborn def..

Python 2019.10.18

[Python] 데이터 프레임(Data Frame) 심화_3

이번 학습 주제는 데이터 프레임(Data Frame)을 다양하게 합치는 방법입니다 import pandas # Create Sample Data sample1 = pandas.DataFrame({'a' : ['a0', 'a1', 'a2', 'a3'], 'b' : ['b0', 'b1', 'b2', 'b3'], 'c' : ['c0', 'c1', 'c2', 'c3']}, index=[0, 1, 2, 3]) sample2 = pandas.DataFrame({'a' : ['a2', 'a3', 'a4', 'a5'], 'b' : ['b2', 'b3', 'b4', 'b5'], 'c' : ['c2', 'c3', 'c4', 'c5'], 'd' : ['d2', 'd3', 'd4', 'd5']}, index=[2, 3, 4,..

Python 2019.10.16

[Python] 데이터 프레임(Data Frame) 심화_2

정말 오랜만에 다시 파이썬(Python) 학습을 시작하겠습니다 오늘의 주제는 데이터 프레임(Data Frame)의 열 순서를 변경하거나 분리하고 필터링 하는 방법입니다 뭐 주제만 들어도 어떤 내용인지 짐작이 가기 때문에 부연 설명을 적을 필요는 없을 것 같네요-_- import seaborn import pandas titanic_data = seaborn.load_dataset('titanic') print(titanic_data.head(), end = '\n') # 디스플레이 설정 변경 pandas.set_option('display.max_columns', 5) # 출력할 열의 개수 # 열 이름 리스트 생성 all_columns = list(titanic_data.columns.values) pr..

Python 2019.10.16

[Python] 데이터 프레임(Data Frame) 심화_1

이번 학습 주제는 함수 매핑(Function Mapping)입니다 함수 매핑은 시리즈(Series) 또는 데이터 프레임(Data Frame)의 개별 원소를 특정 함수(lambda 포함)에 일대일 대응시키는 것을 말합니다 import seaborn def add_ten(n) : return n + 10 def add_value(x, y) : return x + y def valid_value(x) : return x.notnull() def valid_count(x) : return valid_value(x).sum() def total_valid_count(x) : return valid_count(x).sum() titanic_data = seaborn.load_dataset('titanic') # 시..

Python 2019.10.11
반응형
LIST