반응형
SMALL

회귀분석 5

[Big Data] 분석 모형 설계

분석 절차 수립 1. 분석 모형 선정 수집된 데이터의 변수들을 고려하여 분석 목적에 부합하고 적합한 데이터 분석 모형을 선정함 1) 통계기반 분석 모형 선정 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계를 통계분석이라 함 ㉮ 기술 통계(Descriptive Statistics) 데이터 분석의 목적으로 수집된 데이터를 확률·통계적으로 정리·요약하는기초적인 통계 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출 막대 그래프, 파이 그래프 등 그래프를 활용하여 데이터 파악 분석 초기 단계에서 데이터 분포의 특징 파악 ㉯ 상관 분석(Correlation Analysis) 종류 설명 단순 상관 ..

Database 2020.11.23

[Big Data] 통계기법

기술통계 데이터 분석의 목적으로 수집된 데이터를 확률·통계적으로 정리 및 요약하는 기초적인 통계임 분석의 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 주로 산출함 통계적 수치를 계산하고 도출하거나 그래프를 활용하여 데이터에 대한 전반적인 이해를 도움 1. 데이터 요약 1) 기초 통계량 ① 평균(Mean) 자료를 모두 더한 후 자료 개수로 나눈 값 전부 같은 가중치를 두며, 이상값에 민감한 단점이 있음 평균에는 표본평균, 모평균, 가중평균이 있음 ② 중위수(Median) 모든 데이터값을 크기 순서로 오름차순 정렬하였을 때 중앙에 위치한 데이터값으로 중앙값이라고도 함 특이값에 영향을 받지 않음 데이터 값의 수가 홀수일 경우에는 중위수가 하나가 되지만 짝수일 경우에는 중앙에 위치한 두 개의 값의 평..

Database 2020.11.19

[Machine Learning] 회귀분석(Regression)_3

정말 오랜만에 학습을 진행하네요-_- 역시 노는게 제일 좋다는 이번 학습의 주제는 다중회귀분석(Multivariate Regression)입니다 앞서 학습한 단순회귀분석은 단일 항이든 다항이든 결과에 영향을 주는 변수(독립 변수)가 한개 였습니다만 이번에 학습할 다중회귀분석은 이 독립 변수가 여러 가지일 때 사용합니다 # 판다스(Pandas) import pandas import numpy import matplotlib.pyplot as mp import matplotlib import seaborn # Prepare Data filepath = "/Users/dennis_sa/Documents/" # 0번 로우를 header로 설정 read_data = pandas.read_csv(filepath+"..

Machine Learning 2019.11.07

[Machine Learning] 회귀분석(Regression)_2

거의 일주일만에 다시 학습을 진행하게되었네요-_-(게을러 터져가지고..) 어찌되었든 이번 학습 주제는 지난 번에 이어 회귀분석 중 다항회귀분석(Polynomial Regression)입니다 지난 학습에서 살펴본 단순회귀분석은 일차식(y = ax + b) 즉, 두 변수 간의 관계를 직선 형태로 설명하는 알고리즘이었습니다 이번에 볼 다항회귀분석은 일차가 아닌 다차원 즉, 곡선 형태로 설명하는 알고리즘입니다 뭐 제 스타일은 일단 이해가 안되도 직진하고 모르는 부분을 계속해서 보는 것이기 때문에 바로 진행하도록 하겠습니다 # 판다스(Pandas) import pandas import numpy import matplotlib.pyplot as mp import matplotlib import seaborn # ..

Machine Learning 2019.10.28

[Python] 데이터 사전 처리(Preprocessing)_3

데이터 사전 처리(Preprocessing) 세번째 시간입니다-_- 이번에는 범주형(Category) 데이터를 처리하는 방법을 학습해보겠습니다 우리가 수집하는 데이터 중에 가격, 비용, 효율 등 연속적인 값을 가지는 데이터가 있습니다 때로는 이런 데이터를 그대로 사용하기 보다는 일정한 수준이나 정도를 나타내는 이산 값으로 구간(bin)을 생성해 그 차이를 드러낼 필요가 있을 수 있습니다 이런 과정을 구간분할(binning)이라고합니다 또한 구간분할을 통해 범주형(Category) 데이터로 변환하여도 컴퓨터가 인식할 수 있도록 변환해주어야합니다 컴퓨터는 계산만 빠르게할 수 있다는-_- 이번 학습은 바로 이런 과정을 익히는 것입니다 # 판다스(Pandas) import pandas import numpy f..

Python 2019.10.07
반응형
LIST