반응형
SMALL

군집 3

[Machine Learning] 군집(Clustering)_2

오늘도 공부를 해야겠죠-_- 지난 학습에 이어 주제는 군집(Clustering) 알고리즘 중 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)인데 데이터가 위치하고 있는 공간 밀집도를 기준으로 클러스터를 구분하는 방식입니다 간단히 설명하자면 Noise(Outlier)를 제외한 코어 포인트(Core point)와 경계 포인트(Border point)를 클러스터로 구성하는 것입니다 코어 포인트는 데이터 분포를 점으로 찍었을 때 어느 한 점을 기준으로 반지름(R)인 원을 그려서 그 원 안에 최소 M개의 데이터가 존재하는 점이고 경계 포인트는 자신이 코어 포인트가 아닌데 반지름(R)안에 다른 코어 포인트가 있는 점을 의미합니다 Noise는 ..

Machine Learning 2019.12.11

[Machine Learning] 군집(Clustering)_1

이번 주말은 모처럼 집에만 있어 편안하네요~ 가만히 드러누워 있기 지겨워 다시 학습을 시작! 이번 주제는 제목처럼 군집(Clustering) 분석 알고리즘 중 k-Means 알고리즘입니다 군집 분석 알고리즘은 데이터셋의 관측값이 갖고 있는 여러 속성을 분석하여 서로 비슷한 특징을 갖는 관측값끼리 같은 집단(Cluster)로 묶는 알고리즘입니다 클러스터가 여러 개가 존재한다하면 서로 다른 특성을 지닌 관측값들이 여러가지라는 의미가 되고 이런 특성을 이용해서 이상값, 중복값 등 특이 데이터를 찾는데 활용되기도 합니다 관측값을 몇 개의 집단으로 나눈다는 점에서 분류 알고리즘과 비슷하지만 군집 분석 알고리즘은 비지도학습 유형으로 정답이 없는 상태에서 데이터 자체의 유사성만을 기준으로 판단한다는 점에서 차이가 있..

Machine Learning 2019.11.24

[Machine Learning] 분류(Classification)_3

이번 학습은 분류 알고리즘 중 Decision Tree에 대해 알아보겠습니다 알고리즘에서 즐겨 사용하는 Tree 구조를 이용하고 각 Node에는 분석 대상의 속성들이 위치합니다 각 Node마다 목표 값을 가장 잘 분류할 수 있는 속성을 찾아서 배치하고 해당 속성이 갖는 값을 이용하여 새로운 branch를 만들고 해당 속성을 기준으로 분류한 값들이 구분되는 정도를 측정합니다 다른 종류의 값들이 섞여 있는 정도를 나타내는 Entropy가 낮을수록 분류가 잘 된 것입니다 # 판다스(Pandas) import pandas import numpy # Prepare Data : Breast Cancer uci_path = 'https://archive.ics.uci.edu/ml/machine-learning-dat..

Machine Learning 2019.11.23
반응형
LIST