Database

[Big Data] 분석 모형 설계

구루싸 2020. 11. 23. 21:07
반응형
SMALL

분석 절차 수립

1. 분석 모형 선정

  • 수집된 데이터의 변수들을 고려하여 분석 목적에 부합하고 적합한 데이터 분석 모형을 선정함

1) 통계기반 분석 모형 선정

  • 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계를 통계분석이라 함

㉮ 기술 통계(Descriptive Statistics)

  • 데이터 분석의 목적으로 수집된 데이터를 확률·통계적으로 정리·요약하는기초적인 통계
  • 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출
  • 막대 그래프, 파이 그래프 등 그래프를 활용하여 데이터 파악
  • 분석 초기 단계에서 데이터 분포의 특징 파악

㉯ 상관 분석(Correlation Analysis)

종류 설명
단순 상관 분석 ☞ 두 변수 사이의 연관 관계 분석
다중 상관 분석 ☞ 셋 또는 그 이상의 변수들 사이의 연관 정도를 분석
변수 간의 상관 분석 ☞ 데이터의 속성에 따라서 수치적, 명목적, 순서적 데이터를 가지는 변수 간의 분석

㉰ 회귀 분석(Regression Analysis)

종류 설명
단순 회귀 ☞ 독립변수가 1개이며, 종속변수와의 관계가 직선
다중 회귀 ☞ 독립변수가 K개이며, 종속변수와의 관계가 선형
다항 회귀 ☞ 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계(단, 독립변수가 1개일 경우에는 2차 함수 이상)
곡선 회귀 ☞ 독립변수가 1개이며 종속변수와의 관계가 곡선
로지스틱 회귀 ☞ 종속변수가 범주형(2진 변수)인 경우 적용
☞ 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
비선형 회귀 ☞ 회귀식의 모양이 선형관계로 이뤄져 있는지 않은 모형

㉱ 분산 분석(Analysis of Variance)

  • 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법
  • 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석 방법
  • 독립변수와 종속변수의 수에 따라 일원분산, 이원분산, 다변량 분산 분석으로 분류

㉱ 주성분 분석(Principal Component Analysis)

  • 많은 변수의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계 기법
  • 일부 주성분에 의해 변수의 변동이 충분히 설명되는지 알아보는 분석 방법

㉲ 판별 분석(Discriminant Analysis)

  • 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법

2) 데이터 마이닝 기반 분석 모형 선정

  • 데이터 마이닝(Data Mining)은 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계 혹은 규칙 등을 탐색하고 통계적인 기법들을 활용하여 모델화하며 이를 통해 데이터 분석 및 더 나아가 유용한 정보, 지식 등을 추출하는 과정임

㉮ 분류 모델(Classification Model)

  • 분류는 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것
  • 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델임
모델 설명
통계적 기법 로지스틱 회귀 분석, 판별 분석 등과 같은 다변량 통계이론에 근거한 기법
로지스틱 회귀 분석은 선형 회귀 분석과 달리 종속변수가 서열형, 범주형 혹은 명목형 데이터일 때 사용되는 기법으로, 분석 대상이 두 개 혹은 그 이상의 집단으로 구분되는 경우에 개별 관측치들이 어느 집단에 분류될 수 있는지를 분석하고 이를 예측하는 모델을 개발하는 데 사용되는 통계기법
트리 기반 기법 의사결정 규칙에 따라 관심 대상이 되는 집단을 몇 개의 소집단으로 분류하면서 분석하는 기법
CART(Classification And Regression Trees) 알고리즘 활용
CART 알고리즘은 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류와 예측을 수행하는 알고리즘임

최적화 기법 가장 적합한 값을 찾는 기법으로 서포트 벡터 머신 등이 있음
서포트 벡터 머신은 데이터를 분리하는 초평면(Hyperplane) 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 확정적 모델 기반의 이진 선형 분류 방법으로 초평면에서 가장 가까운 곳에 위치한 데이터는 서포트 벡터임
기계 학습 인공지능의 분야 중 하나로서 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술
환경과의 상호작용에 기반한 경험적인 데이터로부터 스스로 성능을 향상시키는 시스템을 연구하는 기술
기대 출력값과 실제 출력값 간의 비교를 통해 계산된 오차를 시냅스 역할을 하는 노드에 가중치를 조정하여 모델에 반영하며 이 과정을 신경망 구조가 안정화될 때까지 반복하여 예측하거나 분류 모델을 구축함
오차를 출력 계층에서 입력 계층으로 반영하는(역방향) 역전파 알고리즘(Backpropagation Algorithm)을 통해 모델을 안정화하며 학습 과정을 기계적으로 단축함

㉯ 예측 모델(Prediction Model)

  • 예측 모델은 범주형 및 수치형 등의 과거 데이터부터 특성을 분석하여 다른 데이터의 결괏값을 예측하는 기법임
기법 설명
회귀 분석(Regression) 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법
의사결정나무(Decision Tree) 의사결정 규칙(Rule)을 트리구조로 도표화하여 분류(Classfication)와 예측(Prediction)을 수행하는 분석 방법
판별 분석, 회귀 분석 등과 같은 변수(Parameter) 모형을 분석하기 위해 사전에 이상값(Outlier)을 검색할 때도 사용 가능
의사결정나무 자체를 분류 또는 예측 모형으로 사용

시계열 분석(Time Series Analysis) 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석기법
인공신경망(Artificial Neural Network) 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델

㉰ 군집화 모델(Clustering Model)

  • 군집화는 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업임

ⓐ 계층적 방법

  • 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집 결과를 산출하는 방법
종류 설명
응집 분석법 각 개체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성하는 방법
분할 분석법 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리하는 방법

ⓑ 비 계층적 방법

  • 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법
  • 비 계층적 방법의 기법으로 K 평균 군집화가 있음
  • K 평균 군집화는 K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트하는 방식으로 군집화하는 방식

㉱ 연관규칙 모델(Association Rule Model)

  • 연관규칙이란 데이터에 숨어있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 것임
  • 연관 분석은 장바구니 분석이라고도 불리며 주로 마케팅에서 활용됨
  • 연관 분석은 고객의 구매 데이터를 분석하여 "어떠한 상품이 또 다른 어떠한 상품과 함께 판매될 확률이 높은가?"와 같은 연관된 규칙을 도출하는 기법임

3) 머신러닝 기반 분석 모형 선정

① 지도 학습(Supervised Learning)

  • 지도 학습은 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법임
  • 지도 학습은 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것에 초점이 있으며, 주로 인식, 분류, 진단, 예측 등의 문제 해결에 적합함
  • 지도 학습은 분석하고자 하는 목적변수의 형태가 수치형인가 범주형인가에 따라 분류와 수치예측 방법으로 나눌 수 있으며 지도 학습 유형은 아래와 같음
유형 설명
로지스틱 회귀(Logistic Regression) ☞ 반응변수가 범주형인 경우 적용되는 회귀 분석 모형
인공신경망 분석(Artificial Neural Network) ☞ 인간의 뉴런 구조를 모방하여 만든 기계학습 모델
의사결정나무(Decision Tree) ☞ 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 및 예측 모델
서포트 벡터 머신(Support Vector Machine) 데이터를 분리하는 초평면(Hyperplane) 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델
랜덤 포레스트(Random Forest) ☞ 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기반들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
감성 분석(Sentiment Analysis) 어떤 주제에 대한 주관적인 인상, 감정, 태도, 개인의 의견들을 텍스트로부터 뽑아내는 분석

② 비지도 학습(Unsupervised Learning)

  • 비지도 학습은 입력 데이터에 대한 정답인 레이블(Label)이 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 기계 학습 기법임
  • 비지도 학습은 목적변수에 대한 정보 없이 학습이 이루어지는 방법임
  • 예측의 문제보다는 주로 현상의 설명이나 특징을 도출하거나 패턴을 도출하는 등의 문제에 많이 활용됨
  • 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격이 더 강함
  • 군집화, 차원축소 기법, 연관 관계분석(장바구니 분석), 자율학습 인공신경망(자기 조직화 지도 등), 딥 러닝(Deep Learning) 등이 있음

4) 변수에 따른 분석기법 선정

① 변수의 개수에 따른 분석기법

구분 설명
단일변수 분석 변수 하나에 대해 기술 통계 확인을 하는 단계
히스토그램이나 박스 플롯을 사용해서 평균, 최빈값, 중위수 등과 함께 각 변수의 분포를 확인
범주형 변수의 경우 박스 플롯을 사용해서 빈도수 분포 체크

이변수 분석 변수 2개 간의 관계를 분석하는 단계
변수의 유형에 따라 적절한 시각화 및 분석 방법 선택
다변수 분석 세 개 이상의 변수 간의 관계를 시각화, 분석하는 방법
범주형 변수가 하나 이상 포함된 경우 변수를 범주에 따라 쪼갠 후, 단변수나 이변수 분석 방법에 따라 분석
세 개 이상의 연속형 변수가 포함된 경우 연속형 변수를 범주형 변수로 변환한 후 분석

② 독립변수와 종속변수의 데이터 유형에 따른 분석기법

  • 독립변수와 종속변수가 주어진 경우
  종속변수(Y)
연속형 범주형
독립변수(X) 연속형 회귀 분석
인공신경망 모델
K-접근법 이웃기법

로지스틱 회귀 분석
판별 분석
K-최근접 이웃기법

범주형 회귀 분석
인공신경망 모델
 의사결정나무

인공신경망 모델
 의사결정나무
로지스틱 회귀 분석

  • 독립변수만 주어진 경우
독립변수(X)
연속형 범주형
주성분 분석
군집 분석
연관성 규칙
판별 분석
상관분석

(5) 분석기법 선정 고려사항

  • 분석 모형을 구축하는 목적과 입력되는 데이터, 변수의 해석 가능 여부에 따라 기법을 선택함
  • 단일 모형을 선택하거나 다수의 모형을 조합한 앙상블 기법을 선택함

2. 분석 모형 정의

  • 분석 모형 정의는 분석 모형을 선정하고 모형(Model)에 적합한 변수를 선택하여 모형의 사양(Specification)을 작성하는 기법임
  • 선택한 모델에 가장 적합한 변수를 선택하기 위해 파라미터와 하이퍼 파라미터를 선정함
구분 설명
파라미터(Parameter) 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값
예측을 수행할 때 모델에 의해 요구되어지는 값
파라미터가 모델의 성능을 결정함
파라미터는 측정되거나 데이터로부터 학습됨
사람에 의해 수작업으로 측정되지 않음
종종 학습된 모델의 일부로 저장됨

하이퍼 파라미터(Hyper-Parameter) 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값
모델의 파라미터값을 측정하기 위해 알고리즘 구현 과정에서 사용
하이퍼 파라미터는 주로 알고리즘 사용자에 의해 결정
경험에 의해 결정 가능한 값
예측 알고리즘 모델링의 성능 등의 문제를 위해 조절

  • 분석 대상인 데이터에 비해 모델이 너무 간단하면 과소 적합이 발생하고, 모델을 너무 복잡하게 선택하면 과대 적합이 발생하므로 적절한 모델을 사용함
  • 부적합 모형 현상은 아래와 같음
현상 설명
모형 선택 오류 ☞ 적합하지 않은 함수 모형 생성
변수 누락 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계가 있지만 모델을 생성할 때 누락되는 경우
부적합 변수 생성 관련이 없는 변수가 모델에 포함된 경우
편향(Bias)을 발생시키지는 않지만 과대 적합을 발생시켜 예측 성능을 저하시킴
동시 편향 종속변수가 연립 방정식의 일부인 경우 동시 편향 발생

3. 분석 모형 구축 절차

(1) 요건 정의

  • 기획 단계의 분석과제 정의를 통해 도출된 내용을 요건 정의로 구체화하는 과정
  • 분석 과정을 설계하고, 구체적인 내용을 실무 담당자와 협의함
  • 분석 요건 도출, 수행 방안 설계, 요건 확정 단계로 수행함

① 분석 요건 도출

  • 기획 단계보다 상세하게 분석 요건을 추출, 분석, 명세화하고 종합적으로 적합성을 검토
  • 데이터 분석 업무의 배경, 주요 이슈, 기대 효과, 제약 사항을 사전에 정의하고 이해 관계자들과 협의하여 확정
  • 기존 분석 자료와 정보를 기반으로 분석요건과 개인정보 보호, 접근 통제 등 정보 보안 정책을 누락 없이 식별

② 수행 방안 설계

  • 간단한 탐색적 분석을 수행하여 가설을 수립해 분석 가능성을 검토
  • 권한 및 계정을 확보하여 데이터베이스 접근 환경을 구축하고, 분석 대상 데이터의 존재 여부를 확인하는 등 간단한 기초 분석을 수행
  • 수행 방안 설계의 최종 산출물은 분석계획서와 WBS가 있음
  • 필수와 선택 분석항목을 사전에 구분하여 우선순위를 부여하고 우선순위가 높은 필수 분석항목이 작업 대상에서 누락되지 않도록 확인

③ 요건 확정

  • 요건 도출과 분석계획으로 수립된 기획안을 이해관계자와 공유하여 최종 요건을 확정
  • 확정된 요건을 종료 이후에 변경하는 일이 없도록 주의

(2) 모델링

  • 모델링은 요건 정의에 따라 상세 분석 기법을 적용해 모델을 개발하는 과정임
  • 모델링 단계는 모델링 마트 설계 및 구축, 탐색적 분석과 유의 변수 도출, 모델링, 모델링 성능 평가 단계로 수행됨

① 모델링 마트 설계 및 구축

  • 다양한 원천 데이터로부터 분석 대상 데이터를 획득
  • 분석 대상 데이터를 탐색, 정제, 요약 등의 전처리를 통해 변수들을 식별
  • 분석 대상 데이터를 구조화하여 모델 마트를 설계
  • 전처리한 분석 대상 데이터를 적재해 모델 마트를 구축

② 탐색적 분석과 유의 변수 도출

  • 유의미한 변수를 파악하기 위해 목푯값별로 해당 변수의 분포된 값을 보고 해당 변수의 구간에서 차이가 큰지를 파악
  • 시뮬레이션을 통해 사전에 수립된 분석 모형의 타당성과 적합성을 판단해 반복적으로 보정
  • 최소한의 시간에 탐색적 분석을 완료하여 단위 분석에 대한 예상 소요 시간을 추정
  • 탐색적 분석과 유의변수 도출 과정에서 정보가 부족하면 신속하게 추가 변수를 개발

③ 모델링

  • 다양한 모델링 기법 중에서 업무 특성에 적합한 기법을 선택하거나 여러 모델링 기법을 결합해 적용
  • 프로세스 및 자원에 대한 제약이 있고 입력값이 확률 분포이면 시뮬레이션 기법을 사용
  • 프로세스 및 자원에 대한 제약이 있고 상숫값을 가질 때는 최적화 기법을 사용
  • 경우에 따라 시뮬레이션과 최적화를 결합해 사용
  • 데이터 마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성을 적용하지 않음

④ 모델링 성능 평가

  • 데이터 마이닝에서는 정확도, 정밀도, 재현율, 향상도 등의 값으로 판단
  • 시뮬레이션에서는 처리량, 평균대기시간 등의 지표 활용
  • 최적화에서는 최적화 이전의 객체 함숫값과 최적화 이후의 값의 차이를 구하여 평가
  • 분석 모형이 적합한지 판단 기준을 수립하고 분석 모형별 학습용 데이터 집합을 구축
  • 구축된 학습용 데이터로 분석 모형을 조정
  • 학습용 데이터로 조정한 분석 모형에 검증용 데이터를 적용하여 학습용 데이터 기반 결과와 검증용 데이터 기반 결과를 비교 분석

(3) 검증 및 테스트

  • 분석용 데이터를 학습용과 테스트용으로 분리한 다음 분석용 데이터를 이용해 자체 검증 후 실제 테스트에서는 신규 데이터 모델을 적용해 결과를 도출하는 단계임
  • 모든 모델링에서 반드시 검증 및 테스트를 거침
  • 검증 및 테스트 단계는 운영 상황에서 실제 테스트, 비즈니스 영향도 평가 단계로 수행됨

① 운영 상황에서 실제 테스트

  • 운영 상황에서 실제 테스트는 분석결과를 업무 프로세스에 가상으로 적용해 검증하는 실무 적용 직전의 활동
  • 구축 및 조정된 분석 모형을 테스트하기 위한 유사 운영환경을 구축
  • 구축한 유사 운영환경에서 분석 모형을 테스트하기 위한 절차 설계하고 설계 절차에 따라 테스트하고 그 결과를 분석
  • 테스트 결과를 분석 모형에 반영하고 반복하여 테스트
  • 최종 테스트 결과를 분석 모형의 실제 운영환경에 적용
  • 분석 모형의 유형에 따라 과대 적합, 과소 적합이 발생하지 않도록 주의

② 비즈니스 영향도 평가

  • ROI를 산출해 해당 분석에 투자한 비용 대비 재무 효과가 200~300% 이상임을 증명
  • 모델링 성과에서의 재현율이 증가하거나 향상도가 개선되어 발생하는 정량적 효과에 대해 비즈니스적인 효과를 제시
  • 투자 대비 효과 정량화 기법으로 비즈니스 영향도를 평가
  • 시뮬레이션에서는 처리량, 대기시간, 대기행렬의 감소를 통한 정량적 효과를 제시
  • 최적화에서는 목적함수가 증가한 만큼의 정량적 효과를 제시

(4) 적용

  • 분석결과를 업무 프로세스에 완전히 통합해 실제 일, 주, 월, 단위로 운영하는 단계
  • 적용 단계는 운영 시스템에 적용과 자동화, 주기적 리모델링 단계로 수행됨

① 운영 시스템에 적용과 자동화

  • 선정된 기법으로 분석 모형을 실제 운영환경에 적용하는 활동
  • 실시간 또는 배치 스케줄러를 실행하여 주기별로 분석 모델의 성과를 DBMS에 기록하고, 조기경보 시스템을 구성
  • 분석 모델을 자동으로 모니터링하고 이상 시에만 확인하는 프로세스 수립
  • R Studio에서 제공하는 Shiny를 이용해 모델링 결과를 사용자 작업 파일과 서버상의 파일을 이용해 배포

② 주기적 리모델링

  • 데이터 마이닝, 최적화 모델링 결과를 정기적으로 재평가해 결과에 따라 필요시 분석 모형을 재조정
  • 데이터 마이닝은 동일한 데이터를 이용해 학습을 다시 하거나 변수를 추가하는 방법을 적용

분석 환경 구축

(1) 분석 도구 선정

㉮ R

  • R은 통계 프로그래밍 언어인 S 언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어임
  • R의 특징은 아래와 같음
특징 설명
기능 사용자가 제작한 패키지를 직접 추가하여 기능을 확장할 수 있음
다양한 그래프 패키지들을 통하여 강력한 시각화 기능을 제공
R의 핵심 패키지는 R 설치와 함께 설치되고, 이외에도 추가 다운로드를 통해 15,000개 이상의 패키지를 설치할 수 있음

도구 ☞ CRAN(The Comprehensive R Archive Network)
R Studio
환경 다양한 OS 지원
인터프리터 언어로 처리 속도가 느리다는 평이 있음
사용버전인 S-PLUS보다 많은 경우에 있어 빠름

㉯ Python

  • R과 거의 같은 작업이 가능한 C언어 기반의 오픈 소스 프로그래밍 언어
  • Python의 특징은 아래와 같음
특징 설명
학습 프로그래밍 언어 자체가 어렵지 않고 초보자도 쉽게 배울 수 있음
문법 들여쓰기를 이용하여 블록을 구분
기능 ☞ R에 비해 시각화에 있어 선택의 폭이 좁음
도구 ☞ 대표적인 IDE가 없어 여러 배포 버전을 살펴보고 필요에 맞는 프로그램을 이용
환경 다양한 OS 지원

(2) 데이터 분할

  • 데이터 분할은 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터로 분할하는 것임
  • 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 과대 적합의 문제를 예방하여 2종 오류인 잘못된 귀무가설을 채택하는 오류를 방지하는 데 목적이 있음
  • 학습용과 검증용 데이터는 학습 과정에서만 사용하며 평가용 데이터는 학습 과정에 사용되지 않고 오로지 모형의 평가를 위한 과정에만 사용됨
  • 검증용 데이터를 사용하여 모형의 학습 과정에서 모형이 제대로 학습되었는지 중간에 검증을 실시하고, 과대 적합과 과소 적합의 발생 여부 등을 확인하여 모형의 튜닝에도 사용함
  • 학습이 완료된 모형에 대하여 한 번도 사용하지 않은 평가용 데이터를 통하여 모형을 평가하며, 이 때 사용된 결과가 모형의 평가 지표가 됨
  • 데이터를 일반적으로 학습용 데이터와 검증용 데이터를 60~80% 사용하고, 평가용 데이터를 20~40%로 분할하지만 절대적인 기준은 아님
  • 데이터가 충분하지 않을 경우 학습용과 평가용 데이터만 분할하여 사용하기도 함
반응형
LIST

'Database' 카테고리의 다른 글

[Big Data] 통계기법  (0) 2020.11.19
[Big Data] 데이터 탐색  (0) 2020.11.15
[Big Data] 데이터 전처리  (2) 2020.11.15
[Database] 성능 개선  (0) 2020.11.13
[Database] 데이터 품질과 표준화  (0) 2020.11.12