반응형
SMALL
분석 절차 수립
1. 분석 모형 선정
- 수집된 데이터의 변수들을 고려하여 분석 목적에 부합하고 적합한 데이터 분석 모형을 선정함
1) 통계기반 분석 모형 선정
- 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계를 통계분석이라 함
㉮ 기술 통계(Descriptive Statistics)
- 데이터 분석의 목적으로 수집된 데이터를 확률·통계적으로 정리·요약하는기초적인 통계
- 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출
- 막대 그래프, 파이 그래프 등 그래프를 활용하여 데이터 파악
- 분석 초기 단계에서 데이터 분포의 특징 파악
㉯ 상관 분석(Correlation Analysis)
종류 | 설명 |
단순 상관 분석 | ☞ 두 변수 사이의 연관 관계 분석 |
다중 상관 분석 | ☞ 셋 또는 그 이상의 변수들 사이의 연관 정도를 분석 |
변수 간의 상관 분석 | ☞ 데이터의 속성에 따라서 수치적, 명목적, 순서적 데이터를 가지는 변수 간의 분석 |
㉰ 회귀 분석(Regression Analysis)
종류 | 설명 |
단순 회귀 | ☞ 독립변수가 1개이며, 종속변수와의 관계가 직선 |
다중 회귀 | ☞ 독립변수가 K개이며, 종속변수와의 관계가 선형 |
다항 회귀 | ☞ 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계(단, 독립변수가 1개일 경우에는 2차 함수 이상) |
곡선 회귀 | ☞ 독립변수가 1개이며 종속변수와의 관계가 곡선 |
로지스틱 회귀 | ☞ 종속변수가 범주형(2진 변수)인 경우 적용 ☞ 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능 |
비선형 회귀 | ☞ 회귀식의 모양이 선형관계로 이뤄져 있는지 않은 모형 |
㉱ 분산 분석(Analysis of Variance)
- 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법
- 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석 방법
- 독립변수와 종속변수의 수에 따라 일원분산, 이원분산, 다변량 분산 분석으로 분류
㉱ 주성분 분석(Principal Component Analysis)
- 많은 변수의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계 기법
- 일부 주성분에 의해 변수의 변동이 충분히 설명되는지 알아보는 분석 방법
㉲ 판별 분석(Discriminant Analysis)
- 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법
2) 데이터 마이닝 기반 분석 모형 선정
- 데이터 마이닝(Data Mining)은 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계 혹은 규칙 등을 탐색하고 통계적인 기법들을 활용하여 모델화하며 이를 통해 데이터 분석 및 더 나아가 유용한 정보, 지식 등을 추출하는 과정임
㉮ 분류 모델(Classification Model)
- 분류는 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것
- 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델임
모델 | 설명 |
통계적 기법 | ☞ 로지스틱 회귀 분석, 판별 분석 등과 같은 다변량 통계이론에 근거한 기법 ☞ 로지스틱 회귀 분석은 선형 회귀 분석과 달리 종속변수가 서열형, 범주형 혹은 명목형 데이터일 때 사용되는 기법으로, 분석 대상이 두 개 혹은 그 이상의 집단으로 구분되는 경우에 개별 관측치들이 어느 집단에 분류될 수 있는지를 분석하고 이를 예측하는 모델을 개발하는 데 사용되는 통계기법 |
트리 기반 기법 | ☞ 의사결정 규칙에 따라 관심 대상이 되는 집단을 몇 개의 소집단으로 분류하면서 분석하는 기법 ☞ CART(Classification And Regression Trees) 알고리즘 활용 ☞ CART 알고리즘은 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류와 예측을 수행하는 알고리즘임 |
최적화 기법 | ☞ 가장 적합한 값을 찾는 기법으로 서포트 벡터 머신 등이 있음 ☞ 서포트 벡터 머신은 데이터를 분리하는 초평면(Hyperplane) 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 확정적 모델 기반의 이진 선형 분류 방법으로 초평면에서 가장 가까운 곳에 위치한 데이터는 서포트 벡터임 |
기계 학습 | ☞ 인공지능의 분야 중 하나로서 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 ☞ 환경과의 상호작용에 기반한 경험적인 데이터로부터 스스로 성능을 향상시키는 시스템을 연구하는 기술 ☞ 기대 출력값과 실제 출력값 간의 비교를 통해 계산된 오차를 시냅스 역할을 하는 노드에 가중치를 조정하여 모델에 반영하며 이 과정을 신경망 구조가 안정화될 때까지 반복하여 예측하거나 분류 모델을 구축함 ☞ 오차를 출력 계층에서 입력 계층으로 반영하는(역방향) 역전파 알고리즘(Backpropagation Algorithm)을 통해 모델을 안정화하며 학습 과정을 기계적으로 단축함 |
㉯ 예측 모델(Prediction Model)
- 예측 모델은 범주형 및 수치형 등의 과거 데이터부터 특성을 분석하여 다른 데이터의 결괏값을 예측하는 기법임
기법 | 설명 |
회귀 분석(Regression) | ☞ 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법 |
의사결정나무(Decision Tree) | ☞ 의사결정 규칙(Rule)을 트리구조로 도표화하여 분류(Classfication)와 예측(Prediction)을 수행하는 분석 방법 ☞ 판별 분석, 회귀 분석 등과 같은 변수(Parameter) 모형을 분석하기 위해 사전에 이상값(Outlier)을 검색할 때도 사용 가능 ☞ 의사결정나무 자체를 분류 또는 예측 모형으로 사용 |
시계열 분석(Time Series Analysis) | ☞ 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석기법 |
인공신경망(Artificial Neural Network) | ☞ 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델 |
㉰ 군집화 모델(Clustering Model)
- 군집화는 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업임
ⓐ 계층적 방법
- 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집 결과를 산출하는 방법
종류 | 설명 |
응집 분석법 | ☞ 각 개체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성하는 방법 |
분할 분석법 | ☞ 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리하는 방법 |
ⓑ 비 계층적 방법
- 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법
- 비 계층적 방법의 기법으로 K 평균 군집화가 있음
- K 평균 군집화는 K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트하는 방식으로 군집화하는 방식
㉱ 연관규칙 모델(Association Rule Model)
- 연관규칙이란 데이터에 숨어있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 것임
- 연관 분석은 장바구니 분석이라고도 불리며 주로 마케팅에서 활용됨
- 연관 분석은 고객의 구매 데이터를 분석하여 "어떠한 상품이 또 다른 어떠한 상품과 함께 판매될 확률이 높은가?"와 같은 연관된 규칙을 도출하는 기법임
3) 머신러닝 기반 분석 모형 선정
① 지도 학습(Supervised Learning)
- 지도 학습은 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법임
- 지도 학습은 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것에 초점이 있으며, 주로 인식, 분류, 진단, 예측 등의 문제 해결에 적합함
- 지도 학습은 분석하고자 하는 목적변수의 형태가 수치형인가 범주형인가에 따라 분류와 수치예측 방법으로 나눌 수 있으며 지도 학습 유형은 아래와 같음
유형 | 설명 |
로지스틱 회귀(Logistic Regression) | ☞ 반응변수가 범주형인 경우 적용되는 회귀 분석 모형 |
인공신경망 분석(Artificial Neural Network) | ☞ 인간의 뉴런 구조를 모방하여 만든 기계학습 모델 |
의사결정나무(Decision Tree) | ☞ 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 및 예측 모델 |
서포트 벡터 머신(Support Vector Machine) | ☞ 데이터를 분리하는 초평면(Hyperplane) 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델 |
랜덤 포레스트(Random Forest) | ☞ 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기반들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법 |
감성 분석(Sentiment Analysis) | ☞ 어떤 주제에 대한 주관적인 인상, 감정, 태도, 개인의 의견들을 텍스트로부터 뽑아내는 분석 |
② 비지도 학습(Unsupervised Learning)
- 비지도 학습은 입력 데이터에 대한 정답인 레이블(Label)이 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 기계 학습 기법임
- 비지도 학습은 목적변수에 대한 정보 없이 학습이 이루어지는 방법임
- 예측의 문제보다는 주로 현상의 설명이나 특징을 도출하거나 패턴을 도출하는 등의 문제에 많이 활용됨
- 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격이 더 강함
- 군집화, 차원축소 기법, 연관 관계분석(장바구니 분석), 자율학습 인공신경망(자기 조직화 지도 등), 딥 러닝(Deep Learning) 등이 있음
4) 변수에 따른 분석기법 선정
① 변수의 개수에 따른 분석기법
구분 | 설명 |
단일변수 분석 | ☞ 변수 하나에 대해 기술 통계 확인을 하는 단계 ☞ 히스토그램이나 박스 플롯을 사용해서 평균, 최빈값, 중위수 등과 함께 각 변수의 분포를 확인 ☞ 범주형 변수의 경우 박스 플롯을 사용해서 빈도수 분포 체크 |
이변수 분석 | ☞ 변수 2개 간의 관계를 분석하는 단계 ☞ 변수의 유형에 따라 적절한 시각화 및 분석 방법 선택 |
다변수 분석 | ☞ 세 개 이상의 변수 간의 관계를 시각화, 분석하는 방법 ☞ 범주형 변수가 하나 이상 포함된 경우 변수를 범주에 따라 쪼갠 후, 단변수나 이변수 분석 방법에 따라 분석 ☞ 세 개 이상의 연속형 변수가 포함된 경우 연속형 변수를 범주형 변수로 변환한 후 분석 |
② 독립변수와 종속변수의 데이터 유형에 따른 분석기법
- 독립변수와 종속변수가 주어진 경우
종속변수(Y) | |||
연속형 | 범주형 | ||
독립변수(X) | 연속형 | ☞ 회귀 분석 ☞ 인공신경망 모델 ☞ K-접근법 이웃기법 |
☞ 로지스틱 회귀 분석 ☞ 판별 분석 ☞ K-최근접 이웃기법 |
범주형 | ☞ 회귀 분석 ☞ 인공신경망 모델 ☞ 의사결정나무 |
☞ 인공신경망 모델 ☞ 의사결정나무 ☞ 로지스틱 회귀 분석 |
- 독립변수만 주어진 경우
독립변수(X) | |
연속형 | 범주형 |
☞ 주성분 분석 ☞ 군집 분석 |
☞ 연관성 규칙 ☞ 판별 분석 |
상관분석 |
(5) 분석기법 선정 고려사항
- 분석 모형을 구축하는 목적과 입력되는 데이터, 변수의 해석 가능 여부에 따라 기법을 선택함
- 단일 모형을 선택하거나 다수의 모형을 조합한 앙상블 기법을 선택함
2. 분석 모형 정의
- 분석 모형 정의는 분석 모형을 선정하고 모형(Model)에 적합한 변수를 선택하여 모형의 사양(Specification)을 작성하는 기법임
- 선택한 모델에 가장 적합한 변수를 선택하기 위해 파라미터와 하이퍼 파라미터를 선정함
구분 | 설명 |
파라미터(Parameter) | ☞ 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값 ☞ 예측을 수행할 때 모델에 의해 요구되어지는 값 ☞ 파라미터가 모델의 성능을 결정함 ☞ 파라미터는 측정되거나 데이터로부터 학습됨 ☞ 사람에 의해 수작업으로 측정되지 않음 ☞ 종종 학습된 모델의 일부로 저장됨 |
하이퍼 파라미터(Hyper-Parameter) | ☞ 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값 ☞ 모델의 파라미터값을 측정하기 위해 알고리즘 구현 과정에서 사용 ☞ 하이퍼 파라미터는 주로 알고리즘 사용자에 의해 결정 ☞ 경험에 의해 결정 가능한 값 ☞ 예측 알고리즘 모델링의 성능 등의 문제를 위해 조절 |
- 분석 대상인 데이터에 비해 모델이 너무 간단하면 과소 적합이 발생하고, 모델을 너무 복잡하게 선택하면 과대 적합이 발생하므로 적절한 모델을 사용함
- 부적합 모형 현상은 아래와 같음
현상 | 설명 |
모형 선택 오류 | ☞ 적합하지 않은 함수 모형 생성 |
변수 누락 | ☞ 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계가 있지만 모델을 생성할 때 누락되는 경우 |
부적합 변수 생성 | ☞ 관련이 없는 변수가 모델에 포함된 경우 ☞ 편향(Bias)을 발생시키지는 않지만 과대 적합을 발생시켜 예측 성능을 저하시킴 |
동시 편향 | ☞ 종속변수가 연립 방정식의 일부인 경우 동시 편향 발생 |
3. 분석 모형 구축 절차
(1) 요건 정의
- 기획 단계의 분석과제 정의를 통해 도출된 내용을 요건 정의로 구체화하는 과정
- 분석 과정을 설계하고, 구체적인 내용을 실무 담당자와 협의함
- 분석 요건 도출, 수행 방안 설계, 요건 확정 단계로 수행함
① 분석 요건 도출
- 기획 단계보다 상세하게 분석 요건을 추출, 분석, 명세화하고 종합적으로 적합성을 검토
- 데이터 분석 업무의 배경, 주요 이슈, 기대 효과, 제약 사항을 사전에 정의하고 이해 관계자들과 협의하여 확정
- 기존 분석 자료와 정보를 기반으로 분석요건과 개인정보 보호, 접근 통제 등 정보 보안 정책을 누락 없이 식별
② 수행 방안 설계
- 간단한 탐색적 분석을 수행하여 가설을 수립해 분석 가능성을 검토
- 권한 및 계정을 확보하여 데이터베이스 접근 환경을 구축하고, 분석 대상 데이터의 존재 여부를 확인하는 등 간단한 기초 분석을 수행
- 수행 방안 설계의 최종 산출물은 분석계획서와 WBS가 있음
- 필수와 선택 분석항목을 사전에 구분하여 우선순위를 부여하고 우선순위가 높은 필수 분석항목이 작업 대상에서 누락되지 않도록 확인
③ 요건 확정
- 요건 도출과 분석계획으로 수립된 기획안을 이해관계자와 공유하여 최종 요건을 확정
- 확정된 요건을 종료 이후에 변경하는 일이 없도록 주의
(2) 모델링
- 모델링은 요건 정의에 따라 상세 분석 기법을 적용해 모델을 개발하는 과정임
- 모델링 단계는 모델링 마트 설계 및 구축, 탐색적 분석과 유의 변수 도출, 모델링, 모델링 성능 평가 단계로 수행됨
① 모델링 마트 설계 및 구축
- 다양한 원천 데이터로부터 분석 대상 데이터를 획득
- 분석 대상 데이터를 탐색, 정제, 요약 등의 전처리를 통해 변수들을 식별
- 분석 대상 데이터를 구조화하여 모델 마트를 설계
- 전처리한 분석 대상 데이터를 적재해 모델 마트를 구축
② 탐색적 분석과 유의 변수 도출
- 유의미한 변수를 파악하기 위해 목푯값별로 해당 변수의 분포된 값을 보고 해당 변수의 구간에서 차이가 큰지를 파악
- 시뮬레이션을 통해 사전에 수립된 분석 모형의 타당성과 적합성을 판단해 반복적으로 보정
- 최소한의 시간에 탐색적 분석을 완료하여 단위 분석에 대한 예상 소요 시간을 추정
- 탐색적 분석과 유의변수 도출 과정에서 정보가 부족하면 신속하게 추가 변수를 개발
③ 모델링
- 다양한 모델링 기법 중에서 업무 특성에 적합한 기법을 선택하거나 여러 모델링 기법을 결합해 적용
- 프로세스 및 자원에 대한 제약이 있고 입력값이 확률 분포이면 시뮬레이션 기법을 사용
- 프로세스 및 자원에 대한 제약이 있고 상숫값을 가질 때는 최적화 기법을 사용
- 경우에 따라 시뮬레이션과 최적화를 결합해 사용
- 데이터 마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성을 적용하지 않음
④ 모델링 성능 평가
- 데이터 마이닝에서는 정확도, 정밀도, 재현율, 향상도 등의 값으로 판단
- 시뮬레이션에서는 처리량, 평균대기시간 등의 지표 활용
- 최적화에서는 최적화 이전의 객체 함숫값과 최적화 이후의 값의 차이를 구하여 평가
- 분석 모형이 적합한지 판단 기준을 수립하고 분석 모형별 학습용 데이터 집합을 구축
- 구축된 학습용 데이터로 분석 모형을 조정
- 학습용 데이터로 조정한 분석 모형에 검증용 데이터를 적용하여 학습용 데이터 기반 결과와 검증용 데이터 기반 결과를 비교 분석
(3) 검증 및 테스트
- 분석용 데이터를 학습용과 테스트용으로 분리한 다음 분석용 데이터를 이용해 자체 검증 후 실제 테스트에서는 신규 데이터 모델을 적용해 결과를 도출하는 단계임
- 모든 모델링에서 반드시 검증 및 테스트를 거침
- 검증 및 테스트 단계는 운영 상황에서 실제 테스트, 비즈니스 영향도 평가 단계로 수행됨
① 운영 상황에서 실제 테스트
- 운영 상황에서 실제 테스트는 분석결과를 업무 프로세스에 가상으로 적용해 검증하는 실무 적용 직전의 활동
- 구축 및 조정된 분석 모형을 테스트하기 위한 유사 운영환경을 구축
- 구축한 유사 운영환경에서 분석 모형을 테스트하기 위한 절차 설계하고 설계 절차에 따라 테스트하고 그 결과를 분석
- 테스트 결과를 분석 모형에 반영하고 반복하여 테스트
- 최종 테스트 결과를 분석 모형의 실제 운영환경에 적용
- 분석 모형의 유형에 따라 과대 적합, 과소 적합이 발생하지 않도록 주의
② 비즈니스 영향도 평가
- ROI를 산출해 해당 분석에 투자한 비용 대비 재무 효과가 200~300% 이상임을 증명
- 모델링 성과에서의 재현율이 증가하거나 향상도가 개선되어 발생하는 정량적 효과에 대해 비즈니스적인 효과를 제시
- 투자 대비 효과 정량화 기법으로 비즈니스 영향도를 평가
- 시뮬레이션에서는 처리량, 대기시간, 대기행렬의 감소를 통한 정량적 효과를 제시
- 최적화에서는 목적함수가 증가한 만큼의 정량적 효과를 제시
(4) 적용
- 분석결과를 업무 프로세스에 완전히 통합해 실제 일, 주, 월, 단위로 운영하는 단계
- 적용 단계는 운영 시스템에 적용과 자동화, 주기적 리모델링 단계로 수행됨
① 운영 시스템에 적용과 자동화
- 선정된 기법으로 분석 모형을 실제 운영환경에 적용하는 활동
- 실시간 또는 배치 스케줄러를 실행하여 주기별로 분석 모델의 성과를 DBMS에 기록하고, 조기경보 시스템을 구성
- 분석 모델을 자동으로 모니터링하고 이상 시에만 확인하는 프로세스 수립
- R Studio에서 제공하는 Shiny를 이용해 모델링 결과를 사용자 작업 파일과 서버상의 파일을 이용해 배포
② 주기적 리모델링
- 데이터 마이닝, 최적화 모델링 결과를 정기적으로 재평가해 결과에 따라 필요시 분석 모형을 재조정
- 데이터 마이닝은 동일한 데이터를 이용해 학습을 다시 하거나 변수를 추가하는 방법을 적용
분석 환경 구축
(1) 분석 도구 선정
㉮ R
- R은 통계 프로그래밍 언어인 S 언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어임
- R의 특징은 아래와 같음
특징 | 설명 |
기능 | ☞ 사용자가 제작한 패키지를 직접 추가하여 기능을 확장할 수 있음 ☞ 다양한 그래프 패키지들을 통하여 강력한 시각화 기능을 제공 ☞ R의 핵심 패키지는 R 설치와 함께 설치되고, 이외에도 추가 다운로드를 통해 15,000개 이상의 패키지를 설치할 수 있음 |
도구 | ☞ CRAN(The Comprehensive R Archive Network) ☞ R Studio |
환경 | ☞ 다양한 OS 지원 ☞ 인터프리터 언어로 처리 속도가 느리다는 평이 있음 ☞ 사용버전인 S-PLUS보다 많은 경우에 있어 빠름 |
㉯ Python
- R과 거의 같은 작업이 가능한 C언어 기반의 오픈 소스 프로그래밍 언어
- Python의 특징은 아래와 같음
특징 | 설명 |
학습 | ☞ 프로그래밍 언어 자체가 어렵지 않고 초보자도 쉽게 배울 수 있음 |
문법 | ☞ 들여쓰기를 이용하여 블록을 구분 |
기능 | ☞ R에 비해 시각화에 있어 선택의 폭이 좁음 |
도구 | ☞ 대표적인 IDE가 없어 여러 배포 버전을 살펴보고 필요에 맞는 프로그램을 이용 |
환경 | ☞ 다양한 OS 지원 |
(2) 데이터 분할
- 데이터 분할은 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터로 분할하는 것임
- 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 과대 적합의 문제를 예방하여 2종 오류인 잘못된 귀무가설을 채택하는 오류를 방지하는 데 목적이 있음
- 학습용과 검증용 데이터는 학습 과정에서만 사용하며 평가용 데이터는 학습 과정에 사용되지 않고 오로지 모형의 평가를 위한 과정에만 사용됨
- 검증용 데이터를 사용하여 모형의 학습 과정에서 모형이 제대로 학습되었는지 중간에 검증을 실시하고, 과대 적합과 과소 적합의 발생 여부 등을 확인하여 모형의 튜닝에도 사용함
- 학습이 완료된 모형에 대하여 한 번도 사용하지 않은 평가용 데이터를 통하여 모형을 평가하며, 이 때 사용된 결과가 모형의 평가 지표가 됨
- 데이터를 일반적으로 학습용 데이터와 검증용 데이터를 60~80% 사용하고, 평가용 데이터를 20~40%로 분할하지만 절대적인 기준은 아님
- 데이터가 충분하지 않을 경우 학습용과 평가용 데이터만 분할하여 사용하기도 함
반응형
LIST
'Database' 카테고리의 다른 글
[Big Data] 통계기법 (0) | 2020.11.19 |
---|---|
[Big Data] 데이터 탐색 (0) | 2020.11.15 |
[Big Data] 데이터 전처리 (2) | 2020.11.15 |
[Database] 성능 개선 (0) | 2020.11.13 |
[Database] 데이터 품질과 표준화 (0) | 2020.11.12 |