Database

[Big Data] 데이터 분석 계획

구루싸 2020. 10. 23. 14:03
반응형
SMALL

분석 방안 수립

1. 분석 로드맵 

  • 단계별로 추진하고자 하는 목표를 정확히 정의하고, 선·후행 단계를 고려해 단계별 추진내용을 정렬함
단계 추진과제 추진목표
데이터 분석체계 도입 ☞ 분석 기회 발굴
☞ 분석 과제 정의
☞ 로드맵 수집

☞ 비즈니스 약점이 무엇인지 식별
☞ 분석 과제를 정의하고 로드맵 수집
데이터 분석 유효성 검증 ☞ 분석 알고리즘 설계
☞ 아키텍처 설계
☞ 분석 과제 파일럿(Pilot) 수행
※ 파일럿은 이미 검증된 기술을 가지고 본 프로젝트를 본격적으로 진행하기 전에 시험운영을 통해 효과를 미리 검토하고 문제점 여부를 점검하는 소규모 프로젝트를 말함
☞ 분석 과제에 대한 파일럿 수행
☞ 유효성, 타당성을 검증
☞ 기술 실현 가능성을 검증
☞ 분석 알고리즘 및 아키텍처 설계

데이터 분석 확산 및 고도화 ☞ 변화관리
☞ 시스템 구축
☞ 유관 시스템 고도화

☞ 검증된 분석 과제를 업무 프로세스에 내재화하기 위한 변환관리 실시
☞ 빅데이터 분석, 활용 시스템 구축 및 유관시스템을 고도화

2. 분석 문제 정의

  • 과제는 처리해야할 문제이며, 분석은 과제와 관련된 현상이나 원인, 해결방안에 대한 자료를 수집 및 분석하여 의사 결정에 활용하는 활동임
  • 문제는 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정으로 제약조건을 파악하고, 잠재 원인을 진단하고 관련된 데이터를 수집, 가공, 분석하는 활동을 수행
  • 하향식 접근 방식과 상향식 접근 방식을 반복적으로 수행하면서 상호 보완하여 분석 과제를 발굴
  • 과제 발굴 이후 분석 과제 정의서를 작성

(1) 하향식 접근 방식

  • 하향식 접근 방식(Top Down Approach)은 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법
단계 내용
문제 탐색 ☞ 비즈니스 모델 기반 문제 탐색
업무, 제품, 고객, 규제와 감사, 지원 인프라 등 5가지 영역으로 기업 비즈니스 분석
☞ 분석 기회 발굴의 범위 확정(거시적, 경쟁사, 시장, 역량)
☞ 외부 참조 모델 기반 문제 탐색(동종 사례 벤치마킹)
☞ 분석 유스케이스 정의

문제 정의 ☞ 사용자 관점에서 비즈니스 문제를 데이터 문제로 변환하여 정의
☞ 필요한 데이터 및 기법 정의
해결방안 탐색 ☞ 정의된 문제를 해결하기 위해 분석기법 및 역량에 따라 다양한 방안으로 탐색
☞ 데이터, 시스템, 인력 등에 따라 소요되는 예산 및 활용 가능한 도구를 다양하게 고려
타당성 검토 ☞ 제시된 대안에 대한 타당성 평가 수행
☞ 경제적 타당성(비용 대비 편익) 검토
☞ 데이터 및 기술적 타당성 검토(데이터 존재 여부, 분석시스템 환경 분석, 데이터 분석 역량 존재 여부)
☞ 운영적 타당성 검토(조직의 문화, 여건 등을 감안하여 실제 운영 가능성에 대한 타당성 평가)

선택 ☞  여러 대안 중 타당성에 입각하여 최적 대안을 선택하여 이를 프로젝트화하고 계획 단계의 입력 정보로 설정함

(2) 상향식 접근 방식

  • 상향식 접근 방식(Bottom Up Approach)은 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론으로 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식이며 디자인 사고(Design Thinking) 접근법을 사용하여 객관적인 데이터 그 자체를 관찰하고 실제적으로 행동에 옮겨 대상을 이해하는 방식을 적용
  • 디자인 사고는 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 혁신적 사고와 주어진 상황에 대한 최선의 방법을 찾는 수렴적 사고의 반복을 통해 혁신적 결과를 도출하는 창의적 문제 해결 방법을 의미함
  • 상향식 접근 방식의 특징은 아래와 같음
특징 설명
비지도 학습(Unsupervised Learning) 방법 사용 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태 분석
장바구니 분석, 군집 분석, 기술 통계, 프로파일링 등의 기술을 사용
프로토타이핑 접근법 사용 ☞ 시행착오를 통한 문제 해결을 위해 사용
가설의 생성(Hypotheses), 디자인에 대한 실험(Design Experiments), 실제 환경에서의 테스트(Test), 테스트 결과에서의 통찰(Insight) 도출 및 가설 확인의 프로세스로 실행

(3) 대상별 분석 기획 유형  

  • 빅데이터 분석은 분석의 대상과 방법에 따라 4가지로 분류됨
유형 설명
최적화
(Optimization)
☞ 분석의 대상이 무엇인지를 인지하고 있는 경우, 즉 해결해야 할 문제를 알고 있고 이미 분석의 방법도 알고 있는 경우 사용
☞ 개선을 통한 최적화 형태로 분석을 수행
솔루션
(Solution)
☞ 분석의 대상은 인지하고 있으나 방법을 모르는 경우에는 해당 분석 주제에 대한 솔루션을 찾아냄
통찰
(Insight)
☞ 분석의 대상이 명확하게 무엇인지 모르는 경우에는 기존 분석 방식을 활용하여 새로운 지식인 통찰을 도출
발견
(Discovery)
☞ 분석의 대상과 방법을 모르는 경우에는 발견 접근법으로 분석의 대상 자체를 새롭게 도출

(4) 빅데이터 분석 과제 추진 시 고려해야 하는 우선순위 평가 기준

구분 설명
시급성 ☞ 목표 가치와 전략적 중요도에 부합하는지에 따른 시급성이 가장 중요한 기준
☞ 시급성의 판단 기준은 전략적 중요도가 핵심사항
☞ 분석 과제의 목표 가치와 전략적 중요도를 현재의 관점에서 둘 것인지, 미래의 관점에 둘 것인지를 함께 고려하여 시급성 여부 판단 필요
난이도 ☞ 현재 기업의 분석 수준과 데이터를 생성, 저장, 가공, 분석하는 비용을 고려한 난이도는 중요한 기준
☞ 난이도는 현 시점에서 과제를 추진하는 것이 범위 측면과 적용 비용 측면에서 바로 적용하기 쉬운 것인지 또는 어려운 것인지에 대한 판단 기준으로 데이터 분석의 적합성 여부의 기준이 됨

우선순위 선정 기준을 토대로 난이도 또는 시급성을 고려하여 분석 과제를 4가지 유형으로 구분하여 분석 과제의 적용 우선순위를 결정

분석 과제 우선순위 선정 매트릭스

  • Ⅰ사분면은 전략적 중요도가 높아 경영에 미치는 영향이 크므로 현재 시급하게 추진이 필요하지만 난이도가 높아 현재 수준에서 과제를 바로 적용하기에 어려움
  • Ⅱ 사분면은 현재 시점에서는 전략적 중요도가 높지 않지만 중장기적 관점에서는 반드시 추진되어야 하며 분석과제를 바로 적용하기에는 난이도가 높음
  • Ⅲ 사분면은 전략적 중요도가 높아 현재 시점에 전략적 가치를 두고 있으며 과제 추진의 난이도가 어렵지 않아 우선순위를 바로 적용 가능함
  • Ⅳ 사분면은 전략적 중요도가 높지 않아 중장기적 관점에서 과제 추진이 바람직하며 과제를 바로 적용하는 것은 어렵지 않음
  • 사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 것은 Ⅲ 사분면 영역임
  • 전략적 중요도가 현재 시점에는 상대적으로 낮은 편이지만 중장기적으로 경영에 미치는 영향도가 높고, 분석 과제를 바로 적용하기 어려워 우선순위가 낮은 영역은 Ⅱ 사분면임
  • 분석 과제의 적용 우선순위 기준을 시급성에 둔다면 Ⅲ→Ⅳ→Ⅱ→Ⅰ 사분면 순임
  • 분석 과제의 적용 우선순위 기준을 난이도에 둔다면 Ⅲ→Ⅰ→Ⅱ→Ⅳ 사분면 순임

3. 데이터 분석 방안

  • 빅데이터 분석 방법론은 빅데이터를 분석하기 위해 문제를 정의하고 답을 도출하기 위한 체계적인 절차와 처리 방법임
  • 데이터 분석 방법론의 구성요소에는 절차, 방법, 도구와 기법, 템플릿과 산출물이 있음

(1) 빅데이터 분석 방법론 계층

계층 설명
단계(Phrase) ☞ 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성됨
☞ 기준선(Baseline)으로 관리하며, 버전 관리(Configuration Management) 등을 통한 통제
태스크(Task) ☞ 단계를 구성하는 단위 활동
☞ 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
스텝(Step) ☞ 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스

(2) 빅데이터 분석 방법론의 분석 절차

빅데이터 분석 방법론 절차

순서 절차 세부 절차 내용
1 분석 기획 비즈니스 이해 및 범위 설정 ☞ 프로젝트 진행을 위해 비즈니스에 대한 충분한 이해와 도메인 문제점 파악
☞ 업무 매뉴얼 및 업무 전문가 도움 필요, 구조화된 명세서 작성
프로젝트 정의 및 계획 수립 ☞ 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정, 프로젝트의 정의를 명확하게 함
☞ WBS를 만들고 데이터 확보계획, 빅데이터 분석 방법, 일정계획, 예산계획, 품질계획, 인력구성계획, 의사소통계획 등을 포함하는 프로젝트 수행 계획을 작성
프로젝트 위험계획 수립 ☞ 발생 가능한 모든 위험(Risk)을 발굴하여 사전에 대응 방안을 수립함으로써 프로젝트 진행의 완전성을 높임
위험대응 방법에는 회피(Avoid), 전가(Transfer), 완화(Mitigate), 수용(Accept)이 있음
2 데이터 준비 필요 데이터 정의 ☞ 정형/반정형/비정형 등의 모든 내/외부 데이터와 데이터 속성, 오너, 담당자 등을 포함하는 데이터 정의서 작성
☞ 구체적인 데이터 획득 방안을 상세하게 수립하여 프로젝트 지연 방지
데이터 스토어 설계 ☞ 획득 방안이 수립되면 전사 차원의 데이터 스토어(Data Store) 설계
데이터 수집 및 정합성 검증 ☞ 데이터 스토어에 크롤링, 실시간 처리, 배치 처리 등으로 데이터 수집
☞ 데이터베이스 간 연동, API를 이용한 개발, ETL(Extract, Transform, Load) 도구의 활용 등 수집 프로세스 진행
3 데이터 분석 분석용 데이터 준비 ☞ 비즈니스 룰 확인(비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 통해 프로젝트 목표 정확히 인식)
☞ 분석용 데이터셋 준비(데이터 스토어부터 분석에 필요한 정형, 비정형 데이터 추출)
텍스트 분석 ☞ 어휘/구분 분석(Word Analysis), 감성 분석(Sentimental Analysis), 주제 분석(Topic Analysis), 의견 분석(Opinion Analysis), 소셜 네트워크 분석(Social Network Analysis)
탐색적 분석(EDA) ☞ 기초 통계량 산출, 데이터 분포와 변수 간의 관계 파악, 데이터 시각화
모델링 ☞ 훈련용 데이터 세트와 테스트용 데이터 세트로 분리하여 과적합 방지(데이터 분할)
☞ 데이터 모델링
☞ 모델에 대한 상세한 알고리즘 작성(모델 적용 및 운영 방안)

모델 평가 및 검증 ☞ 테스트 데이터 세트를 이용하여 모델 검증 작업 실시, 보고서 작성
모델 적용 및 운영 방안수립 ☞ 검증된 모델을 적용하고 최적화하여 운영할 수 있는 방안 수립
4 시스템 구현 설계 및 구현 ☞ 모델링 태스트에서 작성된 알고리즘 설명서와 데이터 시각화 보고서를 이용하여 시스템 및 데이터 아키텍처 설계, 사용자 인터페이스 설계를 진행
☞ 설계서를 바탕으로 패키지를 활용하거나 새롭게 프로그램을 코딩하여 구축
시스템 테스트 및 운영 ☞ 단위 테스트, 통합 테스트, 시스템 테스트 실시
5 평가 및 전개 모델 발전 계획 수립 ☞ 모델의 생명주기를 설정, 주기적인 평가를 실시하여 유지보수하거나 재구축 방안 마련
☞ 모델의 특성을 고려하여 모델 업데이트를 자동화하는 방안 수립 적용 가능
프로젝트 평가 보고 ☞ 기획 단계에서 설정한 기준에 따라 프로젝트의 성과를 정량적, 정성적 평가하고 프로젝트 진행 과정에서 지식, 프로세스, 출력자료를 지식 자산화하고 프로젝트 최종 보고서를 작성한 후 의사소통계획에 따라 프로젝트 종료

(3) 빅데이터 분석 방법론 유형

㉮ KDD(Knowledge Discovery in Databases) 분석 방법론

  • 1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
  • 데이터로부터 목표 데이터, 전처리 데이터, 변환 데이터, 패턴을 통해 지식을 생성함
  • KDD 분석 방법론의 절차는 아래와 같음
순서 절차 설명
1 데이터 세트 선택
(Selection)
☞ 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표 설정
☞ 데이터베이스 또는 원시 데이터에서 선택 혹은 추가적으로 생성
☞ 데이터 마이닝에 필요한 목표 데이터(Target Data) 구성

2 데이터 전처리
(Preprocessing)
☞ 노이즈, 이상값, 결측값 등을 제거
☞ 추가로 요구되는 데이터 세트가 있을 경우 데이터 세트 선택, 프로세스 재실행
3 데이터 변환
(Transformation)
☞ 변수를 찾고, 데이터 차원 축소(Dimensionality Reduction)
☞ 데이터 마이닝이 효율적으로 적용될 수 있도록 데이터 세트로 변경
4 데이터 마이닝
(Data Mining)
☞ 분석 목적에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측작업
☞ 필요에 따라 데이터 전처리, 변환 프로세스 병행 가능
5 데이터 마이닝 결과 평가
(Interpretation/Evaluation)
☞ 분석 결과에 대한 해석/평가, 발견된 지식 활용
☞ 필요시 선택부터 마이닝까지 프로세스 반복 수행

㉯ CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론

  • 1996년 유럽연합의 ESPRIT 프로젝트에서 시작한 방법론으로 1997년 SPSS 등이 참여하였으나 현재에는 중단됨
  • CRISP-DM 분석 방법론의 구성은 아래와 같음
구성 설명
단계(Phrase) ☞ 최상위 레벨
일반화 태스크
(Generic Tasks)
☞ 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
☞ 각 단계는 일반화 태스크 포함
세분화 태스크
(Specialized Tasks)
☞ 일반화 태스크를 구체적으로 수행하는 레벨
프로세스 실행
(Process Instances)
☞ 데이터 마이닝을 구체적인 실행
  • CRISP-DM 분석 방법론의 절차는 아래와 같음
순서 절차 설명
1 업무 이해
(Business Understanding)
☞ 각종 참고 자료와 현업 책임자와의 커뮤니케이션을 통해 비즈니스를 이해하는 단계
☞ 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2 데이터 이해
(Data Understanding)
☞ 분석을 위한 데이터를 수집 및 속성을 이해하고, 문제점을 식별하여 숨겨져 있는 인사이트를 발견하는 단계
☞ 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3 데이터 준비
(Data Preparation)
☞ 데이터 정제, 새로운 데이터 생성 등 자료를 분석 가능한 상태로 만드는 단계
☞ 데이터 준비에 많은 시간이 소요
☞ 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 학습/검증 데이터 분리 등 수행

4 모델링
(Modeling)
☞ 다양한 모델링 기법과 알고리즘을 선택하고 파라미터를 최적화하는 단계
☞ 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가를 수행함
5 평가
(Evaluation)
☞ 데이터 정제, 새로운 데이터 생성 등 자료를 분석 가능한 상태로 만드는 단계
☞ 평가에 많은 시간이 소요
☞ 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가를 수행

6 전개
(Deployment)
☞ 데이터 정제, 새로운 데이터 생성 등 자료를 분석 가능한 상태로 만드는 단계
☞ 전개에 많은 시간이 소요
☞ 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

㉰ SEMMA(Sampling Exploration Modification Modeling Assessment) 분석 방법론

  • 분석 솔루션 업체 SAS사가 주도한 통계 중심의 방법론
  • SEMMA 분석 방법론의 분석 절차는 아래와 같음
순서 절차 설명
1 샘플링
(Sampling)
☞ 통계적 추출, 조건 추출을 통한 분석 데이터 생성
☞ 비용 절감 및 모델 평가를 위한 데이터 준비
2 탐색
(Exploration)
☞ 기초통계, 그래프 탐색, 요인별 분할표, 클러스터링, 변수 유의성 및 상관 분석을 통한 분석 데이터 탐색
☞ 데이터 조감을 통한 데이터 오류 검색
☞ 모델의 효율 증대
☞ 데이터 현황을 통해 비즈니스 이해, 아이디어를 위해 이상현상, 변화 등을 탐색

3 수정
(Modification)
☞ 수량화, 표준화, 각종 변환, 그룹화를 통한 분석 데이터 수정/변환
☞ 데이터가 지닌 정보의 표현 극대화
☞ 최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성, 선택, 변형

4 모델링
(Modeling)
☞ 신경망(Neural Network), 의사결정트리(Decision Tree), 로지스틱 회귀 분석(Logistic Regression), 전통적 통계를 이용한 모델 구축
☞ 데이터의 숨겨진 패턴 발견
☞ 하나의 비즈니스 문제 해결을 위해 특수한 모델과 알고리즘 적용 가능

5 검증
(Assessment)
☞ 모델 평가 검증
☞ 서로 다른 모델을 동시에 비교
☞ 추가 분석 수행 여부 결정

분석 작업 계획

1. 데이터 확보 계획

(1) 데이터 획득 방안 수립

  • 내외부의 다양한 시스템으로부터 정형/반정형/비정형 데이터를 수집하기 위한 구체적인 방안을 수립함
  • 내부 데이터 획득에는 부서 간 업무협조와 개인정보보호 및 정보보안과 관련된 문제점을 사전에 점검하고, 외부 데이터 획득은 시스템 간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 데이터 획득 계획을 수립함

(2) 데이터 확보 계획 수립 절차

순서 단계 업무 내용
1 목표 정의 ☞ 성과 목표 정의
☞ 성과 지표 설정
☞ 비즈니스 도메인 특성 적용
☞ 구체적인 성과목표 정의
☞ 성과측정을 위한 지표 도출

2 요구사항 도출 ☞ 데이터 및 기술 지원 등과 관련된 요구사항 도출 ☞ 필요 데이터 확보 및 관리 계획
☞ 데이터 정제 수준, 데이터 저장 형태
☞ 기존 시스템 및 도구 활용 여부
☞ 플랫폼 구축 여부

3 예산안 수립 ☞ 자원 및 예산 수립 ☞ 데이터 확보, 구축, 정비, 관리 예산
4 계획 수립 ☞ 인력 투입 방안
☞ 일정 관리
☞ 위험 및 품질관리

☞ 프로젝트 관리 계획 수립
☞ 범위, 일정, 인력, 의사소통 방안 수립

2. 분석 절차 및 작업 계획

(1) 빅데이터 분석 절차

순서 절차 설명
1 문제 인식 ☞ 비즈니스 문제와 기회를 인식하고 분석 목적을 정의
☞ 분석 주제 정의, 문제는 가설의 형태로 정의
2 연구 조사 ☞ 목적 달성을 위한 각종 문헌을 조사
☞ 조사 내용을 해결방안에 적용
☞ 중요 변화요소 조사

3 모형화 ☞ 복잡한 문제를 분리하고 단순화하는 과정
☞ 많은 변수가 포함된 현실 문제를 특징적 변수로 정의
☞ 문제를 변수 간의 관계로 정의

4 자료 수집 ☞ 데이터 수집, 변수 측정 과정
☞ 기존 데이터 수집, 분석이 가능한지 검토
☞ 기존 데이터 수집이 불가한 경우 추가 데이터 수집

5 자료 분석 ☞ 수집된 자료에서 의미 찾기
☞ 수집된 자료에서 변수들 간 관계 분석
☞ 기초 통계부터 데이터 마이닝 기법 활용

6 분석결과 공유 ☞ 변수 간의 관련성을 포함한 분석결과 제시
☞ 의사결정자와 결과 공유
☞ 표, 그림, 차트를 활용하여 가시화

(2) 분석 작업 WBS 설정

단계 내용
데이터 분석 과제 정의 ☞ 분석목표 정의서를 기준으로 프로젝트 전체 일정에 맞게 사전 준비를 하는 단계
☞ 단계별 필요 산출물, 주요 보고 시기 등으로 구분하여 세부 단위별 일정과 전체 일정이 예측될 수 있도록 일정을 수립
데이터 준비 및 탐색 ☞ 데이터 처리 엔지니어와 데이터 분석가의 역할을 구분하여 세부 일정이 만들어지는 단계
☞ 분석목표 정의서에 기재된 내용을 중심으로 데이터 처리 엔지니어가 필요 데이터를 수집하고 정리하는 일정 수립
데이터 분석 모델링 및 검증 ☞ 데이터 준비 및 탐색이 완료된 이후 데이터 분석 가설이 증명된 내용을 중심으로 데이터 분석 모델링을 진행하는 단계
☞ 데이터 분석 모델링 과정에 대해서는 실험방법 및 절차를 구분
☞ 기획하고 검증하는 내용에 대해 자세한 일정을 수립

산출물 정리 ☞ 데이터 분석단계별 산출물을 정리하고, 분석 모델링 과정에서 개발된 분석 스크립트 등을 정리하여 최종 산출물로 정리하는 단계

 

반응형
LIST