Database

[Big Data] 데이터 수집 및 전환

구루싸 2020. 10. 25. 18:57
반응형
SMALL

데이터 처리 기술

기술 설명
데이터 필터링 ☞ 정형 데이터는 사전 테스트를 통하여 오류 발견, 보정, 삭제, 중복성 검사와 같은 과정을 통해 필터링
☞ 비정형 데이터는 데이터 마이닝에 자연어처리, 기계학습과 같은 추가 기술을 적용하여 오류 데이터, 중복 데이터와 같은 저품질 데이터를 필터링
☞ 데이터 활용 목적에 맞지 않는 정보는 필터링하여 분석시간을 단축하고 저장 공간을 효율적으로 활용

데이터 변환 ☞ 다양한 형식으로 수집된 데이터를 분석이 쉽도록 일관성 있는 형식으로 변환
☞ 데이터 변환에는 평활화, 집계, 일반화, 정규화, 속성 생성 기술을 사용
데이터 정제 ☞ 수집된 데이터의 불일치성을 교정하기 위한 방식으로 결측값(Missing Value) 처리, 잡은(Noise) 처리 기술 활용
데이터 통합 ☞ 출처가 다른 상호 연관성이 있는 데이터들을 하나로 결합하는 기술
☞ 데이터 통합 시 같은 데이터가 입력될 수 있으므로 연관 관계 분석 등을 통해 중복 데이터 검출 필요
☞ 데이터 통합 전·후 수치·통계 등 데이터값들이 일치할 수 있도록 검증

데이터 축소 ☞ 분석에 불필요한 데이터를 축소하여 고유한 특성은 손상되지 않도록 하고 분석에 대한 효율성 증대

데이터 수집

1. 데이터 수집 프로세스

(1) 수집 데이터 도출

  • 수집 데이터 도출은 빅데이터 서비스 제공 시 서비스 품질을 결정하느 중요한 핵심 업무
  • 데이터 도메인의 분석 노하우가 있는 내·외부 전문가 의견을 수렴하여 분석 목적에 맞는 데이터 도출 필요

(2) 목록 작성

  • 수집 가능성 여부, 보안 문제, 세부 데이터 항목(품질) 및 비용 등을 검토하여 데이터 수집 목록을 작성함

(3) 데이터 소유기관 파악 및 협의

  • 데이터 소유자의 데이터 개발 현황/조건, 적용기술, 보안 사항 등을 파악하고 필요한 협의 진행
  • 데이터 수집 관련 보안 사항, 개인정보보호 관련 문제 등 점검 필수

(4) 데이터 유형 분류 및 확인

  • 수집 대상 데이터 유형을 분류하고 데이터 포맷 등 확인

(5) 수집 기술 선정

  • 데이터 유형 및 포맷 등에 맞는 수집 기술 선정
  • 수집 기술은 데이터 소스로부터 다양한 유형의 데이터를 수집하기 위해 확장성, 안정성, 실시간성 및 유연성 확보 필요

(6) 수집 계획서 작성

  • 수집 대상 데이터 출처, 수집 기술, 수집 주기 및 수집 담당자의 주요 업무 등을 반영하여 계획서 작성

(7) 수집 주기 결정

  • 데이터 유형에 따라 배치 또는 실시간 방식 적용

(8) 데이터 수집 실행

  • 사전 테스트 진행하고 데이터 수집 시행

2. 수집 데이터의 대상

(1) 내부 데이터

  • 조직(인프라) 내부에 데이터가 위치하며, 데이터 담당자와 수집 주기 및 방법 등을 협의하여 데이터 수집
  • 내부 조직 간 협의를 통한 데이터 수집
  • 주로 수집이 용이한 정형 데이터
  • 서비스의 수명 주기 관리가 용이
  • 분야별로 예를 살펴보면 아래와 같음
분야 예시
서비스 SCM(Supply Chain Management), ERP(Enterprise Resource Planning), CRM(Customer Relationship Management), 포털, 원장정보 시스템, 인증 시스템, 거래 시스템 등
※ SCM은 부품 제공업자로부터 생산자, 배포자, 고객에 이르는 물류의 흐름을 하나의 가치사슬 관점에서 파악하고 필요한 정보가 원활히 흐르도록 지원하는 시스템을 말함
※ ERP는 회사의 모든 정보뿐만 아니라, 공공사슬관리, 고객의 주문정보까지 포함하여 통합적으로 관리하는 시스템을 말함
※ CRM은 소비자들을 자신의 고객으로 만들고, 이를 장기간 유지하고자 하는 경영방식으로 내부 정보를 분석하고 저장하는 데 사용하는 광대한 분야를 아우르는 방법을 말함
네트워크 네트워크백본, 방화벽, 스위치, IPS(Intrusion Prevention System), IDS(Intrusion Detection System)
※ IPS는 인터넷 웜 등의 악성코드 및 해킹 등으로 인한 유해 트래픽을 차단해주는 솔루션으로 내부 네트워크로 침입하는 네트워크 패킷을 찾아 제어하는 기능을 가짐
※ IDS는 해커들과 같은 비 인가된 사용자가 시스템을 조작하는 것을 탐지하는 솔루션으로 방화벽이 탐지할 수 없는 여러 종류의 악의적 네트워크 트래픽을 탐지하여 로그를 남김
마케팅 마케팅VOC 접수 데이터, 고객 포털 시스템 등

(2) 외부 데이터

  • 조직(인프라) 외부에 데이터가 위치하며, 특정 기관의 담당자 협의 또는 데이터 전문 업체를 통해 데이터를 수집
  • 공공 데이터의 경우에는 공공 데이터 포털(Data Portal)을 통해 Open API(Application Programming Interface) 또는 파일을 통해 수집
  • 외부 조직과 협의, 데이터 구매, 웹상의 오픈 데이터를 통한 데이터 수집
  • 주로 수집이 어려운 비정형 데이터
  • 공공 데이터 포털은 행정안전부에서 운영하는 공공 데이터 통합제공 시스템으로 대한민국 정부가 보유한 다양한 공공 데이터를 개방하여 누구나 편리하고 손쉽게 활용할 수 있게 하는 것을 목적으로 함
  • Open API는 누구나 사용할 수 있도록 공개된 API를 말하며, 개발자에게 응용 소프트웨어나 웹 서비스에 프로그래밍적인 권한을 제공함
  • 분야별로 예를 살펴보면 다음과 같음
분야 예시
소셜 SNS, 커뮤니티, 게시판
네트워크 센서 데이터, 장비 간 발생 로그(Machine To Machine)
※ M2M은 모든 사물에 센서 통신 기능을 부과하여 지능적으로 정보를 수집하고, 상호 전달하는 기술을 의미함

3. 데이터 수집 방식 및 기술

  • 수집 대상 데이터는 데이터의 구조적 관점에 따라 정형, 반정형, 비정형 데이터로 나눌 수 있음
  • 구조적 관점에 따라 분류된 데이터 유형에 따라 각각 데이터 수집 방식과 기술을 최적화하여 적용해야 함

(1) 정형 데이터 수집 방식 및 기술

㉮ ETL(Extract Transfrom Load)

  • 데이터 분석을 위한 데이터를 데이터 저장소인 DW(Data Warehouse) 및 DM(Data Mart)으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출(Extract)하고 변환(Transfrom)하여 적재(Load)하는 작업 및 기술
  • ETL 프로세스는 아래와 같음
프로세스 설명
추출
(Extract)
☞ 동일 기종 또는 이기종 소스 데이터베이스로부터 데이터를 추출
☞ JDBC(Java Database Connectivity), ODBC(Open Database Connectivity), 3rd Party Tools 활용
변환
(Transfrom)
☞ 조회 또는 분석을 목적으로 적절한 포맷이나 구조로 데이터를 저장하기 위해 데이터 변환
☞ 데이터 결합/통합, 데이터 재구성 및 중복 데이터 제거, 일관성 확보를 위한 정제 수행, Rule 적용, 데이터 표준화 수행
적재
(Load)
☞ 추출 및 변환된 데이터를 최종 대상(DW 또는 DM)에 저장
☞ Insert, Delete, Update, Append 수행

㉯ FTP(File Transfer Protocol)

  • TCP/IP 프로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜(TCP 프로토콜을 사용하고 20, 21번 포트 번호를 사용)임
  • FTP 유형은 아래와 같음
유형 설명
Active FTP ☞ 클라이언트가 데이터를 수신받을 포트를 서버에 알려주면, 서버가 자신의 20번 포트를 통해 클라이언트의 임의의 포트로 데이터를 전송해주는 방식
☞ 명령은 21번, 데이터는 20번 포트를 사용
Passive FTP ☞ 서버가 데이터를 송신해줄 임의의 포트를 클라이언트에 알려주면 클라이언트가 서버의 임의의 포트로 접속해서 데이터를 가져가는 방식
☞ 명령은 21번, 데이터는 1024 이후의 포트를 사용

㉰ 스쿱(Sqoop)

  • 스쿱은 커넥터를 사용하여 MySQL 또는 Oracle, 메인 프레임(Mainframe)과 같은 관계형 데이터베이스 시스템(RDBMS)에서 하둡 파일 시스템(HDFS)으로 데이터를 수집하거나, 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보낼 수 있음
  • 전체 데이터베이스 또는 테이블을 HDFS로 한 번에 전송 가능한 벌크 임포트(Bulk Import) 지원
  • 시스템 사용율과 성능을 고려한 병렬 데이터 전송
  • RDB에 매핑해서 HBase와 Hive에 직접 Import 제공
  • 자바 클래스 생성을 통한 데이터 상호작용(Interaction)
  • 정형 데이터 수집 방식 중 스쿱을 이용한 하둡과 관계형 데이터베이스 간의 데이터 전송, 수집 방식은 모든 과정이 자동화되어 처리됨
  • 스쿱의 주요 기능은 아래와 같음
구분 세부항목 설명
구조 스쿱 클라이언트 스쿱 1에서 지원하며, 클라이언트 기반으로 Import와 Export를 제공
스쿱 서버 스쿱 2에서 지원하며, 클라이언트의 요청을 받아 작업을 수행
커넥터 FTP 커넥터 FTP 서버와 다른 스쿱2 커넥터 간에 데이터 이동 지원
JDBC 커넥터 JDBC 4를 지원하는 모든 데이터베이스에 연결하여 데이터 이동 지원
HDFS 커넥터 HDFS 연결을 통해 데이터 이동 지원
Kafka 커넥터 카프카 연결을 통해 데이터 이동 지원
Kite 커넥터 Kite 연결을 통해 데이터 이동 지원
SFTP 커넥터 보안이 강화된 SFTP 서버와 다른 스쿱 2 커넥터 간에 데이터 이동 지원
Import  다른 저장소(RDBMS)의 데이터를 명기된 저장소(HDFS, Hive, HBase)로 가져오기 기능
Export  저장소의 데이터를 다른 저장소(RDBMS)로 내보내기 기능
Job  지정된 잡(Job)의 생성, 실행 가능
Metastore  공유된 메타데이터 저장소를 호스팅할 수 있도록 구성하는 기능
Merge  동일한 데이터를 포함하는 두 개의 데이터 세트를 병합하는 기능

㉱ API(Application Programming Interface)

  • 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구로서, 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있는 기능을 제공하는 인터페이스 기술

㉲ DBToDB

  • 데이터베이스 시스템 간 데이터를 동기화하거나 전송하는 기능을 제공하는 기술

㉳ Rsync(Remote Sync)

  • 서버/클라이언트 방식으로 수집 대상 시스템과 1:1로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술

(2) 비정형 데이터 수집 방식 및 기술

  • 스크래파이와 아파치 카프카의 활용이 증가되고 있음

㉮ 크롤링(Crawling)

  • 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹 문서 및 콘텐츠 수집 기술

㉯ RSS(Rich Site Summary)

  • 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술

㉰ Open API

  • 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술

㉱ 스크래파이(Scrapy)

  • 웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬(Python) 기반의 애플리케이션 프레임워크로서 데이터 마이닝, 정보 처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 수집 기술
  • 스크래파이의 특징 및 주요 기능은 아래와 같음
구분 세부 항목 설명
특징 파이썬 기반  파이썬 언어 기반으로 구성, 설정이 쉬움
단순한 스크랩 과정  크롤링 수행 후 바로 데이터 처리 가능
다양한 부가 요소  scrapyd, scrapinghub 등 부가 기능, 쉬운 수집, 로깅 지원
주요 기능 Spider  크롤링 대상 웹 사이트 및 웹 페이지의 어떤 부분을 스크래핑할 것인지를 명시하는 기능
Selector  웹 페이지의 특정 HTML 요소를 선택하는 기능
Items  웹 페이지를 스크랩하여 저장할 때 사용되는 사용자 정의 자료 구조
Pipelines  스크래핑 결과물을 아이템 형태로 구성할 때 가공하거나 파일 형태로 저장 제공 기능
Settings  Spider와 Pipeline을 동작시키기 위한 세부 설정

㉲ 아파치 카프카(Apache Kafka)

  • 대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행(Publish), 구독(Scriber)하는 방식의 분산 스트리밍 플랫폼 기술
  • 카프카의 특징 및 주요 기능은 아래와 같음
구분 세부 항목 설명
특징 신뢰성(Reliability) 제공  메모리 및 파일 큐(Queue) 기반의 채널 지원
  확장성(Scalability) 제공  Multi Agent와 Consolidation, Fan Out Flow 방식으로 구성되어 수평 확장(Scale-Out)이 가능하며, 수집 분산 처리가 가능
주요 기능 소스(Source) 외부 이벤트 생성, 수집 영역
1개로 구성되며, 복수 개의 채널(Channel) 지정 가능
  채널(Channel) 소스와 싱크(Sink) 간 버퍼 구간
채널별로 1개 싱크 지정
  싱크(Sink) 채널로부터 수집된 로그 또는 이벤트를 목적지에 전달 및 저장
  인터프리터(Interpreter) 수집된 로그 또는 이벤트를 가공

(3) 반정형 데이터 수집 및 기술

  • 플럼, 스크라이브, 척와의 활용이 점차 증가하고 있음

㉮ 센싱(Sensing)

  • 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 수집 및 활용

㉯ 스트리밍(Streaming)

  • 네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술

㉰ 플럼(Flume)

  • 스트리밍 데이터 흐름(Data Flow)을 비동기 방식으로 처리하는 분산형 로그 수집 기술
  • 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술
  • 플럼의 특징 및 주요 기능은 아래와 같음
구분 세부항목 설명
특징 발생(Publisher)/구독(Subscriber) 모델 ☞ 메시지 큐와 유사한 형태의 데이터 큐를 사용
☞ 풀(Pull) 방식으로 동작하여 부하 감소 및 고성능의 기능 제공
※ 풀 방식은 사용자가 자신이 원하는 정보를 서버에서 요청할 때 정보를 전송하는 기법이며 반대로 푸시 기법은 사용자가 일일이 요청하지 않아도 사용자에게 자동으로 원하는 정보를 제공하는 기법을 의미함

고가용성(High Availability)
※ 고가용성은 서버와 네트워크, 프로그램 등의 정보시스템이 시스템의 장애에 대응하여 상당히 오랜 기간 동안 지속적으로 정상 운영이 가능한 상태를 만드는 환경을 의미함
☞ 클러스터 구성을 통해 내결함성(Fault-Tolerant)이 있는 고가용성 서비스 제공 가능
☞ 분산 처리를 통한 빠른 실시간 데이터 처리
파일 기반 저장방식 ☞ 데이터를 디스크에 순차적으로 저장
주요기능 소스(Source) ☞ 이벤트를 전달하는 컨테이너
☞ 소스, 채널, 싱크로 흐름 제어
☞ 에이전트 간 데이터 이동이 가능하며, 1개의 에이전트가 다수의 에이전트와 연결 가능

채널(Channel) ☞ 이벤트를 소스와 싱크로 전달하는 통로
싱크(Sink) ☞ 채널로부터 받은 이벤트를 저장, 전달
☞ 싱크 대상을 다중 선택하거나, 여러 개의 싱크를 그룹으로 관리

㉱ 스크라이브(Scribe)

  • 다수의 서버로부터 실시간으로 스크리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
  • 단일 중앙 스크라이브 서버와 다수의 로컬 스크라이브 서버로 구성되어 안정성과 확장성을 제공
  • 스크라이브의 특징은 아래와 같음
특징 설명
실시간 스트리밍 수집 다수의 서버로부터 실시간으로 스트리밍되는 로그 수집 기능
확장 아파치 Thrift 기반 스크라이브 API를 활용하여 확장 가능
데이터 수집의 다양성 클라이언트 서버 타입에 상관없이 로그 수집 가능
고가용성 단일 중앙 스크라이브 서버와 다중 로컬 스크라이브 서버로 구성되어 중앙 스크라이브 서버 장애 시에 로컬 스크라이브 서버에 데이터를 저장한 후, 중앙 스크라이브 서버 복구 시 메시지를 전송

㉲ 척와(Chukwa)

  • 대규모 분산 시스템 모니터링을 위해 에이전트(Agent)와 컬렉터(Collector) 구성을 통해 데이터를 수집하고, 수집된 데이터를 하둡 파일 시스템(HDFS)에 저장하는 기능을 제공하는 데이터 수집 기술
  • 척와의 주요 기능은 아래와 같음
구분 세부 항목 설명
특징 HDFS 연동 수집된 로그 파일을 HDFS에 저장하는 기능 지원
실시간 분석 제공 하둡 HDFS를 통한 실시간 분석 지원
청크(Chunk) 단위 처리 어댑터가 데이터를 메타데이터(Meta Data)가 포함된 청크(Chunk) 단위로 전송
구성 에이전트(Agent) 어댑터를 포함한 에이전트를 통해 데이터를 수집
컬렉터 Fail Over 기능과 Check-Point를 통해 데이터 유실 방지 기능 제공
컬렉터(Collector) 에이전트로부터 수집된 데이터를 주기적으로 HDFS에 저장
여러 에이전트로부터 수신된 데이터를 단일 싱크(Sink) 파일에 저장(HDFS의 Sequence File 포맷으로 저장)
데이터 처리 아카이빙(Archiving) 컬렉터가 저장한 로그 파일에 대해 시간 순서로 동일한 그룹으로 묶는 작업 수행
데이터 중복 제거 및 정렬 작업을 수행하고 HDFS Sequence File 포맷으로 저장
디먹스(Demux) 로그 레코드를 파싱해서 Key-Value 쌍으로 구성되는 척와 레코드(Chukwa Record)를 만들고, 하둡 파일 시스템에 파일로 저장

데이터 유형 및 속성 파악

1. 데이터 유형

㉮ 구조 관점의 데이터 유형

유형 설명 종류
정형 데이터
(Structured Data)
☞ 정형화된 스키마(형태) 구조 기반의 형태를 가지고 고정된 필드에 저장되며 값과 형식에서 일관성을 갖는 데이터
☞ 컬럼(Column)과 로우(Row) 구조를 가지며, 설계된 구조 기반 목적에 맞는 정보들을 저장하고 분석하는데 사용
☞ 관계형 데이터베이스 시스템의 정형 데이터는 비정형 데이터와 비교할 때 스키마를 지원하는 특징이 존재

☞ 관계형 데이터베이스(RDBMS)
☞ 스프레드시트
반정형 데이터
(Semi-structured Data)
☞ 스키마(형태) 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식에서 일관성을 가지지 않는 데이터
☞ XML, HTML과 같은 웹 데이터가 Node 형태의 구조를 가짐
☞ 정형 데이터는 데이터의 스키마 정보를 관리하는 DBMS와 데이터 내용이 저장되는 데이터 저장소로 구분되지만, 반정형 데이터는 데이터 내부에 정형 데이터의 스키마에 해당되는 메타데이터를 갖고 있으며, 일반적으로 파일 형태로 저장됨

☞ XML
☞ HTML
☞ 웹 로그
☞ 알람
☞ 시스템 로그

☞ JSON
☞ RSS
☞ 센서 데이터

비정형 데이터
(Unstructured Data)
☞ 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터
☞ 웹에 존재하는 데이터의 경우 HTML 형태로 존재하여 반정형 데이터로 구분할 수도 있지만, 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재하므로 명확한 구분은 어려움
☞ SNS
☞ 웹 게시판
☞ 텍스트/이미지/오디오/비디오

㉯ 시간 관점(활용 주기)의 데이터 유형

유형 설명 종류
실시간 데이터
(Realtime Data)
☞ 생성된 이후 수 초~수 분 이내에 처리되어야 의미가 있는 현재 데이터 ☞ 센서 데이터
☞ 시스템 로그
☞ 네트워크 장비 로그
☞ 알람
☞ 보안 장비 로그

비실시간 데이터
(Non-Realtime Data)
☞ 생성된 데이터가 수 시간 또는 수 주 이후에 처리되어야 의미가 있는 과거 데이터 ☞ 통계
☞ 웹 로그
☞ 구매 정보
☞ 서비스 로그
☞ 디지털 헬스케어 정보

㉰ 저장 형태 관점의 데이터 유형

유형 설명
파일(File)
데이터
☞ 시스템 로그, 서비스 로그, 텍스트, 스프레드시트 등과 같이 파일 형식으로 파일 시스템에 저장되는 데이터이며, 파일 크기가 대용량이거나 파일의 개수가 다수인 데이터
데이터베이스(Database)
데이터
☞ RDBMS, NoSQL, In-Memory 데이터베이스 등에 의해서 데이터의 종류나 성격에 따라 데이터베이스의 컬럼 또는 테이블 등에 저장된 데이터
콘텐츠(Content)
데이터
☞ 텍스트, 이미지, 오디오, 비디오 등과 같이 개별적으로 데이터 객체로 구분될 수 있는 미디어 데이터
스트림(Stream)
데이터
☞ 센서 데이터, HTTP 트랜잭션(Transaction), 알람 등과 같이 네트워크를 통해서 실시간으로 전송되는 데이터

㉱ 데이터 형태에 따른 분류

구분 형태 사례 특징
정성적 데이터
(Qualitative data)
언어, 문자 등 기업 매출이 증가함 등 저장/검색/분석에 많은 비용 소모
정량적 데이터
(Quantitative data)
수치, 도형, 기호 등 키, 생일, 주가 등 정형화 된 데이터로 비용 소모가 적음

2. 데이터 속성

(1) 데이터 속성

구분 설명 종류 설명
범주형
(Categorical)
☞ 조사 대상을 특성에 따라 범주로 구분하여 측정된 변수
☞ 질적 변수(Qualitative Variable)
☞ 질적 변수에 대해서는 덧셈 등 수학적 연산결과는 의미가 없으므로 연산의 개념을 적용시킬 수 없음

명목형
(Nominal)
☞ 명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우
순서형
(Ordinal)
☞ 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우
수치형
(Measure)
☞ 수치형은 몇 개인가를 세어 측정하거나 측정길이, 무게와 같이 양적인 수치로 측정되는 변수
☞ 양적 변수(Quantitative Variable)
☞ 덧셈, 뺄셈 등의 연산이 가능하고 히스토그램, 시계열 그래프 등을 이용하여 표현 가능

이산형
(Discrete)
☞ 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
연속형
(Continuous)
☞ 변수가 구간 안의 모든 값을 가질 수 있는 경우

(2) 데이터 속성에 대한 측정 척도

  • 수치형 변수는 비율 척도로 주로 측정하고, 간혹 등간 척도로 측정
  • 범주형 변수는 명목 척도, 서열 척도, 등간 척도로 측정
구분 설명
명목 척도
(Nominal Scale)
☞ 관측 대상을 임의의 범주로 분류한 후 기호나 숫자를 부여하는 방법
☞ 분류의 수치화이고, 척도 값이 분류의 의미만을 가짐
☞ 대표적으로 출신 국가 분류, 고객 구분, 직업 구분, 주택 보유 여부 등을 나타낼 때 명목 척도 활용

서열/순위 척도
(Ordinal Scale)
☞ 비계량적인 변수를 관측하기 위한 관측 방법
☞ 여러 관측 대상을 임의의 기준에 따라 상대적인 비교 및 순위화를 통해 관측하는 방법
☞ 서열의 순서화로 척도 값이 분류 및 서열 순서를 가짐

등간/간격/거리 척도
(Interval Scale)
☞ 비계량적인 변수를 정량적인 방법으로 측정하기 위하여 사용
☞ 각각의 대상을 별도로 평가하는 방법
☞ 비계량적 변수의 경우 수치적으로는 평가하기 어려우므로 상, 중, 하 등으로 평가 기준을 나누어 측정
☞ 동일 간격화로 크기 간의 차이를 비교할 수 있게 만든 척도
☞ 보통 비계량적 변수를 등간 척도로 측정한 경우 계량적으로 측정한 데이터로 취급

비율 척도
(Ratio Scale)
☞ 균등 간격에 절대 영점이 있고, 비율 계산이 가능한 척도
☞ 가장 전형적인 양적 변수로 쓰임
☞ 순서뿐만 아니라 그 간격도 의미가 있음

※ 속성 값들을 연산했을 때 그 결과가 의미가 있으면 비율 척도이고, 의미가 없으면 등간 척도임

데이터 변환

  • 수집된 데이터는 활용 목적에 맞도록 적절한 처리 방식을 선정하여 전·후처리 단계를 거쳐야 함
  • 데이터 유형과 분석 목적 등을 고려하여 데이터 처리 방식을 선정하며 수집된 데이터를 저장하기 위한 전처리 단계와 저장된 데이터를 분석하기 전에 수행하는 후처리 단계로 구분함
  • 데이터 필터링, 변환, 정제, 통합, 축소 등 선정된 데이터 전·후처리 방식에 따라서 데이터를 처리함

1. 데이터 저장 전·후처리 시 고려사항

단계 고려사항
데이터 전처리 수집된 데이터의 유형을 분류할 경우는 분류 기준을 적용할 수 있는 기능 제공 필요
데이터의 유형을 분류하고 이에 대한 데이터 변환에 필요한 알고리즘 함수 또는 변환 구조를 정의할 수 있는 기능 제공 필요
데이터 변환 시 사용자가 지정한 변환 형식에 준하여 변환이 이루어졌는지 확인할 수 있는 기능 제공 필요
데이터 변환 실패 시 데이터 변환 실패 부분에 대하여 재시도 할 수 있는 기능을 제공하거나 신규 변환 데이터 생성을 취소할 수 있는 기능 제공 필요
변환된 데이터를 저장하는 기능 제공 필요

데이터 후처리 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 데이터(이상값)를 추세에 맞게 변환 또는 자동 추천할 수 있는 기능 제공 필요
집계(Aggregation) 시 데이터를 요약하는 기능 제공 필요
특정 구간에 분포하는 값을 추출하거나 이를 사용자가 직관적으로 확인할 수 있도록 하여 데이터 변환 시 발생할 수 있는 변환, 패턴, 이벤트를 감시할 수 있는 기능 제공 필요
데이터 변환 후 사전 저장된 원시 데이터 세트와 변환 후 데이터 간의 변환 로그를 저장 관리할 수 있는 기능 제공 필요

2. 데이터 변환 기술

  • 데이터 변환은 데이터의 특정 변수를 정해진 규칙에 따라 변환하는 것을 의미함
  • 데이터 변환 기술은 아래와 같음
변환 기술 설명
평활화
(Smoothing)
☞ 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법
☞ 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만들기 위해 구간화, 군집화 등의 기법 적용
집계
(Aggregation)
☞ 다양한 차원의 방법으로 데이터를 요약하는 기법
☞ 복수 개의 속성을 하나로 줄이거나 유사한 데이터 객체를 줄이고, 스케일을 변경하는 기법 적용
일반화
(Generalization)
☞ 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법
☞ 일부 특정 데이터만 잘 설명하는 것이 아니라 범용적인 데이터에 적합한 모델을 만드는 기법
☞ 잘된 일반화는 이상값이나 노이즈가 들어와도 크게 흔들리지 않아야 함

정규화
(Normalization)
☞ 데이터를 정해진 구간 내에 들도록 하는 기법
☞ 최단 근접 분류와 군집화 같은 거리 측정 등을 위해 특히 유용
☞ 데이터에 대한 최소-최대 정규화(Min-Max Nomalization), Z-스코어 정규화(Z-Score Nomalization),  소수 스케일링(Decimal Scaling) 등 통계적 기법 적용
※ 최소-최대 정규화는 데이터를 정규화하는 가장 일반적인 기법으로 모든 데이터에 대해 각각의 최솟값 0, 최댓값 1, 다른 값들은 0과 1사이의 값으로 변환하고 이상값에 많은 영향을 받는 단점이 있음
※ Z-스코어 정규화는 이상값 문제를 피하는 데이터 정규화 전략으로 데이터들의 평균과 표준편차를 구하고, 평균 대비 몇 표준편차만큼 데이터가 떨어져 있는지를 점수화하는 기법
※ 소수 스케일링은 특성값의 소수점을 이동하여 데이터 크기를 조정하는 정규화 기법

속성 생성
(Attribute/Feature Construction)
☞ 데이터 통합을 위해 새로운 속성이나 특징을 만드는 방법
☞ 주어진 여러 데이터 분포를 대표할 수 있는 새로운 속성/특징을 활용하는 기법
☞ 선택한 속성을 하나 이상의 새 속성으로 대체하여 데이터를 변경 처리

데이터 비식별화

1. 데이터 보안 관리

㉮ 수집 데이터 보안

구분 설명
개인정보 보안 관점 SNS 등 비정형 데이터의 외부 데이터 수집 시에 개인정보가 데이터에 포함되어 있을 경우에는 삭제 또는 필요 시 비식별 조치 필요
데이터 연계 보안 관점 데이터 분석 시 여러 다양한 데이터와 연계 처리 시의 보안 취약점 제거 필요
빅데이터 보안 관점 ☞ 빅데이터의 수집, 저장, 분석 단계별 진행 전과 후의 데이터 흐름에 대한 보안을 고려
빅데이터 자체의 암호화를 통하여 데이터 유출 시에 무결성 유지 필요

㉯ 수명 주기별 보안

주기 구분 고려사항
수집 데이터 수집 기술 취약성 데이터를 수집하는 기술인 크롤링, Open API, FTP 등 오픈 소스로 개발된 수집기의 보안 설정, 사용자 인증, 계정 관리 등의 취약점 검토 필요
수집기를 활용한 데이터 수집 시 데이터가 유실되지 않도록 안정성 고려
수집 서버 및 네트워크 보안 데이터 수집 시 수집 서버의 DMZ(Demilitarized zone), 방화벽, 접근 제어 등 네트워크 보안 고려 필요
개인정보 및 기밀 정보 유출 방지 데이터 수집, 전송 시 암호화 처리 및 개인정보 활용 목적, 보유 기간 등을 고려하여 보안 강화
수정된 데이터에 개인정보가 포함되어 있는 경우에는 데이터를 파기하거나 비식별 조치 고려
저장 데이터 저장소 취약성 HDFS의 비활성화 데이터가 암호화 대상인지 고려
사용자 보안 인증 기능 강화 및 데이터 접근 제어 등의 강화 필요
빅데이터 보안 등급 분류 빅데이터를 보안 수준에 따라 기밀(Confidential) 수준, 민감(Sensitive) 수준, 공개(Public) 수준 등의 보안 등급을 설정하여 개인정보, 기업 비밀 정도 등 비공개 대상 관리
보안 모니터링 빅데이터 플랫폼에 구성된 시스템의 관리자 권한 설정, 사용자 계정 관리, 보안과 관련 사항을 주기적으로 모니터링 및 관리
분석 내부 사용자  빅데이터를 다루는 빅데이터 분석가를 포함하여 내부 직원의 실수, 고의에 의한 외장 하드, USB 메모리 등의 저장 매체, 이메일, 메신저 등을 통한 데이터 유출 방지
외부 침입자 외부 해커가 침입하여 불법으로 데이터를 유출하거나, 원격지에서 내부 시스템에 접속하여 데이터 유출하는 행위 차단
보안 로그 빅데이터 시스템의 권한 통제, 사용 접근에 따라 접근 기록 등의 사용자 로그 관리

㉰ 보안 대응 방안

구분 기능 요건 수집 저장 분석 활용
빅데이터 개인정보 수집 동의 적용      
암호화   적용 적용 적용
비식별화 적용 적용 적용 적용
사용자 인증   적용 적용 적용 적용
접근 제어     적용 적용 적용
암호화   적용 적용 적용  
보안 모니터링   적용 적용 적용 적용
보안 인프라   방화벽, 접근 통제, NAC, DLP 등 보안 장비

2. 데이터 비식별화

  • 데이터를 안전하게 활용하기 위해서는 수집된 데이터의 개인정보 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별하기 어렵도록 하는 데이터 비식별화 조치를 해야함

(1) 데이터 비식별화 적용 대상은 아래와 같음

적용 대상 대상 설명
그 자체로 개인을 식별할 수 있는 정보 개인을 식별할 수 있는 정보 이름, 전화번호, 주소, 생년월일, 사진 등
고유식별 정보 주민등록번호, 운전면허번호, 외국인 번호, 여권 번호
생체 정보 지문, 홍채, DNA 정보 등
기관, 단체 등의 이용자 계정 등록번호, 계좌번호, 이메일 주소 등
다른 정보와 함께 결합하여 개인을 알아볼 수 있는 정보 개인 특성 성별, 생년, 생일, 나이, 국적, 고향, 거주지, 시군구명, 우편번호, 병역 여부, 결혼 여부
신체 특성 혈액형, 신장, 몸무게, 허리둘레, 혈압, 장애 유형, 장애등급, 병명
신용 특성 세금 납부액, 신용등급, 기부금, 소득분위 등
경력 특성 학교명, 학과명, 학년, 성적, 직업
전자적 특성 PC 사양, 비밀번호, 쿠키 정보, 접속일시
가족 특성 배우자, 자녀, 부모, 형제 여부, 가족 정보
위치 특성 GPS 데이터, RFID 리더 접속 기록, 인터넷 접속, 핸드폰 사용기록, 사진 등

(2) 데이터 비식별화 처리 기법

  • 데이터의 활용성을 고려하여 적합한 비식별화 처리 기법을 선택하여 적용하는 것이 필요함
처리 기법 설명 처리대상 식별정보
가명처리
(Pseudonymisation)
☞ 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
☞ 완전 비식별화가 가능하며 데이터의 변형, 변질 수준이 낮음
☞ 일반화된 대체 값으로 가명처리함으로써 성명을 기준으로 하는 분석에 한계 존재

☞ 성명
☞ 기타 고유 특징(출신학교, 근무처 등)
총계처리
(Aggregation)
☞ 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법
☞ 민감한 정보에 대하여 비식별화가 가능하며 다양한 통계분석(전체, 부분)용 데이터 세트 작성에 유리함
집계 처리된 데이터를 기준으로 정밀한 분석이 어려우며 집계 수량이 적을 경우 데이터 결합 과정에서 개인정보 추출 또는 예측이 가능
☞ 개인과 직접 관련된 날짜 정보(생일, 자격 취득일)
기타 고유 특징(수입지출, 신체정보, 진료기록, 병력정보 등의 개인 민감정보)
데이터값 삭제
(Data Reduction)
개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법
민감한 개인 식별 정보에 대하여 완전한 삭제 처리가 가능하여 예측, 추론 등이 어렵도록 함
데이터 삭제로 인한 분석의 다양성, 분석 결과의 유효성, 분석 정보의 신뢰성을 저하시킬 수 있음

쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일 등)
고유식별정보(주민등록번호, 운전면허정보 등)
생체 정보(지문, 홍채, DNA 정보 등)
기관/단체 등의 이용자 계정

범주화
(Data Suppression)
단일 식별 정보를 해당 그룹의 대푯값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법
범주나 범위는 통계형 데이터 형식이므로 다양한 분석 및 가공이 가능
범주, 범위로 표현됨에 따라 정확한 수치에 따른 분석, 특정한 분석 결과 도출이 어려우며, 데이터 범위 구간이 좁혀질 경우 추적, 예측이 가능

쉽게 개인을 식별할 수 있는 정보(주소, 생년월일)
고유식별 정보(주민등록번호, 운전면허번호 등)
기관/단체 등의 이용자 계정

데이터 마스킹
(Data Masking)
개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값(공백, '*', 노이즈 등)으로 변환 기법
완전 비식별화가 가능하며 원시 데이터의 구조에 대한 변형이 적음
과도한 마스킹 적용 시 필요한 정보로 활용하기 어려우며, 마스킹의 수준이 낮을 경우 특정한 값의 추적 예측 가능함

쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진 등)
고유식별정보(주민등록번호, 운전면허번호 등)
기관/단체 등의 이용자 계정

(3) 데이터 비식별화의 처리 기법에 활용되는 세부기술

㉮ 가명처리(Pseudonymisation) 세부기술

세부기술 설명
휴리스틱 익명화
(Heuristic Anonymization)
식별자에 해당하는 값들을 몇 가지 정해진 규칙을 이용해서 개인정보를 숨기는 방법
사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법
K-익명화
(K-anonymity)
같은 속성값을 가지는 데이터를 K개 이상으로 유지하여 데이터를 공개하는 방법
지정된 속성이 가질 수 있는 값을 K개 이상으로 유지하여 프라이버시 누출 방지
암호화
(Encryption)
정보의 가공에 있어서 일정 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법
통상적으로 다시 유용하게 사용하기 위해서 복호화가 가능하도록 암호화/복호화 값(key)을 가지고 있어야 하므로 key의 보안 방안도 함께 필요
교환방법
(Swapping)
추출된 표본 레코드에 대하여 이루어지는 방법
미리 정해진 변수(항목)들의 집합에 대하여 데이터베이스의 레코드와 연계하여 교환

㉯ 총계처리(Aggregation) 세부기술

세부기술 설명
총계처리 기본 방식 수집된 정보에 민감한 개인정보가 있을 경우 데이터 집합 또는 부분으로 집계 처리를 하여 민감성을 낮추는 방법
부분집계
(Micro Aggregation)
분석 목적에 따라 부분 그룹만 비식별 처리
다른 속성값에 비하여 오차 범위가 큰 항목이나 속성값에 대하여 통곗값을 활용하여 값을 변환
라운딩
(Rounding)
집계 처리된 값에 대하여 라운딩(올림, 내림) 기준을 적용하여 최종 집계 처리
데이터 재배열
(Rearrangement)
기존 정보 값은 유지하면서 개인정보와 연관이 되지 않도록 해당 데이터를 재배열
개인의 정보가 타인의 정보와 뒤섞임으로써 전체 정보의 손상 없이 개인의 민감정보가 해당 개인과 연결되지 않도록 하는 방법

㉰ 데이터값 삭제(Data Reduction) 세부기술

세부기술 설명
속성값 삭제
(Reducing Variables)
☞ 원시 데이터에서 민감한 속성값 등 개인 식별 항목을 단순 제거하는 방법
속성값 부분 삭제
(Reducing Partial Variables)
민감한 속성값에 대하여 전체를 삭제하는 방식이 아닌 해당 속성의 일부 값을 삭제함으로써 대표성을 가진 값으로 보이도록 하는 방법
데이터 행 삭제
(Reducing Records)
타 정보와 비교하여 값이나 속성의 구별이 뚜렷하게 식별되는 정보 전체를 삭제
특정하게 민감한 속성값 하나가 아닌 해당 정보를 가진 개인정보 내용 전체를 제거하는 방법
준 식별자 제거를 통한 단순 익명화 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 준 식별자를 모두 제거함으로써 프라이버시 침해 위험을 줄이는 방법

㉱ 범주화(Data Suppression) 세부기술

세부기술 설명
범주화 기본 방식 은폐화 방법
명확한 값을 숨기기 위하여 데이터의 평균 또는 범주의 값으로 변환하는 방식
랜덤 올림 방법
(Random Rounding)
개인 식별 정보에 대한 수치 데이터를 임의의 수 기준으로 올림(Round Up) 또는 절사(Round Down)하는 기법
범위 방법
(Data Range)
개인 식별 정보에 대한 수치 데이터를 임의의 수 기준의 범위로 설정하는 기법으로서 해당 값의 분포(범위, 구간)으로 표현
세분 정보 제한 방법
(Sub-divide Level Controlling)
개인정보 중 단일 항목으로 개인 식별이 될 수 있는 항목을 민감(Sensitive) 항목 또는 높은 시각(High Visibility) 항목이라 하고, 민감한 항목을 상한/하한 코딩, 구간 재코딩 방법을 이용하여 정보 노출 위험을 줄일 수 있도록 하는 기법
제어 올림 방법
(Controlled Rounding)
랜덤 올림 방법에서 행과 열의 합이 일치하지 않는 단점을 해결하기 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법

㉲ 데이터 마스킹(Data Masking)

세부기술 설명
임의 잡음 추가 방법
(Adding Random Noise)
소득과 같은 민감 개인 식별 항목에 대해 임의의 숫자 등의 잡음을 추가하여 식별정보 노출을 방지하는 기법
공백(Blank)과 대체(Impute) 방법 빅데이터 자료로부터 비식별 대상 데이터를 선택한 후, 선택된 항목을 공백으로 바꾼 후에 대체법을 적용하여 공백 부분을 채우는 기법

개인정보 비식별 조치 가이드라인

  • 빅데이터의 안전한 활용을 위한 비식별화 사용이 확대됨에 따라 비식별 조치 가이드라인에 대한 중요성이 부각되고 있음
  • 단계별 조치 기준은 아래와 같음

㉮ 사전검토

  • 개인정보 해당 여부를 검토하고, 개인정보에 해당하지 않는 경우에는 별도 조치 없이 활용함

㉯ 비식별 조치

조치 기준 설명
식별자 조치 기준 정보 집합물에 포함된 식별자는 원칙적으로 삭제 조치
속성자 조치 기준 데이터 이용 목적과 관련이 없는 속성자의 경우 원칙적으로 삭제
비식별 조치 방법 여러 비식별 조치 방법을 이용하여 단독 또는 복합적 활용

㉰ 적정성 평가 

평가 기준 설명
기초 자료 작성  적정성 평가가 필요한 기초자료를 작성
평가단 구성 ☞ 개인정보보호 책임자가 3명 이상의 관련 분야 전문가로 구성
평가 수행 여러 프라이버시 보호 모델을 활용하여 비식별 수준 적정성 평가
k-익명성은 주어진 데이터 집합에서 준식별자 속성들이 동일한 레코드가 적어도 K개 존재하도록 하는 프라이버시 보호 모델임
l-다양성은 k-익명성의 동질성의 문제, 배경지식의 문제 극복을 통해 익명성을 향상시키는 k-익명성 보완 기술임
t-근접성은 동질 집합에서 민감정보의 분포와 전체 데이터 집합에서의 민감정보의 분포가 유사한 차이를 보이게 하는 프라이버시 보호 모델임
추가 비식별 조치  평가결과가 부적정인 경우, 추가 비식별 조치 실시
데이터 활용 평가결과가 적정인 경우, 해당 데이터를 빅데이터 분석에 이용하거나 제3자에게 제공

㉱ 사후관리

관리 기준 설명
비식별 정보 안전조치 비식별 조치된 정보가 유출되는 경우 다른 정보와 결합하여 식별될 우려가 존재하므로 필수적 보호조치 이행
재식별 가능성 모니터링 비식별 정보를 이용하여 제3자에게 제공하는 경우, 정보의 재식별 가능성을 정기적으로 모니터링 수행

데이터 품질 검증

  • 데이터의 유효성 여부에 대한 검증 기준은 데이터 품질 특성에 기반하여 정의할 수 있음

1. 데이터 품질 특성

품질 특성   세부 요소 설명
유효성 데이터 정확성 정확성 실세계에 존재하는 객체의 값이 오류 없이 저장되어 있는 특성
사실성 데이터가 실세계의 사실과 같은 값을 가지고 있는 특성
적합성 데이터가 정해진 유효 범위를 충족하고 있는 특성
필수성 필수 항목에 데이터의 누락이 발생하지 않는 특성
연관성 연관 관계를 가지는 데이터 항목 간에 논리상의 오류가 없는 특성
데이터 일관성 정합성 정보시스템 내의 동일한 데이터 간에 불일치가 발생하지 않는 특성
일치성 기능, 의미, 성격이 동일한 데이터가 상호 동일한 용어와 형태로 정의되어 있는 특성
무결성 데이터 처리의 선후 관계가 명확하게 준수되고 있는 특성
활용성 데이터 유용성 충분성 제공 데이터가 사용자의 요구사항을 충분히 충족시킬 수 있는 특성
유연성 데이터가 사용자의 다양한 요구사항을 수용할 수 있는 유연한 구조로 되어 있는 특성
사용성 공급되는 데이터가 현장에서 유용하게 사용될 수 있는 특성
추적성 데이터의 변경 내역이 관리되고 있는 특성
데이터 접근성 접근성 사용자가 원하는 데이터를 손쉽게 이용할 수 있으며, 사용의 용이성 관점과 검색의 용이성 관점에서 데이터의 접근이 제공되는 특성
데이터 적시성 적시성 응답 시간과 같은 비기능적 요구사항 그리고 데이터의 최신성 유지와 같은 품질 요건에 잘 대처되고 있는 특성
데이터 보안성 보호성 훼손, 변조, 유출 등의 다양한 형태의 위협으로부터 데이터를 안전하게 보호할 수 있는 특성
책임성 사용자 접근 권한과 책임을 명확히 부여하는 특성
안정성 시스템의 에러나 장애를 사전에 차단하고, 에러나 장애가 발생했을 때 중단 및 지연을 최소화할 수 있는 특성

2. 데이터 변환 후 품질 검증 프로세스

(1) 수집 데이터 분석

㉮ 수집 데이터 분석 프로세스

  • 데이터 수집 후 데이터 분석 절차는 아래와 같음
프로세스 설명
메타데이터 수집 메타데이터 수집(테이블 정의서, 컬럼 정의서, 도메인 정의서, 데이터 사전, ERD(Entity-Relationship Diagram), 관계 정의서를 통해 수집
각 테이블의 정보와 컬럼명, 데이터 타입 및 길이, 초기값 등을 기반으로 테이블 및 컬럼 목록 명세화
관계가 있는 테이블과 컬럼 목록, 관계의 기수성, 제약성 등을 명시하여 테이블 관계목록 명세화

수집된 메타데이터 ☞ 사전에 취합된 테이블, 컬럼, 관계 목록과 추출된 운영 시스템의 테이블, 컬럼, 관계목록을 대조하여 불일치 사항 분석
분석 대상 간 조인을 수행하여 불일치 내역 추출
메타데이터 분석을 통해 불일치 정보 정리
 
메타데이터를 통한 데이터 속성(유효성) 분석 누락 값, 값의 허용 범위, 허용 값 목록, 문자열 패턴, 날짜 유형, 기타 특수 도메인(특정 번호 유형) 정보, 유일  값, 구조 등을 분석

㉯ 메타데이터를 통한 데이터 속성(유효성) 분석 방안

구분 분석 방안
누락 값 분석 NULL 값의 분포를 확인하여 누락 값 분석
공백 값의 분포를 통해 누락 값 분석
숫자 '0' 등의 분포를 통해 누락 값 분석

값의 허용 범위 분석 컬럼의 속성값이 가져야 할 범위 내에 속성값이 있는지 여부가 아닌, 해당 속성의 도메인 유형에 따라 그 범위 결정
측량 단위에 따라 그 범위 판단
자료형의 크기에 따라 값의 허용 범위 판단
실수형 자료는 자릿수와 소수점으로 값의 허용 범위 판단
허용 값 목록 분석 해당 컬럼의 허용 값 목록이나 집합에 포함되지 않는 길을 발견하는 절차
분석 대상 컬럼의 개별 값과 발생 빈도를 조사하여 허용 값 목록 분석
값의 유무나 길이 여부를 나타내는 컬럼을 조사하여 허용 값 목록 분석
값이 명확히 정의되어 있는 유횻값의 컬럼을 조사하여 허용 값 목록 분석
표준화되어 있지 않은 코드성 컬럼을 조사하여 허용 값 목록 분석

문자열 패턴 분석 컬럼 속성값의 특성을 문자열로 도식화하여 값의 특성이 문자열로 반복되고 변형되는 대표적인 모형을 미리 정형화하여 해당 컬럼의 특성을 파악하기 쉽게해 놓은 데이터 표현 방법
날짜 유형 분석 DBMS 또는 시스템에서 제공하는 DATETIME 유형과 문자형 날짜 유형을 활용하여 날짜 유형 분석
유일 값 분석 업무적 의미에서 유일해야 하는 컬럼에 중복이 발생되었지를 확인하는 절차로 테이블 식별자로 활용되는 컬럼 속성 값들에 대해서 유일 값 분석
구조 분석 잘못된 데이터 구조로 인해 데이터값에서 일관되지 못하거나, 부정확한 값이 발견되는 현상을 파악하는 절차
구조 결함을 발견하기 위해 관계 분석, 참조 무결성 분석, 구조 무결성 분석기법 등을 활용하여 구조 분석

(2) 데이터 유효성 여부를 검증할 수 있는 규칙 설정 기능 개발

  • 빅데이터 수집 시스템에서 수행되는 유효성 검증은 일반적으로 정형 데이터에 대해서 수행함

(3) 정규 표현식을 활용한 검증 수행

  • 단순 값의 유무나 중복 여부 검증 외에도 데이터 양식이나 복잡한 규칙을 적용하기 위해 정규 표현식을 통해 유효성 검증을 할 수 있음
  • 정규 표현식 기호는 아래와 같음
표현기호 설명
\ \t(탭), \s(스페이스), \d(숫자)와 같은 특수 문자를 표기
|  | 기호 양쪽 값 중 어느 문자라도 존재하는 경우 참
^  시작 문자열
$  종료 문자열
{}  그룹핑하여 묶음 처리
[]  괄호에 있는 문자열 중 1개와 매칭
*  0개 이상의 문자열 매칭
+  1개 이상의 문자열 매칭
(n)  n개 이상의 문자열 매칭

3. 품질 검증 방안

(1) 빅데이터 수집 시스템의 요구사항 관련 자료 수집

  • 빅데이터 수집 시스템의 요구사항 중 수집 방식, 수집 모델, 기능, 제약 사항, 수집된 데이터의 유형 등의 자료를 수집하여 수집 단계에서 품질 관리를 해야 하는 요건을 도출함

(2) 수집된 빅데이터의 특성을 고려한 품질 검증 기준 정의

㉮ 수집 데이터의 복잡성 기준 정의

  • 빅데이터 수집 시스템에서 수집하는 데이터의 구조, 형식, 자료, 계층 측면에서 복잡성 기준을 정의함

㉯ 수집 데이터의 완전성 기준 정의

구분 품질 관리 기준
설명 유무 수집 데이터의 메타데이터 등 설명이 누락되거나 충분하지 않을 경우 자료 활용성에 있어 어떤 문자열 및 결함이 존재하는지 여부
개체/변수 개체 단위가 명시되었는지 여부
변수가 명확하게 정의되었는지 여부
메타데이터 메타데이터의 완전성 및 명확성 여부
자료 활용에 잇어 결함이 존재하는지 여부

㉰ 수집 데이터의 유용성 기준 정의

  • 수집된 데이터의 처리 용이성, 하드웨어 및 소프트웨어 제약 사항 관련 품질 관리 기준을 정의함

㉱ 수집 데이터의 시간적 요소 및 일관성 기준 정의

구분 품질 관리 기준
시간적인 요소 데이터 전달과 수집 사이의 소요 시간
자료가 수집된 시점/자료 수집 기간
자료 수집 및 제공이 주기적으로 가능한지 여부
수집 방법의 변호가 과거 자료를 사용하는 데 제약이 될 수 있는지 여부

일관성 수집된 빅데이터와 원천소스가 연결되지 않는 비율 검토
관심 사항과 연관된 변수들에 대한 평가
수집된 빅데이터의 이상 값, 오류 값 등이 사용하는 데 있어 결과에 영향을 미칠 수 있는 중요한 오차를 표현하는지 여부

타당성 수집된 빅데이터의 메타데이터를 분석한 방법이 안정성을 평가할 수 있는지 여부
수집된 빅데이터의 이상 값, 오류 값 등이 분석 결과에 영향을 미칠 수 있는 중요한 오차로 작용하는지 여부
정확성 포함 오차의 수준
파일 내에 중복된 자료 존재 여부
자료의 값들이 허용 범위 내에 존재하는지 여부
빅데이터 출처 기준으로 너무 많거나, 너무 작게 기술되거나 누락된 영역이 있는지 여부
측정 도구의 타당성 및 관측의 정확성 여부

(3) 데이터 변환 후 빅데이터의 품질 검증 기준에 따라 검증 수행

  • 수집된 데이터의 변환 후 빅데이터 품질 검증 기준에 따라 품질 관리 시스템을 활용하여 품질 검증을 수행함
  • 빅데이터 품질 검증은 오류 패턴 분류, 지표별 품질 현황 분석, 데이터 품질 Scoring 등의 기능을 통해 수행함
  • 품질 검증 후 잘못된 데이터는 문제점을 개선하여 다시 변환하여 저장함
반응형
LIST