Database

[Big Data] 빅데이터 기술 및 제도

구루싸 2020. 10. 21. 17:29
반응형
SMALL

빅데이터 플랫폼(Bigdata Platform)

  • 빅데이터에서 가치를 추출하기 위해 일련의 과정을 규격화한 기술을 의미함
  • 특화된 분석을 지원하는 빅데이터 플랫폼이 발전하는 추세임
  • 아래의 표와 같은 구성요소를 가짐
구성요소 주요기능
데이터 수집 ☞ 원천 데이터의 정형/반정형/비정형 데이터 수집
☞ ETL, 크롤러(Crawler), EAI(Enterprise Architecture Integration)
※ 크롤러는 URL에 존재하는 HTML 문서에 접근하여 해당 내용을 추출하고, 문서에 포함된 하이퍼링크를 통해 재귀적으로 다른 문서에 접근하여 콘텐츠 수집을 반복하는 기술을 의미함
※ EAI는 기업에서 운영하는 서로 다른 기종의 애플리케이션 및 시스템을 통합하는 솔루션을 의미함

데이터 저장 ☞ 정형/반정형/비정형 데이터 저장
☞ RDBMS(Relational DBMS), NoSQL(Not Only SQL) 등
※ RDBMS는 2차원 테이블인 데이터 모델에 기초를 둔 관계형 데이터베이스를 생성/수정/관리할 수 있는 소프트웨어를 의미함
※ NoSQL은 RDBMS와 다른 DBMS를 지칭하기 위한 용어로서 데이터 저장에 고정된 테이블 스키마(Schema)가 필요하지 않고 조인(Join) 연산을 사용할 수 없으며, 수평적 확장이 가능한 DBMS를 의미함

데이터 분석 ☞ 텍스트 분석, 머신러닝, 통계, 데이터 마이닝
☞ SNS 분석, 예측 분석 등
데이터 활용 ☞ 데이터 가시화 및 BI(Business Intelligence), Open API 연계
☞ 히스토그램(Histogram), 인포그래픽(Infographics)
※ BI는 데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스를 의미함
※ 히스토그램은 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 차트로 수평축에는 각 계급을 수직축에는 도수 또는 상대도수를 나타냄
※ 인포그래픽은 Information + Graphic의 줄임말로 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 있도록 만드는 시각화 방법을 의미함

1. 빅데이터 플랫폼의 데이터 형식

형식 특징
HTML ☞ HyperText Markup Language의 약자
☞ 웹 페이지를 만들 때 사용되는 문서 형식
☞ 텍스트, 태그, 스크립트로 구성

XML ☞ eXtensible Markup Language의 약자
☞ SGML 문서 형식을 가진 다른 특수한 목적을 갖는 마크업 언어를 만드는 데 사용하는 다목적 마크업 언어
☞ 데이터 표현을 위해 태그 사용
☞ 엘리먼트, 속성, 처리 명령, 엔티티, 주석, CDATE 섹션으로 구성

CSV ☞ Comma Separated Values의 약자
☞ 몇 가지 필드를 쉼표로 구분한 텍스트 데이터 및 텍스트 파일
JSON ☞ JavaScript Object Notation의 약자
☞ <키:값>으로 이루어진 데이터 오브젝트를 전달하기 위해 텍스트를 사용하는 개방형 표준 포맷

2. 아파치 하둡(Apache Hadoop) 에코시스템(Ecosystem)

  • High-Availability Distributed Object-Oriented Platform의 약자
  • 분산 파일 시스템(HDFS)과 맵리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐
  • 클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석
  • 하둡 에코시스템(Hadoop Ecosystem)은 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임을 말함
  • 하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분할 수 있음
구분 기술 설명
비정형 데이터 수집 척와
(Chukwa)
☞ 분산된 각 서버에서 에이전트를 실행하고 컬렉터(Collector)가 에이전트로부터 데이터를 받아 HDFS에 저장
플럼
(Flume)
☞ 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술
스크라이브
(Scribe)
☞ 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
☞ 최종 데이터는 HDFS 외에 다양한 저장소를 활용 가능
☞ HDFS에 저장하기 위해서는 JNI(Java Native Interface)를 이용
※ JNI는 자바 가상 머신(JVM) 위에서 실행되고 있는 자바 코드가 네이티브 응용 프로그램(하드웨어와 운영체제 플랫폼에 종속된 프로그램들) 그리고 C, C++, 어셈블리 같은 다른 언어들로 작성된 라이브러리들을 호출하거나 반대로 호출되는 것을 가능하게 하는 프로그래밍 프레임워크
정형 데이터 수집 스쿱
(Sqoop)
☞ 대용량 데이터 전송 솔루션
☞ 커넥터(Connector)를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기능 수행
☞ Oracle, MS-SQL, DB2와 같은 상용 RDBMS와 MySQL과 같은 오픈 소스 RDBMS 지원

히호
(Hiho)
스쿱과 같은 대용량 데이터 전송 솔루션이며 현재 깃허브(GitHub)에 공개되어 있음
☞ 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며 JDBC 인터페이스를 지원
분산 데이터 저장 하둡 분산 파일 시스템
(HDFS)
☞ Hadoop Distributed File System의 약자
☞ 대용량 파일을 분산된 서버에 저장하고 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
☞ 범용 하드웨어 기반이며 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원
☞ 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구의 특징이 있음
네임 노드는 파일 이름, 권한 등의 속성 기록
데이터 노드는 일정한 크기로 나눈 블록 형태로 저장
분산 데이터 처리 맵리듀스
(Map Reduce)
☞ 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
☞ 모든 데이터를 Key-Value 쌍으로 구성하고 분류함(맵)
☞ 맵(Map) → 셔플(Shuffle) → 리듀스(Reduce) 순서대로 데이터 처리
※ 셔플은 데이터를 통합하여 처리하는 것을 리듀스는 맵 처리된 데이터를 정리하는 것을 의미함

(Yarn)
☞ 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼
리소스 매니저는 스케줄러 역할을 수행하고 클러스터 이용률 최적화를 수행
노드 매니저는 노드 내의 자원을 관리하고 리소스 매니저에게 전달 수행 및 컨테이너를 관리
애플리케이션 마스터는 리소스 매니저와 자원의 교섭을 책임지고 컨테이너를 실행
컨테이너는 프로그램 구동을 위한 격리 환경을 지원하는 가상화 지원
아파치 스파크
(Apache Spark)
☞ 하둡 기반 대규모 데이터 분산처리시스템
☞ 스트리밍 데이터, 온라인 러닝머신 등 실시간 데이터 처리
☞ 스칼라, 자바, 파이썬, R 등에 사용 가능
분산 데이터베이스 HBase ☞ 컬럼 기반 저장소로 HDFS와 인터페이스 제공
☞ 실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트할 수 있음
데이터 가공 피그
(Pig)
☞ 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴(Pig Latin) 언어를 제공
☞ 맵리듀스 API를 매우 단순화시키고 SQL과 유사한 형태로 설계됨
☞ SQL과 유사하기만 할 뿐, 기존 SQL 지식을 활용하는 것은 어려움

하이브
(Hive)
☞ 하둡 기반의 DW(Data Warehouse) 솔루션
☞ SQL과 매우 유사한 HiveQL이라는 쿼리를 제공
☞ HiveQL은 내부적으로 맵리듀스로 변환되어 실행됨

데이터마이닝 머하웃
(Mahout)
☞ 하둡 기반으로 데이터마이닝 알고리즘을 구현한 오픈 소스
☞ 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘 지원
실시간 SQL 질의 임팔라
(Impala
☞ 하둡 기반의 실시간 SQL 질의 시스템
☞ 데이터 조회를 위한 인터페이스로 HiveQL을 사용
☞ 수초 내에 SQL 질의 결과를 확인할 수 있으며 HBase와 연동이 가능

워크플로우 관리 우지
(Oozie)
☞ 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
☞ 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버
☞ 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어

분산 코디네이션 주키퍼
(Zookeeper)
☞ 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공
☞ 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리
☞ 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안정성을 보장

※ R은 빅데이터 분석용 소프트웨어로 통계 프로그래밍 언어인 S 언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어이며 다양한 그래프 패키지들을 통하여 강력한 시각화 기능 제공함

빅데이터와 인공지능의 관계와 전망

  • 인공지능은 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어를 말함
  • 1950년에 등장한 인공지능을 최신 트렌드로 끌고 온 것은 빅데이터임
  • 빅데이터는 비정형 데이터를 고속으로 분석할 수 있어 인공지능이 기존에 기계가 인지하지 못했던 정보들을 분석할 수 있게 함
  • 인공지능의 암흑기를 지나 빅데이터를 통해 자체 알고리즘을 학습하는 딥러닝(Deep Learning) 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 됨
  • 빅데이터와 인공지능은 상호보완 관계로 빅데이터는 인공지능 구현 완성도를 높여주고, 빅데이터는 인공지능을 통해 문제 해결 완성도를 높임
  • 빅데이터 기술이 주목받는 이유는 우수한 정보처리를 바탕으로 의미 있는 결과를 도출할 수 있다는 점임
  • 빅데이터 목표가 인공지능 목표와 부합하고 인공지능 판단을 위해서는 빅데이터와 같은 기술이 필수이므로 빅데이터는 인공지능을 위한 기술이 될 가능성이 큼

개인정보보호법과 제도

  • 개인정보보호는 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동을 의미함
  • 개인정보 자기 결정권은 자신에 관한 정보가 언제, 어떻게, 어느 범위까지 타인에게 전달되고 이용될 수 있는지를 그 정보 주체가 스스로 결정할 수 있는 권리를 의미함

1. 개인정보보호의 필요성

필요성 세부 내용
유출 시 피해 심각 개인적 피해(정신적/경제적)와 함께 사회적 혼란 야기
정보사회 핵심 핵심 인프라 정보사회에서 모든 경제활동의 중심이 개인정보를 매개로 운영
개인정보 자기 통제권 정보 주체는 자신과 관련된 정보의 수집, 이용, 공개, 제공에 대해 본인이 통제할 수 있는 권리가 있음

2. 빅데이터 개인정보보호 가이드라인

구분 주요 내용    
개인정보 비식별화 ☞ 수집 시부터 개인 식별 정보에 대한 철저한 비식별화 조치
☞ 개인정보가 포함된 공개 정보 및 이용 내역 정보는 비식별화 조치를 취한 후 수집, 저장, 조합, 분석 및 제3자 제공 등 가능
개인정보 재식별 시 조치 ☞ 개인정보 재식별 시 즉시 파기 및 비식별화 조치
☞ 빅데이터 처리 과정 및 생성정보에 개인정보가 재식별될 경우 즉시 파기하거나 추가적인 비식별화 조치 시행
민감정보 처리 ☞ 민감정보 및 통신비밀의 수집, 이용, 분석 등 처리 금지
☞ 특정 개인의 사상, 신념, 정치적 견해 등 민감정보의 생성을 목적으로 정보의 수집, 이용, 저장, 조합, 분석 등 처리 금지
☞ 이메일, 문자, 메시지 등 통신 내용의 수집, 이용, 저장, 조합분석 등 처리 금지

투명성 확보 ☞ 빅데이터 처리 사실, 목적 등의 공개를 통한 투명성 확보
☞ 개인정보 취급방침을 통해 비식별화 조치 후 빅데이터 처리 사실, 목적, 수집 출처 및 정보 활용 거부권 행사 방법 등을 이용자에게 투명하게 공개
개인정보 취급방침 ☞ 비식별화 조치 후 빅데이터의 처리 사실, 목적 등을 이용자에게 공개
☞ <정보 활용 거부 페이지 링크>를 제공하여 이용자가 거부권을 행사할 수 있도록 조치
수집 출처 고지 ☞ 이용자 이외의 자로부터 수집한 개인정보 처리 시 <수집 출처, 목적, 개인정보 처리 정지 요구권>을 이용자엑 고지
수집정보의 보호조치 ☞ 수집된 정보의 저장관리 시 기술적, 관리적 보호조치
☞ 비식별화 조치가 취해진 정보를 저장관리하고 있는 정보처리시스템에 대한 기술적, 관리적 보호조치 적용

3. 개인정보보호 관련 법령

관련 법규 주요 내용
개인정보 보호법 ☞ 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무 등 규정
정보통신망법 ☞ 정보통신망 이용촉진 및 정보보호 등에 관한 법률의 약칭
☞ 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정
신용정보법 ☞ 신용정보의 이용 및 보호에 관한 법률의 약칭
☞ 개인 신용정보의 취급 단계별 보호조치 및 의무사항에 관한 규정
위치정보법 ☞ 위치정보의 보호 및 이용 등에 관한 법률의 약칭
☞ 개인 위치정보 수집, 이용, 제공 파기 및 정보 주체의 권리 등 규정
개인정보의 안전성 확보조치 기준 ☞ 개인정보 처리자가 개인정보를 처리함에 있어서 분실, 도난, 유출, 변조, 훼손 되지 않도록 안전성을 확보하기 위해 취해야 하는 세부적인 기준 규정
☞ 개인정보 처리시스템의 보호 수준을 진단, 암호화에 상응하는 조치 필요 여부를 판단할 수 있는 기준을 규정

4. 개인정보보호 내규

내규 주요 내용
정보보호 업무처리 지침 ☞ 정보보호 조치, 개인정보 수집, 개인정보 처리 안정성 확보
☞ 정보보호 시스템 운영 등 각종 행정처리 절차 명사
개발 보안 가이드 ☞ 소프트웨어 개발 시 보안 약점 제거
☞ 보안성을 높이는 개발 기법 가이드 마련
개인정보 암호화 매뉴얼 ☞ 꼭 필요한 최소한의 사용자만 개인정보 접근 활용
☞ 개인정보 파일 암호화 저장, 사용
소프트웨어 개발 보안 구조 ☞ 정보보안 통제 구조
☞ 전체적인 정보기술 아키텍처와의 관련된 명시
기술적, 관리적 보호 ☞ 개인정보의 분실, 도난, 누출, 변조, 훼손 방지 방법 마련

개인정보 활용

  • 앞서 언급한 개인정보보호 가이드라인은 개인정보를 비식별 조치하여 이용 또는 제공하려는 사업자 등이 준수하여야 할 조치 기준을 제시함
  • 여기서 개인정보 비식별화는 데이터값 삭제, 가명처리, 총계처리, 범주화, 데이터 마스킹 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별할 수 없도록 하는 조치를 말함

1. 개인정보 비식별화 절차

순서 절차 주요 내용
1 사전검토 ☞ 데이터가 개인정보에 해당하는지 검토
☞ 개인정보가 아닐 경우 법적 규제 없이 자유롭게 활용
☞ 개인정보일 경우 비식별 조치를 수행

2 비식별 조치 ☞ 데이터 집합에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체하는 등의 방법을 활용해 개인을 알아볼 수 없도록 하는 조치
3 적정성 평가 ☞ 다른 정보와 쉽게 결합하여 개인을 식별할 수 있는지를 비식별 조치, 적정성 평가단을 통해 평가
4 사후관리 ☞ 비식별 정보 안전조치, 재식별 가능성 모니터링 등 비식별 정보 활용 과정에서 재식별 방지를 위해 필요한 조치 수행

2. 개인정보 비식별 조치 방법

기법 세부기술 설명
가명처리
(Pseudonymization)
☞ 휴리스틱 익명화
☞ 암호화
☞ 교환방법

☞ 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 방법
총계처리
(Aggregation)
☞ 총계처리 기본 방식
☞ 부분집계
☞ 라운딩
☞ 데이터 재배열

☞ 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법
데이터 삭제
(Data Reduction)
☞ 속성값 삭제
☞ 속성값 부분 삭제
☞ 준 식별자 제거를 통한 단순 익명화

☞ 개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법
데이터 범주화
(Data Suppression)
☞ 범주화 기본 방식
☞ 랜덤 올림 방법
☞ 범위 방법
☞ 세분 정보 제한 방법
☞ 제어 올림 방법

☞ 단일 식별 정보를 해당 그룹의 대푯값으로 변환(범주화)하거나 구간 값으로 변환(범위화)하여 고유 정보 추적 및 식별 방지 기법
데이터 마스킹
(Data Masking)
☞ 임의 잡음 추가 방법
☞ 공백과 대체 방법
☞ 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값으로 변환하는 기법

3. 개인정보 재식별 모니터링

  • 비식별 정보를 이용하거나 제3자에게 제공하려는 사업자 등은 해당 정보의 재식별 가능성을 정기적으로 모니터링을 해야하고 모니터링 결과, 아래의 점검 항목 중 어느 하나에 해당하는 경우에는 추가적인 비식별 조치를 강구해야함
구분 점검 항목
내부 요인의 변화 ☞ 비식별 조치된 정보와 연계하여 재식별 우려가 있는 추가적인 정보를 수집하였거나 제공받은 경우
☞ 데이터 이용과정에서 생성되는 정보가 비식별 정보와 결합해서 새로운 정보가 생성되는 경우
☞ 이용부서에서 비식별 정보에 대한 비식별 수준을 낮추어 달라고 하는 요구가 있는 경우
☞ 신규 또는 추가로 구축되는 시스템이 비식별 정보에 대한 접근을 관리 통제하는 보안체계에 중대한 변화를 초래하는 경우

외부 환경의 변화 ☞ 이용 중인 데이터에 적용된 비식별 조치 방법과 유사한 방법으로 비식별 조치한 사례가 재식별도었다고 알려진 경우
☞ 이용 중인 데이터에 적용된 비식별 기법과 기술을 무력화하는 새로운 기술이 등장하거나 공개된 경우
☞ 이용 중인 데이터와 새롭게 연계 가능한 정보가 출현하거나 공개된 것으로 알려진 경우

 

반응형
LIST