[Big Data] 빅데이터 기술 및 제도

Database

[Big Data] 빅데이터 기술 및 제도

구루싸 2020. 10. 21. 17:29

SMALL

빅데이터 플랫폼(Bigdata Platform)

빅데이터에서 가치를 추출하기 위해 일련의 과정을 규격화한 기술을 의미함
특화된 분석을 지원하는 빅데이터 플랫폼이 발전하는 추세임
아래의 표와 같은 구성요소를 가짐

구성요소	주요기능
데이터 수집	☞ 원천 데이터의 정형/반정형/비정형 데이터 수집 ☞ ETL, 크롤러(Crawler), EAI(Enterprise Architecture Integration) ※ 크롤러는 URL에 존재하는 HTML 문서에 접근하여 해당 내용을 추출하고, 문서에 포함된 하이퍼링크를 통해 재귀적으로 다른 문서에 접근하여 콘텐츠 수집을 반복하는 기술을 의미함 ※ EAI는 기업에서 운영하는 서로 다른 기종의 애플리케이션 및 시스템을 통합하는 솔루션을 의미함
데이터 저장	☞ 정형/반정형/비정형 데이터 저장 ☞ RDBMS(Relational DBMS), NoSQL(Not Only SQL) 등 ※ RDBMS는 2차원 테이블인 데이터 모델에 기초를 둔 관계형 데이터베이스를 생성/수정/관리할 수 있는 소프트웨어를 의미함 ※ NoSQL은 RDBMS와 다른 DBMS를 지칭하기 위한 용어로서 데이터 저장에 고정된 테이블 스키마(Schema)가 필요하지 않고 조인(Join) 연산을 사용할 수 없으며, 수평적 확장이 가능한 DBMS를 의미함
데이터 분석	☞ 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 ☞ SNS 분석, 예측 분석 등
데이터 활용	☞ 데이터 가시화 및 BI(Business Intelligence), Open API 연계 ☞ 히스토그램(Histogram), 인포그래픽(Infographics) ※ BI는 데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스를 의미함 ※ 히스토그램은 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 차트로 수평축에는 각 계급을 수직축에는 도수 또는 상대도수를 나타냄 ※ 인포그래픽은 Information + Graphic의 줄임말로 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 있도록 만드는 시각화 방법을 의미함

1. 빅데이터 플랫폼의 데이터 형식

형식	특징
HTML	☞ HyperText Markup Language의 약자 ☞ 웹 페이지를 만들 때 사용되는 문서 형식 ☞ 텍스트, 태그, 스크립트로 구성
XML	☞ eXtensible Markup Language의 약자 ☞ SGML 문서 형식을 가진 다른 특수한 목적을 갖는 마크업 언어를 만드는 데 사용하는 다목적 마크업 언어 ☞ 데이터 표현을 위해 태그 사용 ☞ 엘리먼트, 속성, 처리 명령, 엔티티, 주석, CDATE 섹션으로 구성
CSV	☞ Comma Separated Values의 약자 ☞ 몇 가지 필드를 쉼표로 구분한 텍스트 데이터 및 텍스트 파일
JSON	☞ JavaScript Object Notation의 약자 ☞ <키:값>으로 이루어진 데이터 오브젝트를 전달하기 위해 텍스트를 사용하는 개방형 표준 포맷

2. 아파치 하둡(Apache Hadoop) 에코시스템(Ecosystem)

High-Availability Distributed Object-Oriented Platform의 약자
분산 파일 시스템(HDFS)과 맵리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐
클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석
하둡 에코시스템(Hadoop Ecosystem)은 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임을 말함
하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분할 수 있음

구분	기술	설명
비정형 데이터 수집	척와 (Chukwa)	☞ 분산된 각 서버에서 에이전트를 실행하고 컬렉터(Collector)가 에이전트로부터 데이터를 받아 HDFS에 저장
	플럼 (Flume)	☞ 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술
	스크라이브 (Scribe)	☞ 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 ☞ 최종 데이터는 HDFS 외에 다양한 저장소를 활용 가능 ☞ HDFS에 저장하기 위해서는 JNI(Java Native Interface)를 이용 ※ JNI는 자바 가상 머신(JVM) 위에서 실행되고 있는 자바 코드가 네이티브 응용 프로그램(하드웨어와 운영체제 플랫폼에 종속된 프로그램들) 그리고 C, C++, 어셈블리 같은 다른 언어들로 작성된 라이브러리들을 호출하거나 반대로 호출되는 것을 가능하게 하는 프로그래밍 프레임워크
정형 데이터 수집	스쿱 (Sqoop)	☞ 대용량 데이터 전송 솔루션 ☞ 커넥터(Connector)를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기능 수행 ☞ Oracle, MS-SQL, DB2와 같은 상용 RDBMS와 MySQL과 같은 오픈 소스 RDBMS 지원
정형 데이터 수집	히호 (Hiho)	☞ 스쿱과 같은 대용량 데이터 전송 솔루션이며 현재 깃허브(GitHub)에 공개되어 있음 ☞ 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며 JDBC 인터페이스를 지원
분산 데이터 저장	하둡 분산 파일 시스템 (HDFS)	☞ Hadoop Distributed File System의 약자 ☞ 대용량 파일을 분산된 서버에 저장하고 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템 ☞ 범용 하드웨어 기반이며 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원 ☞ 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구의 특징이 있음 ※ 네임 노드는 파일 이름, 권한 등의 속성 기록 ※ 데이터 노드는 일정한 크기로 나눈 블록 형태로 저장
분산 데이터 처리	맵리듀스 (Map Reduce)	☞ 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크 ☞ 모든 데이터를 Key-Value 쌍으로 구성하고 분류함(맵) ☞ 맵(Map) → 셔플(Shuffle) → 리듀스(Reduce) 순서대로 데이터 처리 ※ 셔플은 데이터를 통합하여 처리하는 것을 리듀스는 맵 처리된 데이터를 정리하는 것을 의미함
	얀 (Yarn)	☞ 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼 ☞ 리소스 매니저는 스케줄러 역할을 수행하고 클러스터 이용률 최적화를 수행 ☞ 노드 매니저는 노드 내의 자원을 관리하고 리소스 매니저에게 전달 수행 및 컨테이너를 관리 ☞ 애플리케이션 마스터는 리소스 매니저와 자원의 교섭을 책임지고 컨테이너를 실행 ☞ 컨테이너는 프로그램 구동을 위한 격리 환경을 지원하는 가상화 지원
	아파치 스파크 (Apache Spark)	☞ 하둡 기반 대규모 데이터 분산처리시스템 ☞ 스트리밍 데이터, 온라인 러닝머신 등 실시간 데이터 처리 ☞ 스칼라, 자바, 파이썬, R 등에 사용 가능
분산 데이터베이스	HBase	☞ 컬럼 기반 저장소로 HDFS와 인터페이스 제공 ☞ 실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트할 수 있음
데이터 가공	피그 (Pig)	☞ 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴(Pig Latin) 언어를 제공 ☞ 맵리듀스 API를 매우 단순화시키고 SQL과 유사한 형태로 설계됨 ☞ SQL과 유사하기만 할 뿐, 기존 SQL 지식을 활용하는 것은 어려움
데이터 가공	하이브 (Hive)	☞ 하둡 기반의 DW(Data Warehouse) 솔루션 ☞ SQL과 매우 유사한 HiveQL이라는 쿼리를 제공 ☞ HiveQL은 내부적으로 맵리듀스로 변환되어 실행됨
데이터마이닝	머하웃 (Mahout)	☞ 하둡 기반으로 데이터마이닝 알고리즘을 구현한 오픈 소스 ☞ 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘 지원
실시간 SQL 질의	임팔라 (Impala	☞ 하둡 기반의 실시간 SQL 질의 시스템 ☞ 데이터 조회를 위한 인터페이스로 HiveQL을 사용 ☞ 수초 내에 SQL 질의 결과를 확인할 수 있으며 HBase와 연동이 가능
워크플로우 관리	우지 (Oozie)	☞ 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템 ☞ 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버 ☞ 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
분산 코디네이션	주키퍼 (Zookeeper)	☞ 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공 ☞ 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리 ☞ 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안정성을 보장

※ R은 빅데이터 분석용 소프트웨어로 통계 프로그래밍 언어인 S 언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어이며 다양한 그래프 패키지들을 통하여 강력한 시각화 기능 제공함

빅데이터와 인공지능의 관계와 전망

인공지능은 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어를 말함
1950년에 등장한 인공지능을 최신 트렌드로 끌고 온 것은 빅데이터임
빅데이터는 비정형 데이터를 고속으로 분석할 수 있어 인공지능이 기존에 기계가 인지하지 못했던 정보들을 분석할 수 있게 함
인공지능의 암흑기를 지나 빅데이터를 통해 자체 알고리즘을 학습하는 딥러닝(Deep Learning) 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 됨
빅데이터와 인공지능은 상호보완 관계로 빅데이터는 인공지능 구현 완성도를 높여주고, 빅데이터는 인공지능을 통해 문제 해결 완성도를 높임
빅데이터 기술이 주목받는 이유는 우수한 정보처리를 바탕으로 의미 있는 결과를 도출할 수 있다는 점임
빅데이터 목표가 인공지능 목표와 부합하고 인공지능 판단을 위해서는 빅데이터와 같은 기술이 필수이므로 빅데이터는 인공지능을 위한 기술이 될 가능성이 큼

개인정보보호법과 제도

개인정보보호는 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동을 의미함
개인정보 자기 결정권은 자신에 관한 정보가 언제, 어떻게, 어느 범위까지 타인에게 전달되고 이용될 수 있는지를 그 정보 주체가 스스로 결정할 수 있는 권리를 의미함

1. 개인정보보호의 필요성

필요성	세부 내용
유출 시 피해 심각	개인적 피해(정신적/경제적)와 함께 사회적 혼란 야기
정보사회 핵심 핵심 인프라	정보사회에서 모든 경제활동의 중심이 개인정보를 매개로 운영
개인정보 자기 통제권	정보 주체는 자신과 관련된 정보의 수집, 이용, 공개, 제공에 대해 본인이 통제할 수 있는 권리가 있음

2. 빅데이터 개인정보보호 가이드라인

구분	주요 내용
개인정보 비식별화	☞ 수집 시부터 개인 식별 정보에 대한 철저한 비식별화 조치 ☞ 개인정보가 포함된 공개 정보 및 이용 내역 정보는 비식별화 조치를 취한 후 수집, 저장, 조합, 분석 및 제3자 제공 등 가능
개인정보 재식별 시 조치	☞ 개인정보 재식별 시 즉시 파기 및 비식별화 조치 ☞ 빅데이터 처리 과정 및 생성정보에 개인정보가 재식별될 경우 즉시 파기하거나 추가적인 비식별화 조치 시행
민감정보 처리	☞ 민감정보 및 통신비밀의 수집, 이용, 분석 등 처리 금지 ☞ 특정 개인의 사상, 신념, 정치적 견해 등 민감정보의 생성을 목적으로 정보의 수집, 이용, 저장, 조합, 분석 등 처리 금지 ☞ 이메일, 문자, 메시지 등 통신 내용의 수집, 이용, 저장, 조합분석 등 처리 금지
투명성 확보	☞ 빅데이터 처리 사실, 목적 등의 공개를 통한 투명성 확보 ☞ 개인정보 취급방침을 통해 비식별화 조치 후 빅데이터 처리 사실, 목적, 수집 출처 및 정보 활용 거부권 행사 방법 등을 이용자에게 투명하게 공개	개인정보 취급방침	☞ 비식별화 조치 후 빅데이터의 처리 사실, 목적 등을 이용자에게 공개 ☞ <정보 활용 거부 페이지 링크>를 제공하여 이용자가 거부권을 행사할 수 있도록 조치
		수집 출처 고지	☞ 이용자 이외의 자로부터 수집한 개인정보 처리 시 <수집 출처, 목적, 개인정보 처리 정지 요구권>을 이용자엑 고지
수집정보의 보호조치	☞ 수집된 정보의 저장관리 시 기술적, 관리적 보호조치 ☞ 비식별화 조치가 취해진 정보를 저장관리하고 있는 정보처리시스템에 대한 기술적, 관리적 보호조치 적용

3. 개인정보보호 관련 법령

관련 법규	주요 내용
개인정보 보호법	☞ 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무 등 규정
정보통신망법	☞ 정보통신망 이용촉진 및 정보보호 등에 관한 법률의 약칭 ☞ 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정
신용정보법	☞ 신용정보의 이용 및 보호에 관한 법률의 약칭 ☞ 개인 신용정보의 취급 단계별 보호조치 및 의무사항에 관한 규정
위치정보법	☞ 위치정보의 보호 및 이용 등에 관한 법률의 약칭 ☞ 개인 위치정보 수집, 이용, 제공 파기 및 정보 주체의 권리 등 규정
개인정보의 안전성 확보조치 기준	☞ 개인정보 처리자가 개인정보를 처리함에 있어서 분실, 도난, 유출, 변조, 훼손 되지 않도록 안전성을 확보하기 위해 취해야 하는 세부적인 기준 규정 ☞ 개인정보 처리시스템의 보호 수준을 진단, 암호화에 상응하는 조치 필요 여부를 판단할 수 있는 기준을 규정

4. 개인정보보호 내규

내규	주요 내용
정보보호 업무처리 지침	☞ 정보보호 조치, 개인정보 수집, 개인정보 처리 안정성 확보 ☞ 정보보호 시스템 운영 등 각종 행정처리 절차 명사
개발 보안 가이드	☞ 소프트웨어 개발 시 보안 약점 제거 ☞ 보안성을 높이는 개발 기법 가이드 마련
개인정보 암호화 매뉴얼	☞ 꼭 필요한 최소한의 사용자만 개인정보 접근 활용 ☞ 개인정보 파일 암호화 저장, 사용
소프트웨어 개발 보안 구조	☞ 정보보안 통제 구조 ☞ 전체적인 정보기술 아키텍처와의 관련된 명시
기술적, 관리적 보호	☞ 개인정보의 분실, 도난, 누출, 변조, 훼손 방지 방법 마련

개인정보 활용

앞서 언급한 개인정보보호 가이드라인은 개인정보를 비식별 조치하여 이용 또는 제공하려는 사업자 등이 준수하여야 할 조치 기준을 제시함
여기서 개인정보 비식별화는 데이터값 삭제, 가명처리, 총계처리, 범주화, 데이터 마스킹 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별할 수 없도록 하는 조치를 말함

1. 개인정보 비식별화 절차

순서	절차	주요 내용
1	사전검토	☞ 데이터가 개인정보에 해당하는지 검토 ☞ 개인정보가 아닐 경우 법적 규제 없이 자유롭게 활용 ☞ 개인정보일 경우 비식별 조치를 수행
2	비식별 조치	☞ 데이터 집합에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체하는 등의 방법을 활용해 개인을 알아볼 수 없도록 하는 조치
3	적정성 평가	☞ 다른 정보와 쉽게 결합하여 개인을 식별할 수 있는지를 비식별 조치, 적정성 평가단을 통해 평가
4	사후관리	☞ 비식별 정보 안전조치, 재식별 가능성 모니터링 등 비식별 정보 활용 과정에서 재식별 방지를 위해 필요한 조치 수행

2. 개인정보 비식별 조치 방법

기법	세부기술	설명
가명처리 (Pseudonymization)	☞ 휴리스틱 익명화 ☞ 암호화 ☞ 교환방법	☞ 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 방법
총계처리 (Aggregation)	☞ 총계처리 기본 방식 ☞ 부분집계 ☞ 라운딩 ☞ 데이터 재배열	☞ 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법
데이터 삭제 (Data Reduction)	☞ 속성값 삭제 ☞ 속성값 부분 삭제 ☞ 준 식별자 제거를 통한 단순 익명화	☞ 개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법
데이터 범주화 (Data Suppression)	☞ 범주화 기본 방식 ☞ 랜덤 올림 방법 ☞ 범위 방법 ☞ 세분 정보 제한 방법 ☞ 제어 올림 방법	☞ 단일 식별 정보를 해당 그룹의 대푯값으로 변환(범주화)하거나 구간 값으로 변환(범위화)하여 고유 정보 추적 및 식별 방지 기법
데이터 마스킹 (Data Masking)	☞ 임의 잡음 추가 방법 ☞ 공백과 대체 방법	☞ 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값으로 변환하는 기법

3. 개인정보 재식별 모니터링

비식별 정보를 이용하거나 제3자에게 제공하려는 사업자 등은 해당 정보의 재식별 가능성을 정기적으로 모니터링을 해야하고 모니터링 결과, 아래의 점검 항목 중 어느 하나에 해당하는 경우에는 추가적인 비식별 조치를 강구해야함

구분	점검 항목
내부 요인의 변화	☞ 비식별 조치된 정보와 연계하여 재식별 우려가 있는 추가적인 정보를 수집하였거나 제공받은 경우 ☞ 데이터 이용과정에서 생성되는 정보가 비식별 정보와 결합해서 새로운 정보가 생성되는 경우 ☞ 이용부서에서 비식별 정보에 대한 비식별 수준을 낮추어 달라고 하는 요구가 있는 경우 ☞ 신규 또는 추가로 구축되는 시스템이 비식별 정보에 대한 접근을 관리 통제하는 보안체계에 중대한 변화를 초래하는 경우
외부 환경의 변화	☞ 이용 중인 데이터에 적용된 비식별 조치 방법과 유사한 방법으로 비식별 조치한 사례가 재식별도었다고 알려진 경우 ☞ 이용 중인 데이터에 적용된 비식별 기법과 기술을 무력화하는 새로운 기술이 등장하거나 공개된 경우 ☞ 이용 중인 데이터와 새롭게 연계 가능한 정보가 출현하거나 공개된 것으로 알려진 경우

LIST

'Database' 카테고리의 다른 글

[Database] 데이터베이스와 모델링 (0)	2020.11.06
[Big Data] 데이터 적재 및 저장 (0)	2020.10.27
[Big Data] 데이터 수집 및 전환 (0)	2020.10.25
[Big Data] 데이터 분석 계획 (0)	2020.10.23
[Big Data] 빅데이터 개요 및 활용 (0)	2020.10.20

현재글[Big Data] 빅데이터 기술 및 제도

GuruSa

구루싸의 IT 파헤치기

React, 분석, java, 코틀린, 고, Design Pattern, 판다스, go, Algorithms, 스프링, 알고리즘, 안드로이드, 데이터, 디자인 패턴, 빅데이터, 머신러닝, 파이썬, 자바, python, 보안,

Today :
Yesterday :

GuruSa

[Big Data] 빅데이터 기술 및 제도

빅데이터 플랫폼(Bigdata Platform)

1. 빅데이터 플랫폼의 데이터 형식

2. 아파치 하둡(Apache Hadoop) 에코시스템(Ecosystem)

빅데이터와 인공지능의 관계와 전망

개인정보보호법과 제도

1. 개인정보보호의 필요성

2. 빅데이터 개인정보보호 가이드라인

3. 개인정보보호 관련 법령

4. 개인정보보호 내규

개인정보 활용

1. 개인정보 비식별화 절차

2. 개인정보 비식별 조치 방법

3. 개인정보 재식별 모니터링

'Database' 카테고리의 다른 글

'Database'의 다른글

티스토리툴바

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

[Big Data] 빅데이터 기술 및 제도

빅데이터 플랫폼(Bigdata Platform)

1. 빅데이터 플랫폼의 데이터 형식

2. 아파치 하둡(Apache Hadoop) 에코시스템(Ecosystem)

빅데이터와 인공지능의 관계와 전망

개인정보보호법과 제도

1. 개인정보보호의 필요성

2. 빅데이터 개인정보보호 가이드라인

3. 개인정보보호 관련 법령

4. 개인정보보호 내규

개인정보 활용

1. 개인정보 비식별화 절차

2. 개인정보 비식별 조치 방법

3. 개인정보 재식별 모니터링

'Database' 카테고리의 다른 글

'Database'의 다른글

관련글

티스토리툴바