반응형
SMALL
빅데이터 플랫폼(Bigdata Platform)
- 빅데이터에서 가치를 추출하기 위해 일련의 과정을 규격화한 기술을 의미함
- 특화된 분석을 지원하는 빅데이터 플랫폼이 발전하는 추세임
- 아래의 표와 같은 구성요소를 가짐
구성요소 | 주요기능 |
데이터 수집 | ☞ 원천 데이터의 정형/반정형/비정형 데이터 수집 ☞ ETL, 크롤러(Crawler), EAI(Enterprise Architecture Integration) ※ 크롤러는 URL에 존재하는 HTML 문서에 접근하여 해당 내용을 추출하고, 문서에 포함된 하이퍼링크를 통해 재귀적으로 다른 문서에 접근하여 콘텐츠 수집을 반복하는 기술을 의미함 ※ EAI는 기업에서 운영하는 서로 다른 기종의 애플리케이션 및 시스템을 통합하는 솔루션을 의미함 |
데이터 저장 | ☞ 정형/반정형/비정형 데이터 저장 ☞ RDBMS(Relational DBMS), NoSQL(Not Only SQL) 등 ※ RDBMS는 2차원 테이블인 데이터 모델에 기초를 둔 관계형 데이터베이스를 생성/수정/관리할 수 있는 소프트웨어를 의미함 ※ NoSQL은 RDBMS와 다른 DBMS를 지칭하기 위한 용어로서 데이터 저장에 고정된 테이블 스키마(Schema)가 필요하지 않고 조인(Join) 연산을 사용할 수 없으며, 수평적 확장이 가능한 DBMS를 의미함 |
데이터 분석 | ☞ 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 ☞ SNS 분석, 예측 분석 등 |
데이터 활용 | ☞ 데이터 가시화 및 BI(Business Intelligence), Open API 연계 ☞ 히스토그램(Histogram), 인포그래픽(Infographics) ※ BI는 데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스를 의미함 ※ 히스토그램은 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 차트로 수평축에는 각 계급을 수직축에는 도수 또는 상대도수를 나타냄 ※ 인포그래픽은 Information + Graphic의 줄임말로 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 있도록 만드는 시각화 방법을 의미함 |
1. 빅데이터 플랫폼의 데이터 형식
형식 | 특징 |
HTML | ☞ HyperText Markup Language의 약자 ☞ 웹 페이지를 만들 때 사용되는 문서 형식 ☞ 텍스트, 태그, 스크립트로 구성 |
XML | ☞ eXtensible Markup Language의 약자 ☞ SGML 문서 형식을 가진 다른 특수한 목적을 갖는 마크업 언어를 만드는 데 사용하는 다목적 마크업 언어 ☞ 데이터 표현을 위해 태그 사용 ☞ 엘리먼트, 속성, 처리 명령, 엔티티, 주석, CDATE 섹션으로 구성 |
CSV | ☞ Comma Separated Values의 약자 ☞ 몇 가지 필드를 쉼표로 구분한 텍스트 데이터 및 텍스트 파일 |
JSON | ☞ JavaScript Object Notation의 약자 ☞ <키:값>으로 이루어진 데이터 오브젝트를 전달하기 위해 텍스트를 사용하는 개방형 표준 포맷 |
2. 아파치 하둡(Apache Hadoop) 에코시스템(Ecosystem)
- High-Availability Distributed Object-Oriented Platform의 약자
- 분산 파일 시스템(HDFS)과 맵리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐
- 클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석
- 하둡 에코시스템(Hadoop Ecosystem)은 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임을 말함
- 하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분할 수 있음
구분 | 기술 | 설명 |
비정형 데이터 수집 | 척와 (Chukwa) |
☞ 분산된 각 서버에서 에이전트를 실행하고 컬렉터(Collector)가 에이전트로부터 데이터를 받아 HDFS에 저장 |
플럼 (Flume) |
☞ 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술 | |
스크라이브 (Scribe) |
☞ 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 ☞ 최종 데이터는 HDFS 외에 다양한 저장소를 활용 가능 ☞ HDFS에 저장하기 위해서는 JNI(Java Native Interface)를 이용 ※ JNI는 자바 가상 머신(JVM) 위에서 실행되고 있는 자바 코드가 네이티브 응용 프로그램(하드웨어와 운영체제 플랫폼에 종속된 프로그램들) 그리고 C, C++, 어셈블리 같은 다른 언어들로 작성된 라이브러리들을 호출하거나 반대로 호출되는 것을 가능하게 하는 프로그래밍 프레임워크 |
|
정형 데이터 수집 | 스쿱 (Sqoop) |
☞ 대용량 데이터 전송 솔루션 ☞ 커넥터(Connector)를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기능 수행 ☞ Oracle, MS-SQL, DB2와 같은 상용 RDBMS와 MySQL과 같은 오픈 소스 RDBMS 지원 |
히호 (Hiho) |
☞ 스쿱과 같은 대용량 데이터 전송 솔루션이며 현재 깃허브(GitHub)에 공개되어 있음 ☞ 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며 JDBC 인터페이스를 지원 |
|
분산 데이터 저장 | 하둡 분산 파일 시스템 (HDFS) |
☞ Hadoop Distributed File System의 약자 ☞ 대용량 파일을 분산된 서버에 저장하고 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템 ☞ 범용 하드웨어 기반이며 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원 ☞ 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구의 특징이 있음 ※ 네임 노드는 파일 이름, 권한 등의 속성 기록 ※ 데이터 노드는 일정한 크기로 나눈 블록 형태로 저장 |
분산 데이터 처리 | 맵리듀스 (Map Reduce) |
☞ 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크 ☞ 모든 데이터를 Key-Value 쌍으로 구성하고 분류함(맵) ☞ 맵(Map) → 셔플(Shuffle) → 리듀스(Reduce) 순서대로 데이터 처리 ※ 셔플은 데이터를 통합하여 처리하는 것을 리듀스는 맵 처리된 데이터를 정리하는 것을 의미함 |
얀 (Yarn) |
☞ 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼 ☞ 리소스 매니저는 스케줄러 역할을 수행하고 클러스터 이용률 최적화를 수행 ☞ 노드 매니저는 노드 내의 자원을 관리하고 리소스 매니저에게 전달 수행 및 컨테이너를 관리 ☞ 애플리케이션 마스터는 리소스 매니저와 자원의 교섭을 책임지고 컨테이너를 실행 ☞ 컨테이너는 프로그램 구동을 위한 격리 환경을 지원하는 가상화 지원 |
|
아파치 스파크 (Apache Spark) |
☞ 하둡 기반 대규모 데이터 분산처리시스템 ☞ 스트리밍 데이터, 온라인 러닝머신 등 실시간 데이터 처리 ☞ 스칼라, 자바, 파이썬, R 등에 사용 가능 |
|
분산 데이터베이스 | HBase | ☞ 컬럼 기반 저장소로 HDFS와 인터페이스 제공 ☞ 실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트할 수 있음 |
데이터 가공 | 피그 (Pig) |
☞ 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴(Pig Latin) 언어를 제공 ☞ 맵리듀스 API를 매우 단순화시키고 SQL과 유사한 형태로 설계됨 ☞ SQL과 유사하기만 할 뿐, 기존 SQL 지식을 활용하는 것은 어려움 |
하이브 (Hive) |
☞ 하둡 기반의 DW(Data Warehouse) 솔루션 ☞ SQL과 매우 유사한 HiveQL이라는 쿼리를 제공 ☞ HiveQL은 내부적으로 맵리듀스로 변환되어 실행됨 |
|
데이터마이닝 | 머하웃 (Mahout) |
☞ 하둡 기반으로 데이터마이닝 알고리즘을 구현한 오픈 소스 ☞ 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘 지원 |
실시간 SQL 질의 | 임팔라 (Impala |
☞ 하둡 기반의 실시간 SQL 질의 시스템 ☞ 데이터 조회를 위한 인터페이스로 HiveQL을 사용 ☞ 수초 내에 SQL 질의 결과를 확인할 수 있으며 HBase와 연동이 가능 |
워크플로우 관리 | 우지 (Oozie) |
☞ 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템 ☞ 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버 ☞ 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어 |
분산 코디네이션 | 주키퍼 (Zookeeper) |
☞ 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공 ☞ 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리 ☞ 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안정성을 보장 |
※ R은 빅데이터 분석용 소프트웨어로 통계 프로그래밍 언어인 S 언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어이며 다양한 그래프 패키지들을 통하여 강력한 시각화 기능 제공함
빅데이터와 인공지능의 관계와 전망
- 인공지능은 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어를 말함
- 1950년에 등장한 인공지능을 최신 트렌드로 끌고 온 것은 빅데이터임
- 빅데이터는 비정형 데이터를 고속으로 분석할 수 있어 인공지능이 기존에 기계가 인지하지 못했던 정보들을 분석할 수 있게 함
- 인공지능의 암흑기를 지나 빅데이터를 통해 자체 알고리즘을 학습하는 딥러닝(Deep Learning) 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 됨
- 빅데이터와 인공지능은 상호보완 관계로 빅데이터는 인공지능 구현 완성도를 높여주고, 빅데이터는 인공지능을 통해 문제 해결 완성도를 높임
- 빅데이터 기술이 주목받는 이유는 우수한 정보처리를 바탕으로 의미 있는 결과를 도출할 수 있다는 점임
- 빅데이터 목표가 인공지능 목표와 부합하고 인공지능 판단을 위해서는 빅데이터와 같은 기술이 필수이므로 빅데이터는 인공지능을 위한 기술이 될 가능성이 큼
개인정보보호법과 제도
- 개인정보보호는 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동을 의미함
- 개인정보 자기 결정권은 자신에 관한 정보가 언제, 어떻게, 어느 범위까지 타인에게 전달되고 이용될 수 있는지를 그 정보 주체가 스스로 결정할 수 있는 권리를 의미함
1. 개인정보보호의 필요성
필요성 | 세부 내용 |
유출 시 피해 심각 | 개인적 피해(정신적/경제적)와 함께 사회적 혼란 야기 |
정보사회 핵심 핵심 인프라 | 정보사회에서 모든 경제활동의 중심이 개인정보를 매개로 운영 |
개인정보 자기 통제권 | 정보 주체는 자신과 관련된 정보의 수집, 이용, 공개, 제공에 대해 본인이 통제할 수 있는 권리가 있음 |
2. 빅데이터 개인정보보호 가이드라인
구분 | 주요 내용 | ||
개인정보 비식별화 | ☞ 수집 시부터 개인 식별 정보에 대한 철저한 비식별화 조치 ☞ 개인정보가 포함된 공개 정보 및 이용 내역 정보는 비식별화 조치를 취한 후 수집, 저장, 조합, 분석 및 제3자 제공 등 가능 |
||
개인정보 재식별 시 조치 | ☞ 개인정보 재식별 시 즉시 파기 및 비식별화 조치 ☞ 빅데이터 처리 과정 및 생성정보에 개인정보가 재식별될 경우 즉시 파기하거나 추가적인 비식별화 조치 시행 |
||
민감정보 처리 | ☞ 민감정보 및 통신비밀의 수집, 이용, 분석 등 처리 금지 ☞ 특정 개인의 사상, 신념, 정치적 견해 등 민감정보의 생성을 목적으로 정보의 수집, 이용, 저장, 조합, 분석 등 처리 금지 ☞ 이메일, 문자, 메시지 등 통신 내용의 수집, 이용, 저장, 조합분석 등 처리 금지 |
||
투명성 확보 | ☞ 빅데이터 처리 사실, 목적 등의 공개를 통한 투명성 확보 ☞ 개인정보 취급방침을 통해 비식별화 조치 후 빅데이터 처리 사실, 목적, 수집 출처 및 정보 활용 거부권 행사 방법 등을 이용자에게 투명하게 공개 |
개인정보 취급방침 | ☞ 비식별화 조치 후 빅데이터의 처리 사실, 목적 등을 이용자에게 공개 ☞ <정보 활용 거부 페이지 링크>를 제공하여 이용자가 거부권을 행사할 수 있도록 조치 |
수집 출처 고지 | ☞ 이용자 이외의 자로부터 수집한 개인정보 처리 시 <수집 출처, 목적, 개인정보 처리 정지 요구권>을 이용자엑 고지 | ||
수집정보의 보호조치 | ☞ 수집된 정보의 저장관리 시 기술적, 관리적 보호조치 ☞ 비식별화 조치가 취해진 정보를 저장관리하고 있는 정보처리시스템에 대한 기술적, 관리적 보호조치 적용 |
3. 개인정보보호 관련 법령
관련 법규 | 주요 내용 |
개인정보 보호법 | ☞ 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무 등 규정 |
정보통신망법 | ☞ 정보통신망 이용촉진 및 정보보호 등에 관한 법률의 약칭 ☞ 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정 |
신용정보법 | ☞ 신용정보의 이용 및 보호에 관한 법률의 약칭 ☞ 개인 신용정보의 취급 단계별 보호조치 및 의무사항에 관한 규정 |
위치정보법 | ☞ 위치정보의 보호 및 이용 등에 관한 법률의 약칭 ☞ 개인 위치정보 수집, 이용, 제공 파기 및 정보 주체의 권리 등 규정 |
개인정보의 안전성 확보조치 기준 | ☞ 개인정보 처리자가 개인정보를 처리함에 있어서 분실, 도난, 유출, 변조, 훼손 되지 않도록 안전성을 확보하기 위해 취해야 하는 세부적인 기준 규정 ☞ 개인정보 처리시스템의 보호 수준을 진단, 암호화에 상응하는 조치 필요 여부를 판단할 수 있는 기준을 규정 |
4. 개인정보보호 내규
내규 | 주요 내용 |
정보보호 업무처리 지침 | ☞ 정보보호 조치, 개인정보 수집, 개인정보 처리 안정성 확보 ☞ 정보보호 시스템 운영 등 각종 행정처리 절차 명사 |
개발 보안 가이드 | ☞ 소프트웨어 개발 시 보안 약점 제거 ☞ 보안성을 높이는 개발 기법 가이드 마련 |
개인정보 암호화 매뉴얼 | ☞ 꼭 필요한 최소한의 사용자만 개인정보 접근 활용 ☞ 개인정보 파일 암호화 저장, 사용 |
소프트웨어 개발 보안 구조 | ☞ 정보보안 통제 구조 ☞ 전체적인 정보기술 아키텍처와의 관련된 명시 |
기술적, 관리적 보호 | ☞ 개인정보의 분실, 도난, 누출, 변조, 훼손 방지 방법 마련 |
개인정보 활용
- 앞서 언급한 개인정보보호 가이드라인은 개인정보를 비식별 조치하여 이용 또는 제공하려는 사업자 등이 준수하여야 할 조치 기준을 제시함
- 여기서 개인정보 비식별화는 데이터값 삭제, 가명처리, 총계처리, 범주화, 데이터 마스킹 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별할 수 없도록 하는 조치를 말함
1. 개인정보 비식별화 절차
순서 | 절차 | 주요 내용 |
1 | 사전검토 | ☞ 데이터가 개인정보에 해당하는지 검토 ☞ 개인정보가 아닐 경우 법적 규제 없이 자유롭게 활용 ☞ 개인정보일 경우 비식별 조치를 수행 |
2 | 비식별 조치 | ☞ 데이터 집합에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체하는 등의 방법을 활용해 개인을 알아볼 수 없도록 하는 조치 |
3 | 적정성 평가 | ☞ 다른 정보와 쉽게 결합하여 개인을 식별할 수 있는지를 비식별 조치, 적정성 평가단을 통해 평가 |
4 | 사후관리 | ☞ 비식별 정보 안전조치, 재식별 가능성 모니터링 등 비식별 정보 활용 과정에서 재식별 방지를 위해 필요한 조치 수행 |
2. 개인정보 비식별 조치 방법
기법 | 세부기술 | 설명 |
가명처리 (Pseudonymization) |
☞ 휴리스틱 익명화 ☞ 암호화 ☞ 교환방법 |
☞ 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 방법 |
총계처리 (Aggregation) |
☞ 총계처리 기본 방식 ☞ 부분집계 ☞ 라운딩 ☞ 데이터 재배열 |
☞ 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법 |
데이터 삭제 (Data Reduction) |
☞ 속성값 삭제 ☞ 속성값 부분 삭제 ☞ 준 식별자 제거를 통한 단순 익명화 |
☞ 개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법 |
데이터 범주화 (Data Suppression) |
☞ 범주화 기본 방식 ☞ 랜덤 올림 방법 ☞ 범위 방법 ☞ 세분 정보 제한 방법 ☞ 제어 올림 방법 |
☞ 단일 식별 정보를 해당 그룹의 대푯값으로 변환(범주화)하거나 구간 값으로 변환(범위화)하여 고유 정보 추적 및 식별 방지 기법 |
데이터 마스킹 (Data Masking) |
☞ 임의 잡음 추가 방법 ☞ 공백과 대체 방법 |
☞ 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값으로 변환하는 기법 |
3. 개인정보 재식별 모니터링
- 비식별 정보를 이용하거나 제3자에게 제공하려는 사업자 등은 해당 정보의 재식별 가능성을 정기적으로 모니터링을 해야하고 모니터링 결과, 아래의 점검 항목 중 어느 하나에 해당하는 경우에는 추가적인 비식별 조치를 강구해야함
구분 | 점검 항목 |
내부 요인의 변화 | ☞ 비식별 조치된 정보와 연계하여 재식별 우려가 있는 추가적인 정보를 수집하였거나 제공받은 경우 ☞ 데이터 이용과정에서 생성되는 정보가 비식별 정보와 결합해서 새로운 정보가 생성되는 경우 ☞ 이용부서에서 비식별 정보에 대한 비식별 수준을 낮추어 달라고 하는 요구가 있는 경우 ☞ 신규 또는 추가로 구축되는 시스템이 비식별 정보에 대한 접근을 관리 통제하는 보안체계에 중대한 변화를 초래하는 경우 |
외부 환경의 변화 | ☞ 이용 중인 데이터에 적용된 비식별 조치 방법과 유사한 방법으로 비식별 조치한 사례가 재식별도었다고 알려진 경우 ☞ 이용 중인 데이터에 적용된 비식별 기법과 기술을 무력화하는 새로운 기술이 등장하거나 공개된 경우 ☞ 이용 중인 데이터와 새롭게 연계 가능한 정보가 출현하거나 공개된 것으로 알려진 경우 |
반응형
LIST
'Database' 카테고리의 다른 글
[Database] 데이터베이스와 모델링 (0) | 2020.11.06 |
---|---|
[Big Data] 데이터 적재 및 저장 (0) | 2020.10.27 |
[Big Data] 데이터 수집 및 전환 (0) | 2020.10.25 |
[Big Data] 데이터 분석 계획 (0) | 2020.10.23 |
[Big Data] 빅데이터 개요 및 활용 (0) | 2020.10.20 |