반응형
SMALL

빅데이터 8

[Big Data] 통계기법

기술통계 데이터 분석의 목적으로 수집된 데이터를 확률·통계적으로 정리 및 요약하는 기초적인 통계임 분석의 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 주로 산출함 통계적 수치를 계산하고 도출하거나 그래프를 활용하여 데이터에 대한 전반적인 이해를 도움 1. 데이터 요약 1) 기초 통계량 ① 평균(Mean) 자료를 모두 더한 후 자료 개수로 나눈 값 전부 같은 가중치를 두며, 이상값에 민감한 단점이 있음 평균에는 표본평균, 모평균, 가중평균이 있음 ② 중위수(Median) 모든 데이터값을 크기 순서로 오름차순 정렬하였을 때 중앙에 위치한 데이터값으로 중앙값이라고도 함 특이값에 영향을 받지 않음 데이터 값의 수가 홀수일 경우에는 중위수가 하나가 되지만 짝수일 경우에는 중앙에 위치한 두 개의 값의 평..

Database 2020.11.19

[Big Data] 데이터 탐색

데이터 탐색 기초 1. 데이터 탐색 개요 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법 ① Four R's 탐색적 데이터 분석(Exploratory Data Analysis)의 4가지 특징 특징 설명 저항성 (Resistance) ☞ 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미 ☞ 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음 ☞ 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 잔차 해석 (Residual) ☞ 잔차란 관찰 값들이 주 경향으로부터 벗어난 정도임 ☞ 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색 ☞ 주 경..

Database 2020.11.15

[Big Data] 데이터 전처리

데이터 전처리 데이터 분석 과정에서 데이터 전처리는 반드시 거쳐야 하는 과정 전처리 결과가 분석 결과에 직접적인 영향을 주고 있어서 반복적으로 수행함 데이터 분석의 단계 중 가장 많은 시간이 소요됨 데이터 정제 → 결측값 처리 → 이상값 처리 → 분석변수처리 순서로 진행 데이터 정제 데이터 정제(Data Cleansing)는 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 1. 데이터 정제 절차 ① 데이터 오류 원인 분석 데이터 오류는 원천 데이터의 오류로 인해서 발생하거나 빅데이터 플로우의 문제로부터 발생함 원인 설명 오류 처리 방법 결측값(Missing Value) ☞ 필수적인 데이터가 입력되지 않고 누락된 값 ☞ 평균값, 중앙값, 최빈값 같은 중심 경향값 넣기 ☞ 랜덤..

Database 2020.11.15

[Big Data] 데이터 적재 및 저장

데이터 적재 1. 데이터 적재 아키텍처 수립 (1) 아키텍처 정의 요구사항을 구현하기 위한 기반 기술을 정의하는 과정 요구사항을 반영하여 하드웨어와 소프트웨어 아키텍처를 정의하는데, 이는 정보시스템 개발, 테스트, 이관을 위한 기술적 기반이 됨 (2) 빅데이터 적재 아키텍처 요구 정의 ㉮ 장비 요구사항 정의 장비 규격 정의 설명 서버 장비 규격 정의 ☞ 주요 서버는 분산 처리를 위한 네임 노드(Name Node), 데이터 노드(Data Node), 데이터 분석을 위한 분석 서버, 원천 데이터 획득을 위한 수집 서버 등이 있음 네트워크 장비 규격 정의 ☞ 용도에 따라 라우터, 스위치 등으로 구성 ☞ 스토리지나 백업 장비를 위한 망 구성의 경우 SAN(Storage Area Network) 스위치 도입 고려..

Database 2020.10.27

[Big Data] 데이터 수집 및 전환

데이터 처리 기술 기술 설명 데이터 필터링 ☞ 정형 데이터는 사전 테스트를 통하여 오류 발견, 보정, 삭제, 중복성 검사와 같은 과정을 통해 필터링 ☞ 비정형 데이터는 데이터 마이닝에 자연어처리, 기계학습과 같은 추가 기술을 적용하여 오류 데이터, 중복 데이터와 같은 저품질 데이터를 필터링 ☞ 데이터 활용 목적에 맞지 않는 정보는 필터링하여 분석시간을 단축하고 저장 공간을 효율적으로 활용 데이터 변환 ☞ 다양한 형식으로 수집된 데이터를 분석이 쉽도록 일관성 있는 형식으로 변환 ☞ 데이터 변환에는 평활화, 집계, 일반화, 정규화, 속성 생성 기술을 사용 데이터 정제 ☞ 수집된 데이터의 불일치성을 교정하기 위한 방식으로 결측값(Missing Value) 처리, 잡은(Noise) 처리 기술 활용 데이터 통합 ..

Database 2020.10.25

[Big Data] 데이터 분석 계획

분석 방안 수립 1. 분석 로드맵 단계별로 추진하고자 하는 목표를 정확히 정의하고, 선·후행 단계를 고려해 단계별 추진내용을 정렬함 단계 추진과제 추진목표 데이터 분석체계 도입 ☞ 분석 기회 발굴 ☞ 분석 과제 정의 ☞ 로드맵 수집 ☞ 비즈니스 약점이 무엇인지 식별 ☞ 분석 과제를 정의하고 로드맵 수집 데이터 분석 유효성 검증 ☞ 분석 알고리즘 설계 ☞ 아키텍처 설계 ☞ 분석 과제 파일럿(Pilot) 수행 ※ 파일럿은 이미 검증된 기술을 가지고 본 프로젝트를 본격적으로 진행하기 전에 시험운영을 통해 효과를 미리 검토하고 문제점 여부를 점검하는 소규모 프로젝트를 말함 ☞ 분석 과제에 대한 파일럿 수행 ☞ 유효성, 타당성을 검증 ☞ 기술 실현 가능성을 검증 ☞ 분석 알고리즘 및 아키텍처 설계 데이터 분석 확..

Database 2020.10.23

[Big Data] 빅데이터 기술 및 제도

빅데이터 플랫폼(Bigdata Platform) 빅데이터에서 가치를 추출하기 위해 일련의 과정을 규격화한 기술을 의미함 특화된 분석을 지원하는 빅데이터 플랫폼이 발전하는 추세임 아래의 표와 같은 구성요소를 가짐 구성요소 주요기능 데이터 수집 ☞ 원천 데이터의 정형/반정형/비정형 데이터 수집 ☞ ETL, 크롤러(Crawler), EAI(Enterprise Architecture Integration) ※ 크롤러는 URL에 존재하는 HTML 문서에 접근하여 해당 내용을 추출하고, 문서에 포함된 하이퍼링크를 통해 재귀적으로 다른 문서에 접근하여 콘텐츠 수집을 반복하는 기술을 의미함 ※ EAI는 기업에서 운영하는 서로 다른 기종의 애플리케이션 및 시스템을 통합하는 솔루션을 의미함 데이터 저장 ☞ 정형/반정형/비..

Database 2020.10.21

[Big Data] 빅데이터 개요 및 활용

빅데이터 특징 빅데이터는 수십 테라바이트(TB) 이상의 정형 및 비정형 데이터 데이터로부터 가치를 추출하고 결과를 분석하는 의미로도 통용됨 데이터에서부터 가치를 추출하는 것은 통찰, 지혜를 얻는 과정으로 Ackoff Russell Lincoln이 도식화한 DIKW 피라미드(아래의 그림 및 표 참고)로 표현할 수 있음 데이터를 수집, 저장, 관리, 분석하는 기존의 관리 방법으로는 막대한 양의 데이터를 처리하기 어려울 때 빅데이터를 사용함 피라미드 요소 설명 데이터(Data) ☞ 객관적 사실로서 다른 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호 ☞ 아직 특정의 목적에 대하여 평가되지 않은 상태의 단순한 여러 사실 정보(Information) ☞ 가공, 처리하여 데이터 간의 연관 관계와 함께 ..

Database 2020.10.20
반응형
LIST