what bigdata
빅데이터란
빅데이터란?
빅데이터는 큰 사이즈의 데이터로부터 유의미한 지표를 분석해내는 것
데이터 규모에 초점을 맞춘 정의
- 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
업무 수행 방식에 초점을 맞춘 정의
- 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍처
출현배경
- 데이터 양의 증가 / 데이터 저장기술 발달
- SNS등장, 스마트 기기 보급
- 디지털 저장기술과 장치의 발달
- 경제적 타당성 증가 / 저장장치의 가격 인하
- 1980년대 1G 10억 이상이던 메모리 가격이 2010년대 100원 미만으로 떨어짐
- 데이터 처리기술 발달
- 분산 병렬처리 기술의 발달로 합리적인 시간 안에 데이터 분석이 가능해짐
- CPU 발전, 클라우드 컴퓨팅, 하둡 등 오픈소스 활성화
3V
Volume - 크기
- 저장장치 가격의 하락, 네트워크 속도의 향상으로 수 페타바이트의 데이터가 매일 생성
Variety - 다양성
- 정형: DB 같이 고정형 필드에 저장되는 데이터
- 반정형: XML, HTML 같이 메타데이터나 스키마등을 포함하는 데이터
- 비정형: 동영상, SNS 메시지, 사진, 오디오 등 고정된 형태가 없는 데이터
Velocity - 속도
5V
Value - 가치
Veracity - 정확성
빅데이터 처리 5 단계
수집
- 데이터를 수집하는 단계
- 정형, 비정형, 반정형 데이터
- 정형: DB, csv 와 같은 칼럼 단위의 형태가 존재하는 데이터
- 반정형: xml, html 처럼 스키마가 존재하는 데이터
- 비정형: 동영상, 음성 데이터 처럼 형태가 존재하지 않는 데이터
정제
- 수집한 데이터를 적재하기 위해 필요없는 데이터, 깨진 데이터를 정리하는 단계
- 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요없는 부분을 제거하는 단계가 필요함
적재
- 정제된 데이터를 분석하기 위해 적재하는 단계
- RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재
분석
- 적재한 데이터를 의미있는 지표로 분석하는 단계
- 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계
시각화
- 분석한 데이터를 도표로 보여주는 단계
- 데이터를 이해하기 쉬운 차트로 분석하는 단계