HADOOP 빅데이터 저장과 처리
각자의 생각과 개념은 차이가 있지만
빅데이터를 어떻게 저장하는지는 HDFS(Hadoop Distribured File System)
빅데이터를 어떻게 처리(연산)하는지는 MapReduce 라고 생각하면 된다.
HDFS는 신뢰할 수 있는 공유 스토리지
MapReduce는 분산 컴퓨팅이라고 보면 된다.
데이터는 크게 세 가지로 분류된다
정형 데이터 - 정규화를 만족하는 데이터로 기간, 관리, 정보, 분석, 업무의 데이터
반정형 데이터 - 웹, 보안, 로그, 센서 데이터
비정형 데이터 - 문자, 동영상, 이미지, 위치정보 등의 데이터