본문 바로가기

bigdata

[HADOOP] Eco System [HADOOP] ECO SYSTEM Eco System은 원래 생물학용어이다. 자연환경과 생물이 서로 영향을 주고 받으며 함께 생존하는 자연계 질서를 일컫는다. 1993년 미국 하버드대학교 연구교수인 제임스무어가 이러한 뜻을 비즈니스에 접목시켜 '비즈니스 에코시스템'이라는 용어를 탄생시켰고, 주로 IT 분야 여러 기업이 리더를 중심으로 협력하고 함께 발전하는 것을 지칭한다. [출처 : http://1004jonghee.tistory.com/127] 분야 솔루션 NoSQL HBase, Cassandra, MongoDB, CouchDB, Couchbase, Cloudata, Riak, Neo4j Cache Redis, Memcached RPC Thrift, Avro, Protocol Buffer Collec.. 더보기
[HADOOP] 빅데이터 저장과 처리 및 데이터의 분류 HADOOP 빅데이터 저장과 처리 각자의 생각과 개념은 차이가 있지만 빅데이터를 어떻게 저장하는지는 HDFS(Hadoop Distribured File System) 빅데이터를 어떻게 처리(연산)하는지는 MapReduce 라고 생각하면 된다. HDFS는 신뢰할 수 있는 공유 스토리지 MapReduce는 분산 컴퓨팅이라고 보면 된다. 데이터는 크게 세 가지로 분류된다 정형 데이터 - 정규화를 만족하는 데이터로 기간, 관리, 정보, 분석, 업무의 데이터 반정형 데이터 - 웹, 보안, 로그, 센서 데이터 비정형 데이터 - 문자, 동영상, 이미지, 위치정보 등의 데이터 더보기
[HADOOP] 사용하는 이유 Hadoop 사용하는 이유 우리가 일상 사용하는 데이터베이스에서 데이터를 찾으려 한다면 다소 많은 시간이 걸리지 않는다고 생각한다. 하지만 대용량 데이터를 다룰려 할 때 Hadoop이 탄생되고 왜 사용되어지는 지 알 수 있다. 1TB 크기의 데이터를 읽어들인다고 가정할 시 100MB/s 로 약 3시간이 소요된다. Hadoop은 이러한 방대한 데이터를 처리하고 저장하며 관리하기 위해 만들어졌다. 위와 같은 1TB 데이터를 읽어들이는 데 Hadoop을 사용했을 시 2007년 297초2009년 62초 소요되었다. Hadoop은 Doug Cutting이 Google에서 발표한 GFS와 MapReduce를 이용하여 개발된 프로젝트의 산출물이다. 구글의 검색엔진에 'a'를 입력하고 검색해보았다. 'a' 라는 단어가.. 더보기
[HADOOP] 정의와 역사 HADOOP의 정의와 역사 HADOOP(High-Availability Distributed Object-Oriented Platform) 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는분산 응용프로그램을 지원하는 자바 기반 소프트웨어이자 프레임워크다. Hadoop 이 탄생된 과정 [검색 엔진 개발]Doug Cutting과 Mike Cafarella는 2000년도에 시작된 웹의 검색엔진 기술의 여파로 일부회사(구글, 야후 등)만 가지고 있었던 검색엔진 기술을 오픈소스로 개발하면 좋겠다고 생각하였고 2004년도 ACM Queue에서 Building Nutch:Open Source Search로 발표하였다. [검색 엔진의 단점 발견 -> 구글 GFS, MapReduce를 따라 NDFS 개발]하.. 더보기