본문 바로가기

Apache

[HADOOP] 사용하는 이유 Hadoop 사용하는 이유 우리가 일상 사용하는 데이터베이스에서 데이터를 찾으려 한다면 다소 많은 시간이 걸리지 않는다고 생각한다. 하지만 대용량 데이터를 다룰려 할 때 Hadoop이 탄생되고 왜 사용되어지는 지 알 수 있다. 1TB 크기의 데이터를 읽어들인다고 가정할 시 100MB/s 로 약 3시간이 소요된다. Hadoop은 이러한 방대한 데이터를 처리하고 저장하며 관리하기 위해 만들어졌다. 위와 같은 1TB 데이터를 읽어들이는 데 Hadoop을 사용했을 시 2007년 297초2009년 62초 소요되었다. Hadoop은 Doug Cutting이 Google에서 발표한 GFS와 MapReduce를 이용하여 개발된 프로젝트의 산출물이다. 구글의 검색엔진에 'a'를 입력하고 검색해보았다. 'a' 라는 단어가.. 더보기
[HADOOP] 정의와 역사 HADOOP의 정의와 역사 HADOOP(High-Availability Distributed Object-Oriented Platform) 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는분산 응용프로그램을 지원하는 자바 기반 소프트웨어이자 프레임워크다. Hadoop 이 탄생된 과정 [검색 엔진 개발]Doug Cutting과 Mike Cafarella는 2000년도에 시작된 웹의 검색엔진 기술의 여파로 일부회사(구글, 야후 등)만 가지고 있었던 검색엔진 기술을 오픈소스로 개발하면 좋겠다고 생각하였고 2004년도 ACM Queue에서 Building Nutch:Open Source Search로 발표하였다. [검색 엔진의 단점 발견 -> 구글 GFS, MapReduce를 따라 NDFS 개발]하.. 더보기