본문 바로가기

development activity/Big Data Development

[HADOOP] 정의와 역사

HADOOP의 정의와 역사



HADOOP(High-Availability Distributed Object-Oriented Platform)


대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는

분산 응용프로그램을 지원하는 자바 기반 소프트웨어이자 프레임워크다. 



Hadoop 이 탄생된 과정



           

                  <Doug Cutting>                              <Mike Cafarella>   



 


[검색 엔진 개발]

Doug Cutting과 Mike Cafarella는 2000년도에 시작된 웹의 검색엔진 기술의 여파로 일부회사(구글, 야후 등)만 가지고 있었던 검색엔진 기술을 오픈소스로 개발하면 좋겠다고 생각하였고 2004년도 ACM Queue에서 Building Nutch:Open Source Search로 발표하였다.


[검색 엔진의 단점 발견 -> 구글 GFS, MapReduce를 따라 NDFS 개발]

하지만 큰 규모의 색인을 유지할 수 있지만 많은 웹페이지를 핸들링하기 어려운 점이 있었는데 2003년 Google에서 GFS(Google The System)을 발표했고, 이 문서를 보고 Doug Cutting은 NDFS(Nutch Distributed File System)을 개발했다.

또 2004년 Google에서 MapReduce를 발표하였고, 연달아 Nutch Project에도 포함했다.


[Hadoop Project 시작 -> Yahoo 입사]

2006년 Nutch Project로 NDFS와 MapReduce을 독립시키고 대용량 데이터를 처리하는 Hadoop Project 시작.

Doug Cutting은 Yahoo에 입사하게 되었고 Hadoop을 Yahoo에 적용시켰다.

그 해 2월 Apache 소프트웨어 재단에 Hadoop을 최고 프로젝트로 등극하게 되었다.


[Hadop 발표]

2008년 Hadoop을 발표했고, 2011년 12월 27일 1.0버전을 정식 발표하였다.