Hadoop 사용하는 이유
우리가 일상 사용하는 데이터베이스에서 데이터를 찾으려 한다면
다소 많은 시간이 걸리지 않는다고 생각한다.
하지만 대용량 데이터를 다룰려 할 때
Hadoop이 탄생되고 왜 사용되어지는 지 알 수 있다.
1TB 크기의 데이터를 읽어들인다고 가정할 시
100MB/s 로 약 3시간이 소요된다.
Hadoop은 이러한 방대한 데이터를
처리하고 저장하며 관리하기 위해 만들어졌다.
위와 같은 1TB 데이터를 읽어들이는 데
Hadoop을 사용했을 시
2007년 297초
2009년 62초
소요되었다.
Hadoop은 Doug Cutting이 Google에서 발표한
GFS와 MapReduce를 이용하여 개발된 프로젝트의 산출물이다.
구글의 검색엔진에 'a'를 입력하고 검색해보았다.
'a' 라는 단어가 포함된 웹페이지 25,270,000,000개(약 250억개)를
0.47초 만에 찾아냈다.