본문 바로가기

development activity

[HADOOP] 빅데이터 저장과 처리 및 데이터의 분류 HADOOP 빅데이터 저장과 처리 각자의 생각과 개념은 차이가 있지만 빅데이터를 어떻게 저장하는지는 HDFS(Hadoop Distribured File System) 빅데이터를 어떻게 처리(연산)하는지는 MapReduce 라고 생각하면 된다. HDFS는 신뢰할 수 있는 공유 스토리지 MapReduce는 분산 컴퓨팅이라고 보면 된다. 데이터는 크게 세 가지로 분류된다 정형 데이터 - 정규화를 만족하는 데이터로 기간, 관리, 정보, 분석, 업무의 데이터 반정형 데이터 - 웹, 보안, 로그, 센서 데이터 비정형 데이터 - 문자, 동영상, 이미지, 위치정보 등의 데이터 더보기
[HADOOP] 사용하는 이유 Hadoop 사용하는 이유 우리가 일상 사용하는 데이터베이스에서 데이터를 찾으려 한다면 다소 많은 시간이 걸리지 않는다고 생각한다. 하지만 대용량 데이터를 다룰려 할 때 Hadoop이 탄생되고 왜 사용되어지는 지 알 수 있다. 1TB 크기의 데이터를 읽어들인다고 가정할 시 100MB/s 로 약 3시간이 소요된다. Hadoop은 이러한 방대한 데이터를 처리하고 저장하며 관리하기 위해 만들어졌다. 위와 같은 1TB 데이터를 읽어들이는 데 Hadoop을 사용했을 시 2007년 297초2009년 62초 소요되었다. Hadoop은 Doug Cutting이 Google에서 발표한 GFS와 MapReduce를 이용하여 개발된 프로젝트의 산출물이다. 구글의 검색엔진에 'a'를 입력하고 검색해보았다. 'a' 라는 단어가.. 더보기
[HADOOP] 정의와 역사 HADOOP의 정의와 역사 HADOOP(High-Availability Distributed Object-Oriented Platform) 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는분산 응용프로그램을 지원하는 자바 기반 소프트웨어이자 프레임워크다. Hadoop 이 탄생된 과정 [검색 엔진 개발]Doug Cutting과 Mike Cafarella는 2000년도에 시작된 웹의 검색엔진 기술의 여파로 일부회사(구글, 야후 등)만 가지고 있었던 검색엔진 기술을 오픈소스로 개발하면 좋겠다고 생각하였고 2004년도 ACM Queue에서 Building Nutch:Open Source Search로 발표하였다. [검색 엔진의 단점 발견 -> 구글 GFS, MapReduce를 따라 NDFS 개발]하.. 더보기
[CentOS7] VMware Tools Install (DVD and Minimal) VMware Tools Install(DVD & Minimal) VMware Tools는 해상도 자동맞춤, 호스트와 가상머신 간 공유폴더 등 다양한 기능을 제공한다. 다음은 DVD 버전과 minimal 버전의 VMware Tools 설치 방법에 대한 내용이다. 환경 : DVD - CentOS7, Minimal - CentOS7 더보기 글자를 클릭하면 설치방법을 볼 수 있습니다. CentOS7 DVD 버전에서 VMware tools 설치 VMware Tools는 CD처럼 가상머신에 접근한다고 생각하자. 먼저 VMware Tools가 CD처럼 접근하게 될 시 설치 파일이 압축되어 있으므로 CD내에서 압축을 풀어 설치할 수 없다. CD 내 설치파일들을 옮길 폴더하나를 생성한다. /tmp/etc 라는 폴더를 새.. 더보기
[CentOS7] Oracle 11g XE 설치하기 CentOS7 minimal 환경에서 Oracle 11g XE 설치하기 오라클 11g 설치 시 필요한 패키지를 설치하도록 한다. rpm 파일 설치 시 의존하는 패키지로 설치를 하지 않고 넘어갈 시 rpm -ivh oracle-xe......... 명령을 입력하여 오라클 DBMS를 설치하려는 중 오류가 발생할 것이다. 모두 다 잘 설치되었다. CentOS7 minimal 환경으로 아무것도 포함되어있지 않는 최소설치이다 텍스트모드로 브라우저를 실행해 oracle 11g xe DBMS를 설치할 수 있지만 더 간단한 방법으로 접근하여 zip 파일을 다운받는다. 위 입력을 통해 wget을 설치한다. 위 wget은 다운로드 가능한 링크를 입력받아 설치해주는 명령어이다 oracle 11g xe를 설치하기 위해선 회원.. 더보기