목차 |
---|
빅데이터 3대 요소 |
하둡이란? |
하둡의 과제 |
하둡 배포판 살펴보기 |
정리
빅데이터 3대 요소
1) 크기(Volume) - 기존 파일 시스템에 저장하기 어려울뿐더러 데이터 분석을 위해 사용하는 기존 DW 같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터의 양이 증가 함.
2) 속도(Velocity) - 데이터가 매우 빠른 속도로 생성되기때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리돼야 함.
3) 다양성(Variety) - 다양한 종류의 데이터들이 빅 데이터를 구성하고 있음(정형, 반정형, 비정형 데이터)
하둡이란?
하둡은 2005년에 더그 커팅(Doug Cutting)이 구글이 논문으로 발표한 GFS(Google File System)와 맵리듀스(MapReduce)를 구현한 결과물 입니다.
처음에는 오픈소스 검색엔진인 너치(Nutch)에 적용하기 위해 시작됐다가 이후 독립적인 프로젝트로 만들어졌고, 2008년에는 아파치 최상위 프로젝트로 승격 됨.
하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 분산 처리 시스템인 MapReduce를 이용해 데이터를 처리 합니다.
즉, 하둡을 통해 정말 큰 데이터를 저장할 수 있고, 그 데이터를 이용해서 연산을 수행할 수 있습니다. 이를 위한 2가지가 바로 HDFS와 MapReduce(2ver에서는 YARN) 입니다.
하둡은 비즈니스에 효율적으로 적용할 수 있게 다양한 서브 프로젝트가 제공 되어집니다. 이러한 프로젝트가 상용화되면서 하둡 에코시스템(Hadoop Ecosystem)이 구성됐습니다.
그림1. 하둡 에코시스템
하둡의 과제
- 고가용성 지원 X : 하둡의 가장 큰 문제는 바로 고가용성(HA: High Availability) 을 지원하지 않습니다.
그래서 클라우데라, 야후, 페이스북 같은 업체에서는 자신만의 고가용성 솔루션을 만들어 공개했습니다.
하둡 2.0 버전에서 네임노드의 고가용성을 지원하겠다고 발표했었다고 하니..현재 2.0버전이 나왔으니 진짜 지원을 하는지 나중에 하둡2.0스터디를할 때 집고 넘어가야겠습니다. - 파일 네임스페이스 제한 : 네임노드가 관리하는 메타 정보는 메모리로 관리되기 때문에 메모리의 크기에 따라 HDFS에 저장하는 파일과 디렉터리 개수가 제한을 받음.
- 데이터 수정 불가 : 하둡의 또 다른 단점은 한 번 저장한 파일은 더는 수정할 수 없다는 것 입니다. HDFS에 파일을 저장하면 파일의 이동이나 이름 변경과 같은 작업은 가능하지만 저장된 파일의 내용은 수정할 수 없습니다.
그래서 파일 읽기나 배치 작업만이 하둡에 적당합니다. 이러한 문제점도 조금씩 개선되고 있습니다. 하둡0.21 버전에서는 기존에 저장된 파일에 내용을 불일 수 있는 append 기능이 제공됩니다. - POSIX 명령어 미지원 : 기존 파일 시스템에서 사용하던 rm, mv 같은 POSIX 형식의 파일 명령어를 이용할 수 없습니다. 하둡에서 제공하는 별도의 쉘 명령어와 API를 이용해 파일을 제어해야만 합니다.
하둡 배포판 살펴보기
주요 하둡 배포판
- Cloudera(클라우데라) Hortonworks(호튼웍스)
- MapR Technologies(MapR 테크놀로지스)
- Amazon(아마존)
- Hstreaming
참고
책 : 시작하세요! 하둡 프로그래밍(기초에서 실무까지 하둡의 모든것, 정재화 지음)
하둡 기초 용어 설명
http://www.slideshare.net/madvirus/ss-28761748
하둡2 YARN
http://www.slideshare.net/madvirus/2-yarn
- 끝 -
'BigDATA > Hadoop' 카테고리의 다른 글
03. 맵리듀스 시작하기 - 맵-리듀스 개념 (5) | 2014.09.01 |
---|---|
02. About HDFS.. (0) | 2014.08.28 |
[하둡교육 3일차] Pig (0) | 2013.06.05 |
[하둡교육 3일차] Zookeeper (0) | 2013.06.05 |
[하둡교육 2일차] Hadoop 설치 (0) | 2013.06.04 |