BigDATA(47)
-
사용자 정의 옵션(Tool, ToolRunner)
하둡은맵리듀스 프로그램 개발을 편리하게 할수 있도록 다양한 helper class를 제공.ex) org.apache.hadoop.util package에 구현돼 있음. import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner; 맵-리듀스 잡을 실행하면 잡 객체는 사용자가 설정한 Configuration객체를 이용해 org.apache.hadoop.mapred.JobConf 객체를 생성. JobConf는 하둡의 환경설정 파일과 하둡 명령어에서 입력한 파라미터를 참조해 모든 태스크에 이 정보를 제공. 분석 데이터의 종류에 따라 하둡 환경설정 정보와 다른 값을 사용해야 하는 경우가 있을 것입니다. 이런 불편함을 줄이기 위해 Gen..
2014.12.08 -
What is MapReduce??
[wiki]맵리듀스(MapReduce)는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크다.[1] 이 프레임워크는 페타바이트 이상의 대용량 데이터를 신뢰도가 낮은 컴퓨터로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해서 개발되었다. 이 프레임워크는 함수형 프로그래밍에서 일반적으로 사용되는 Map과Reduce라는 함수 기반으로 주로 구성된다.[2]현재 MapReduce는 Java와 C++, 그리고 기타 언어에서 적용이 가능하도록 작성되었다. 대표적으로 아파치 하둡에서 오픈 소스 소프트웨어로 적용된다.출처 : http://ko.wikipedia.org/wiki/%EB%A7%B5%EB%A6%AC%EB%93%80%EC%8A%A4 [..
2014.12.02 -
층화추출법
층화추출법 통계학에서, 층화추출법(層化抽出法, Stratified sampling)은 모집단을 먼저 중복되지 않도록 층으로 나눈 다음 각 층에서 표본을 추출하는 방법이다. 참고 : http://ko.wikipedia.org/wiki/%EC%B8%B5%ED%99%94%EC%B6%94%EC%B6%9C%EB%B2%95
2014.11.26 -
Redis 사용하기
Redis 자바 연동 ㄴ jedis라는 라이브러리가 있음. Maven을 사용한다면! 참고 redis.clients jedis 2.6.0 jar compile org.springframework.data spring-data-redis 1.4.0.RELEASE Jedis api : http://javadox.com/redis.clients/jedis/2.6.0/redis/clients/jedis/Jedis.html 몇몇을 살펴보자! ^-^selectpublic String select(int index)Select the DB with having the specified zero-based numeric index. For default every new client connection is automa..
2014.11.10 -
부록. 하둡설치(CDH)-클라우데라 배포판
목표 - 배포판인 클라우데라 매니저를 통해 하둡2.X 이상 버전 설치, HIVE, TAJO등 SQL ON HADOOP, JOOKEEPER 등 설치 1. 리눅스 설치 - 총 6대 설치 네임노드 1대, 보조네임노드 1대, 데이터노드 3대, etc 1대 ㅇㅅㅇ;;;; 회사에서 iaas가 지원이 되어서 로컬 pc가 아닌 iaas 로 갈아탔다!로컬셋팅에서의 조금 다른점은 proxy서버를 사용했다는 것이다. 1) ssh설정과 host설정! 참고 : 2014/09/11 - [BigDATA/Hadoop] - 부록. 하둡 설치 2) proxy설정!(/etc/wgetrc, /etc/yum.conf)vi /etc/wgetrchttp_proxy = http://ip address:portftp_proxy = http://ip..
2014.10.07 -
Tajo Setting(0.2.0-incubating)
동기 : SQL-on-Hadoop을 고민하던 차에 아래의 사이트에서 흥미를 얻었습니다.http://blrunner.com/71 환경 :OS : ubuntu서버 총 4대 ㄴ 네임노드 1대, 데이터 노드 3대 타조 0.2.0셋팅 시.. 아래처럼 먼저 제대로 파악하고 했어야했는데..덕분에 확실하게 삽질해버렸네요..ㅋㅜ.ㅜㅋHadoop 2.0.3-alpha or 2.0.5-alphaJava 1.6 or higherProtocol buffer 2.4.10.8.0은 아래와 같습니다~:DHadoop 2.2.0 or higherJava 1.6 or higherProtocol buffer 2.5.0 다운로드 :Tajo 0.2.0을 셋팅하기 위해서는...아래의 링크에서 다운을 받으시면 됩니다.http://archive.a..
2014.09.22