BigDATA(47)
-
04. 하둡 예제 실행 및 코딩해보기!
1. 예제 실행 저번 시간에는 2014/09/11 - [BigDATA/Hadoop] - 부록. 하둡 설치 을 해보았습니다. 우선! 하둡에서 제공되어지는 예제코드와 예제 코드를 패키징한 jar를 수행 해보겠습니다. 1) 예제를 실행하기 전에 우선 다음과 같이 hadoop-env.sh 파일을 HDFS에 업로드 합니다. 그냥 따라해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -put conf/hadoop-env.sh conf/hadoop-env.sh fs 명령어를 아직은 잘은 모르지만 한번 해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -lsr conf/ -..
2014.09.15 -
부록. 하둡 설치
하둡을 설치하기전에 해야할 일! 바로 리눅스 설치.... 사실 하둡보다 리눅스 설치가 더 힘들었다.. setting~~ result : 환 경 : 맥북 프로 - Parallels setting OS - Ubuntu 14.04.1-server-amd64.iso - 2014.09.04 최신버전! 목표 : 총 4대 : 네임노드 서버(Hadoop01) 1대, 데이터노드(Hadoop02, Hadoop03, Hadoop04) 3대 openssh setting(Server, Client) - sudo apt-get install openssh-client openssh-server mac에서 터미널로 접근(ssh hadoop01@xx.xx.xx.xx) hadoop 계정 생성(홈디렉토리 지정) Hadoop ver 1...
2014.09.11 -
03. 맵리듀스 시작하기 - 맵-리듀스 개념
회사 위키에 정리해서 복사&붙여넣기를 하니..깨져서 나오는 현상이 있어서 하루패드의 마크다운 기능을 사용해보았습니다. 목 차 맵-리듀스 개념 맵-리듀스 아키텍처 1.맵-리듀스 개념 맵-리듀스 패턴(Scatter-Gather의 한 형태[Hohpe and Woolf])은 클러스터에서 많은 장비의 장점을 활용해 처리하며서 데이터가 위치한 노드에서 최대한 많은 처리가 실행되도록 작업을 조직하는 방법이다. 맵-리듀스는 구글의 맵-리듀스 프레임워크[Dean and Ghemawat]로 유명해졌다. 맵-리듀스란 이름은 함수형 프로그래밍 언어에서 컬렉션에 대해 맵과 리듀스 연산을 하는 데서 영감을 얻은 것이다. 맵리듀스 프로그래밍 모델은 단순하게 맵(map)과 리듀스(reduce)라는 두 개의 메소드로 다음과 같은 동작..
2014.09.01 -
02. About HDFS..
목차 HDFS 기초 HDFS 아키텍처 HDFS 명령어 사용 정리 HDFS 기초 HDFS는 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템 입니다. HDFS과 기존 대용량 파일 시스템(DAS, NAS, SAN)의 가장 큰 차이점은 저사양 서버를 이용해 스토리지를 구성할 수 있다는 것 입니다. HDFS는 다음과 같이 네 가지 목표를 가지고 설계됐습니다. 1) 장애 복구 HDFS를 구성하는 분산 서버는 다양한 장애가 발생할 수 있습니다. 그러나 장애를 빠른 시간에 감지하고, 대처할 수 있게 설계돼 있습니다.(Really??) HDFS는 데이터를 저장하면, 복제 데이터도 함께 저장해서 데이터 유실을 방지!..
2014.08.28 -
01. 하둡 소개
목차 빅데이터 3대 요소 하둡이란? 하둡의 과제 하둡 배포판 살펴보기 정리 빅데이터 3대 요소 1) 크기(Volume) - 기존 파일 시스템에 저장하기 어려울뿐더러 데이터 분석을 위해 사용하는 기존 DW 같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터의 양이 증가 함. 2) 속도(Velocity) - 데이터가 매우 빠른 속도로 생성되기때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리돼야 함. 3) 다양성(Variety) - 다양한 종류의 데이터들이 빅 데이터를 구성하고 있음(정형, 반정형, 비정형 데이터) 하둡이란? 하둡은 2005년에 더그 커팅(Doug Cutting)이 구글이 논문으로 발표한 GFS(Google File System)와 맵리듀스(MapReduce)를 구현한 결..
2014.08.27 -
분석 기법
통계..수학을 공부해야 데이터과학자가 될 수 있는 것인가..-0-;; 많은 알고리즘과 기법들이 있다. 큰 그림만 소개를 해본다. 자세한 내용은 하나씩 찾아서 학습을 해야 한다. 군집(Clustering) 1. K-평균 군집(K-means clustering) 분류기 1. 나이브 베이지안(Naive Bayesian) - 많은 텍스트 분류 문제에 대해 선호되는 방법 이것을 먼저 시도하고 만약 잘 작동하지 않으면, 좀 더 복잡한 무언가로 시도한다. 2. 의사 결정 나무 분류기 - if-then의 질의, 앙상블 학습 기법(여러 통계 기법들을 조합) - 트럼프 맞추기 예시 1) 의사결정을 위한 일반적인 알고리즘 CART, ID3, C4.5 etc. - CART 지니지수(Gini Index) : 0~0.5 사이의 ..
2013.11.14