본문 바로가기

DB

Apache Hadoop


 웹사이트: http://hadoop.apache.org/

아파치 하둡은 데이터 집중적인 분산 애플리케이션을 위한 무료 라이센스하에 제공되는 소프트웨어 프레임워크이다.

 

읽을 거리

developerworks :  Big Data로 새 비즈니스 통찰력 유도하기 (한글)

데이터가 이러한 양으로 존재할 때 처리 한계점 중 하나는 데이터를 이동하는 데 막대한 양의 시간이 걸린다는 점이다. Apache Hadoop은 반대의 방식이 아니라 데이터로 작업을 이동하는 고유의 접근방식으로 이러한 우려를 해결하기 위해 새롭게 부상하였다. Hadoop은 두 개의 개별적이지만 통합된 런타임으로 구성된 클러스터 기술이다. HDFS(Hadoop Distributed File System)는 데이터의 이중 스토리지를 제공하고, 맵/리듀스(map/reduce)로 사용자 제출된 작업이 병렬적으로 실행될 수 있도록 HDFS에 저장된 데이터를 처리한다.

developerworks :  아파치 하둡 맵리듀스 기반 애플리케이션 구현하기 Part 1

하둡은 어떻게 맵과 리듀스 연산을 실제적으로 행하는가?(How Map and Reduce operations are actually carried out)