O Hadoop cresceu de um pequeno subprojeto para um grande framework para computação distribuída em poucos anos.
O projeto Hadoop é hoje um projeto independente dentro da hierarquia de projetos da fundação Apache. Durante muito tempo ele foi um subprojeto do Lucene mas seu crescimento acelerado e sua grande versatilidade justificaram a sua elevação a TPL (Top Level Project) da Apache.
Os componentes mais conhecidos do Hadoop são seu sistemas de arquivos distribuídos (HDFS) e o MapReduce. Adicionando valor a esta infraestrutura básica muitos outros projetos surgiram. Estes projetos facilitam a utilização do Hadoop assim como adicionam abstrações de alto nível para facilitarem a criação de sistemas mais complexos. Os subprojetos atuais são:
MapReduce
O Hadoop MapReduce é um modelo de programação e framework para criação de aplicações que rapidamente processam vastas quantidades de dados em paralelo através de grandes clusters de computadores comuns.
HDFS
Hadoop Distributed File System (HDFS) é o sistema básico de armazenamento utilizado por aplicações Hadoop. O HDFS cria réplicas de blocos de dados e que são distribuídos no cluster para permitir computações extremamente rápidas.
Hive
Hive é uma infraestrutura de data warehouse construído em cima do Hadoop que provê ferramentas que facilitam a criação de relatórios e a análise de quantidades gigantescas de dados armazenados em arquivos Hadoop.
Pig
O Pig é uma plataforma de processamento de dados em larga escala que possui uma linguagem de alto nível e um “compilador” que transforma scripts feitos nesta linguagem em programas MapReduce.
HBase
É um banco de dados NoSQL distribuído e orientado a colunas. Usa como sistema de arquivos o HDFS e permite tanto processamento de dados em batch utilizando MapReduce como queries online.
ZooKeeper
Um serviço de coordenação distribuído. O ZooKeeper fornece primitivas básicas para construção de sistemas distribuídos.
Chukwa
É um sistema distribuído para coletar e analisar logs dinamicamente.
Fonte: Escalabilidade.com