Tutorial de Hadoop

1. Historia de Hadoop

Hadoop fue creado por Goug Cutting, es el creador de Apache Lucene, la biblioteca de búsqueda de texto ampliamente utilizada. Hadoop se ha originado de Apache Nutch, que es un motor de búsqueda web de código abierto.

1.1. Origen del nombre Hadoop

Hadoop no tiene un significado, ni es un acrónimo. El creador del proyecto Doug Cutting explica cómo lo llamaron Hadoop –

1.2. Cómo entró en escena Hadoop

Según Mike Cafarella y Doug Cortar un índice de mil millones de páginas costaría millones de dólares en hardware y un costo de funcionamiento mensual de 30.000 dólares.

Nutch se inició en el 2002 con un sistema de rastreo y búsqueda, sin embargo Doug creía que la arquitectura no se ampliaría a miles de millones de páginas en la web debido a los problemas de almacenamiento.

Ellos tenían una pista:tuvieron una idea fantástica con el lanzamiento del papel en 2003. Este documento describía la arquitectura del sistema de archivos distribuidos de Google, conocido como GFS. Los desarrolladores holandeses creían que GFS resolvería sus necesidades de almacenamiento (para rastrear e indexar toda la web). GFS liberaría el tiempo que se gastaba en tareas administrativas como la gestión de los nodos de almacenamiento. En 2004 planificaron la creación de un sistema de archivos de código abierto: Nutch Distributed FileSystem(NDFS).

1.3. Introducción de MapReduce

En 2004, Google publicó el documento que introdujo MapReduce en el mundo. Después de este lanzamiento los desarrolladores holandeses comenzaron a encontrar la manera de usar MapReduce y NDFS en los algoritmos de Nutch. A mediados de 2005 Nutch comenzó a ejecutar MapReduce y NDFS en conjunto. En febrero de 2006 lo convirtieron en un proyecto independiente y lo llamaron Hadoop.

1.4. Hadoop 2008 éxito

En enero de 2008 Hadoop hizo su propio proyecto de alto nivel en Apache, después de confirmar su éxito. Para entonces ha sido utilizado por muchas otras compañías de alto nivel además de Yahoo!, como Last.fm, Facebook y el New York Times.

En abril de 2008, Hadoop rompió un récord mundial al convertirse en el sistema más rápido para clasificar terabytes de datos. Hadoop clasificó un terabyte en 209 segundos. El mismo año Google informó que su implementación de MapReduce ordenó un terabyte en 68 segundos.

1.5. HDFS (Sistema de Archivo Distribuido Hadoop)

HDFS es el sistema de archivos de distribución de Hadoop. El NDFS es renombrado como HDFS después de la implementación de Hadoop.

2. Hadoop en Yahoo!

1) 2004-Versiones iniciales de lo que ahora es el Sistema de Archivos Distribuidos Hadoop y MapReduce implementado por Doug Cutting y Mike Cafarella.
Diciembre de 2005-Neerlandés se portó al nuevo marco. Hadoop funciona de forma fiable en 20 nodos.
2) Enero de 2006-Doug Cutting se une a Yahoo!.
3) Febrero de 2006-El proyecto Apache Hadoop comenzó oficialmente a apoyar el desarrollo autónomo de MapReduce y HDFS.
4) Febrero de 2006-Adopción de Hadoop por el equipo de Grid de Yahoo!
5) Abril de 2006-Comparación (10 GB/nodo) ejecutada en 188 nodos en 47,9 horas.
6) Mayo de 2006-Yahoo! estableció un grupo de investigación Hadoop-300 nodos.
7) Mayo de 2006 – Ordenar punto de referencia ejecutar en 500 nodos en 42 horas (mejor hardware que el punto de referencia de abril).
8) Octubre de 2006 – El grupo de investigación alcanza los 600 nodos.
9) Diciembre de 2006 – La clasificación de referencia se ejecuta en 20 nodos en 1,8 horas, 100 nodos en 3,3
horas, 500 nodos en 5,2 horas, 900 nodos en 7,8 horas.
10) Enero de 2007-Cluster de investigación alcanza 900 nodos.
11) Abril de 2007-Clusters de investigación-2 grupos de 1000 nodos.
12) Abril de 2008 – Ganó el punto de referencia de 1 terabyte en 209 segundos en 900 nodos.
13) Octubre de 2008 – Carga de 10 terabytes de datos por día en los grupos de investigación.
14) Marzo de 2009-17 cúmulos con un total de 24.000 nodos.
15) Abril de 2009 – Ganó la clasificación de los minutos clasificando 500 GB en 59 segundos (en 1.400 nodos) y la clasificación de 100 terabytes en 173 minutos (en 3.400 nodos).
-Owen O’Malley

3. Apache Hadoop

Hadoop es ampliamente conocido por su sistema de distribución de archivos (HDFS) y MapReduce. Voy a cubrir todos y cada uno de los términos relacionados con él en detalle, puedes encontrar a continuación los términos relacionados con Hadoop.

  1. MapReduce
  2. Común
  3. Avro
  4. HDFS
  5. Cerdo
  6. ZooKeeper
  7. Sqoop
  8. Colmena
  9. HBase

3.1. Enlaces importantes

Página de inicio de Apache Hadoop

Hadoop libera

Referencias:

  1. Building Nutch: Búsqueda de código abierto: http://queue.acm.org/detail.cfm?id=988408
  2. Hadoop wiki: http://wiki.apache.org/hadoop/PoweredBy
  3. Clasificación de 1PB con MapReduce: http://googleblog.blogspot.in/2008/11/sorting-1pb-with-mapreduce.html
  4. NyTimes: Autoservicio, Diversión Prorrateada de Súper Computación!: http://open.blogs.nytimes.com/2007/11/01/self-service-prorated-super-computing-fun/
Rate this post

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio