Para mí, seguir los principios open source es más una cuestión de sentido común que un credo en particular

Chief architect en Cloudera, director de la Apache Foundation, creador de cuatro proyectos open source que han cambiado para siempre el mundo de las búsquedas en Internet y big data, nueve patentes en su haber, estuvo en Apple, Excite y Xerox… ¿es necesario decir más?

Uno de sus amigos lo describe como alguien capaz de compaginar muy bien su vida personal con la laboral. No está mal para ser el creador de Hadoop, Nutch, Lucene y Avro; cuatro tecnologías open source que han revolucionado el mundo de las búsquedas online y big data. Doug Cutting siempre ha estado interesado en los sistemas de búsqueda. Por eso en 1999 escribió Lucene (una biblioteca para recuperar información desde grandes conjuntos de datos), que fue su primer proyecto open source de envergadura. Por aquellos años, Internet ya había alcanzado un tamaño tan descomunal que los directorios (la forma de encontrar páginas web de aquel momento) dejaron de tener sentido y los buscadores se convirtieron en la forma de localizar lo que se necesitaba. Aunque Lucene quizá no le suene demasiado, es la tecnología de búsquedas que hay detrás de la Wikipedia. Con los años, Lucene acabó en la Apache Foundation, con la que Cutting ha tenido una estrecha relación.

La culpa es de Google

No se trata de una acusación (más) a los del buscador de Mountain View. Pero es cierto: Google tiene la “culpa” del nacimiento de Hadoop. Al menos de forma indirecta: a finales de 2004 dos empleados de Google (Jeffrey Dean y Sanjay Ghemawat) publicaron un trabajo sobre un algoritmo llamado MapReduce, titulado MapReduce: simplified data processing on large clusters. En esa época, Doug Cutting estaba trabajando justamente en la escalabilidad de Nutch, otro de sus proyectos open source, una araña para buscar información por Internet. El problema es que no conseguía que fuera lo suficientemente potente como para poder realizar búsquedas en toda Internet. En aquel momento, Cutting trabajaba en Yahoo! y se percató de las implicaciones que tenía la publicación de Dean y Ghemawat para las búsquedas online.

MapReduce fue la solución que Cutting necesitaba para Nutch y dio pie al nacimiento de Hadoop, al que Cutting le puso el nombre de un elefante de juguete de su hijo, que es el que aparece en su logotipo.

Sin embargo, no acaban ahí las “culpas” de Google en relación con Hadoop, porque el sistema de ficheros de Nutch, llamado NDFS, que sirvió como base para Hadoop, también fue inspirado por un proyecto de Google Labs, el Google File System.

El rey de Hadoop

Siendo el inventor de Hadoop junto con Mike Cafarella, Cutting abandonó Yahoo! a finales de 2009 para convertirse en el chief architect de Cloudera.

Doug Cutting es un acérrimo defensor de la filosofía open source y cree que tiene su hueco particular en el mundo empresarial. No obstante, opina que, sin duda, habrá diferentes herramientas propietarias en la parte superior del stack de Hadoop que sobrevivirán a la larga, pero duda que ninguna de las que hay en la base de Hadoop tenga muchas posibilidades de prosperar.

Hadoop es una tecnología que se encuentra en Facebook, Twitter, eBay o Yahoo y prácticamente se ha convertido en el sinónimo de big data. En cualquier caso, Cutting sugiere que “lo que funciona mejor y provoca las menores decepciones es echar un vistazo al negocio y coger aquellas frutas que ya están al alcance de la mano. Es decir, un proyecto discreto que puede ahorrarle dinero a la compañía o hacer que lo gane. Esa es la forma de aprender a usar Hadoop”.

A pesar de la visión de Enterprise hub que promueve Cloudera, Doug Cutting piensa que eso es una meta, no el primer paso: “No hay que intentar llevar a la empresa a un Enterprise hub. No al principio. Es mejor comenzar con una solución puntual de bajo riesgo y luego hacerla crecer a partir de ahí (al igual que nuestra comprensión de Hadoop)”.

Parece que el creador de Hadoop lo tiene claro: antes de big viene small.