En este enfoque, la empresa tendrá un equipo para almacenar y procesar grandes datos. Para el almacenamiento, los programadores tendrán la ayuda de su elección de proveedores de bases como Oracle, IBM, etc. En este enfoque, el usuario interactúa con la aplicación que, a su vez, controla la parte de almacenamiento de datos y análisis.
Este método funciona bien con las aplicaciones de las que menos voluminoso proceso datos que pueden ser atendidas por los servidores de la base estándar, o hasta el límite del procesador que se está procesando los datos. Pero cuando se trata de hacer frente a enormes cantidades de datos escalable, es una frenética tarea de procesar los datos a través de una base de datos única botella.
Google soluciona este problema mediante un algoritmo llamado MapReduce. Este algoritmo divide la tarea en partes pequeñas y los asigna a muchos equipos, y recopila los resultados de ellos que si se integra, forma el conjunto de datos de resultado.
Utilizando la solución aportada por Google, Doug y su equipo desarrollaron un proyecto de Código Abierto llamado HADOOP.
Hadoop ejecuta las aplicaciones utilizando el algoritmo MapReduce, donde los datos se procesan en paralelo con los demás. En resumen, Hadoop se utiliza para desarrollar aplicaciones que podrían hacer un análisis estadístico de grandes cantidades de datos.