Dónde alojar tu cluster Hadoop

3 minutos de lectura

04/02/2019

Otras noticias de interés


Suscríbete a nuestra newsletter

Hoy en día las ventajas de alojar tu clúster Hadoop en un cloud público son claras: flexibilidad, escalabilidad y reducción de costes. No es necesario comprar y mantener hardware en local con todos sus costes asociados de adquisición y mantenimiento y nos aporta una escalabilidad sin precedentes: ya no estamos atados al número de equipos disponibles, es posible aumentar y reducir los recursos del clúster según necesidades. Si en algún momento la carga de trabajo del clúster aumenta o disminuye en momentos puntuales es posible ajustarlo a las necesidades de cada momento y como el pago se realiza solo por los recursos empleados el coste se ajustaría a las necesidades reales.

Las tres grandes plataformas más conocidas que permiten el alojamiento de clústers Hadoop son Amazon Web Services (AWS), Microsoft Azure y Google Cloud Platform (GCP). Las tres son muy similares en cuanto a las posibilidades que ofrecen, pero cada una tiene pequeñas particularidades que nos harán decantarnos por un proveedor u otro.

 

La primera característica a analizar es la cantidad de tipos de máquinas disponibles en la plataforma. Normalmente cuanto mayor sea el número mejor se podrán ajustar los recursos de la máquina a las necesidades reales. En este caso AWS es el proveedor que más tipos ofrece, aunque se trata de una característica no crítica en la mayoría de los casos.

La flexibilidad en el coste sí es algo a muy tener en cuenta a la hora de seleccionar un proveedor. En el caso de AWS existe la posibilidad de reservar instancias o contratar instancias tipo Spot que permiten un ahorro de hasta el 90% respecto a las instancias bajo demanda. Azure dispone de mecanismos parecidos mediante reserva y GCP aplica descuentos automáticamente por uso continuado. 

Por último, la característica que puede hacer que nos decantemos por una plataforma u otra es el soporte Hadoop gestionado que nos brindan. En el caso de AWS el servicio gestionado se llama Elastic MapReduce (EMR), en Azure se llama HDInsight y en GCP se llama DataProc. EMR y DataProc emplean el núcleo de Apache Hadoop (EMR también soporta la distribución MapR). El servicio HDInsight de Azure en cambio emplea la distribución Hortonworks que nos permite aplicar el conocimiento ya adquirido o el que se vaya a adquirir en otras plataformas.

 

Si nuestra intención es instalar nuestra propia distribución y no emplear el servicio gestionado, cualquiera de las tres plataformas permite contratar máquinas virtuales. La flexibilidad de esta solución será mayor que emplear el servicio gestionado, podremos configurar y adaptar la plataforma a nuestras necesidades. Aparte de tener en cuenta solo las características del clúster Hadoop es interesante también valorar el ecosistema que nos proporciona el proveedor elegido. En este aspecto el proveedor más destacado es AWS, tanto por los servicios que ofrece directamente como por los servicios ofrecidos por terceras empresas debido a su gran popularidad.

Uno de los servicios que ofrecen las tres plataformas que puede resultar interesante para una clúster Hadoop es el almacenamiento y archivo de datos. En el caso de AWS disponemos del servcio S3 para el alojamiento de datos, Blob Storage en Azure y Cloud Storage en GCP. Las características y el precio ofrecido por los tres están a la par en este caso, pero nos puede interesar decantarnos por uno u otro dependiendo del software Hadoop que se vaya a emplear y su integración con el clúster. La integración con servicios de bases de datos NoSQL también puede ser un punto a tener en cuenta a la hora de seleccionar un proveedor. Las bases de datos tipo NoSQL nos pueden resultar útiles para almacenar datos del clúster Hadoop similar a lo que se haría con el almacenamiento de archivos. En este caso tambien los tres proveedores ofrecen soluciones comparables: DynamoDB en AWS, DocumentDB y Managed MongoDB en Azure y BigTable y BigQuery en GCP.

 

Después de valorar todos los puntos mencionados anteriormente hay un proveedor que destaca sobre los demás, y es Amazon Web Services. Se trata de una de las plataformas más populares y que más servicios ofrece en su ecosistema. Dispone de servicios destinados al procesamiento de Big Data como Kinesis para datos en tiempo real, Lambda para procesamiento por eventos y AWS IoT para la ingestión y procesamiento de grandes cantidades de datos producidos por dispositivos IoT.

 

 

Pide una demostración


El usuario autoriza a Bigda Solutions S.L. a gestionar los datos facilitados en el presente formulario a efectos de comunicación. Bigda Solutions S.L. se compromete a tratar dichos datos en virtud de lo dictado por la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal.