martes, 27 de enero de 2015

Apache Spark, el nuevo protagonista de Big Data

Apache Spark es un framework de código abierto, de procesamiento  de datos e paralelo que complementa Hadoop para hacer más fácil el desarrollo de aplicaciones Big Data unificadas que combinan procesamientos batch, streaming, y análisis interactivos de todos sus datos.

Spark ofrece tal potencia que para analistas y científicos de datos que se basan en algoritmos iterativos (por ejemplo, la agrupación / clasificación), Spark es 10-100 veces más rápido que MapReduce en entrega de datos lo que posibilita amplias posibilidades en las tomas de decisiones de negocio.

Spark es:
  • Muy Veloz: Procesamiento de datos hasta 100 veces más rápido que MapReduce, tanto-en la memoria y en el disco
  • Potente: escribir aplicaciones paralelas sofisticados rápidamente en Java, Scala, o Python sin tener que pensar en términos de sólo "mapa" y "reducir" los operadores
  • Integrado: Spark está profundamente integrado con  CDH (Distribución Haddop de Cloudera), capaz de leer todos los datos en HDFS y desplegar a través de Cloudera , procesos en tiempo real.
Mediante el centro de datos empresarial de Cloudera incluyendo Spark, se puede implementar flujos de trabajo y  analíticas poderosas de extremo a extremo, que comprenden el procesamiento de los datos batch, consulta interactiva, minería de datos en profundidad, y aplicaciones en tiempo real desde una única plataforma común. No es necesario mantener sistemas separados - con datos separados, metadatos, seguridad, gestión - que conducen rápidamente a la complejidad y a costes elevados.

Un esquema de la arquitectura de Spark , lo podemos ver en la siguiente imagen:


Spark está escrito en Scala por lo que antes de instalar Spark , hay que instalar Scala. Una guía de instalación de Spark la podemos encontrar aquí http://java.dzone.com/articles/apache-spark-fast-big-data

Además posee wrappers para Python y Java.

Se trata además de un proyecto muy activo y con un número de contribuidores en continuo crecimiento.

Finalmente reseñar que existe amplia documentación para su aprendizaje totalmente gratuita.