THINK BIG: enero 2015

Apache Spark es un framework de código abierto, de procesamiento de datos e paralelo que complementa Hadoop para hacer más fácil el desarrollo de aplicaciones Big Data unificadas que combinan procesamientos batch, streaming, y análisis interactivos de todos sus datos.

Spark ofrece tal potencia que para analistas y científicos de datos que se basan en algoritmos iterativos (por ejemplo, la agrupación / clasificación), Spark es 10-100 veces más rápido que MapReduce en entrega de datos lo que posibilita amplias posibilidades en las tomas de decisiones de negocio.

Spark es:

Muy Veloz: Procesamiento de datos hasta 100 veces más rápido que MapReduce, tanto-en la memoria y en el disco

Potente: escribir aplicaciones paralelas sofisticados rápidamente en Java, Scala, o Python sin tener que pensar en términos de sólo "mapa" y "reducir" los operadores

Integrado: Spark está profundamente integrado con CDH (Distribución Haddop de Cloudera), capaz de leer todos los datos en HDFS y desplegar a través de Cloudera , procesos en tiempo real.

Mediante el centro de datos empresarial de Cloudera incluyendo Spark, se puede implementar flujos de trabajo y analíticas poderosas de extremo a extremo, que comprenden el procesamiento de los datos batch, consulta interactiva, minería de datos en profundidad, y aplicaciones en tiempo real desde una única plataforma común. No es necesario mantener sistemas separados - con datos separados, metadatos, seguridad, gestión - que conducen rápidamente a la complejidad y a costes elevados.

Un esquema de la arquitectura de Spark , lo podemos ver en la siguiente imagen:

Spark está escrito en Scala por lo que antes de instalar Spark , hay que instalar Scala. Una guía de instalación de Spark la podemos encontrar aquí http://java.dzone.com/articles/apache-spark-fast-big-data

Además posee wrappers para Python y Java.

Se trata además de un proyecto muy activo y con un número de contribuidores en continuo crecimiento.

Finalmente reseñar que existe amplia documentación para su aprendizaje totalmente gratuita.

THINK BIG

martes, 27 de enero de 2015

Apache Spark, el nuevo protagonista de Big Data