Spark ofrece tal potencia que para analistas y científicos de datos que se basan en algoritmos iterativos (por ejemplo, la agrupación / clasificación), Spark es 10-100 veces más rápido que MapReduce en entrega de datos lo que posibilita amplias posibilidades en las tomas de decisiones de negocio.
Spark es:
- Muy Veloz: Procesamiento de datos hasta 100 veces más rápido que MapReduce, tanto-en la memoria y en el disco
- Potente: escribir aplicaciones paralelas sofisticados rápidamente en Java, Scala, o Python sin tener que pensar en términos de sólo "mapa" y "reducir" los operadores
- Integrado: Spark está profundamente integrado con CDH (Distribución Haddop de Cloudera), capaz de leer todos los datos en HDFS y desplegar a través de Cloudera , procesos en tiempo real.
Mediante el centro de datos empresarial de Cloudera incluyendo Spark, se puede implementar flujos de trabajo y analíticas poderosas de extremo a extremo, que comprenden el procesamiento de los datos batch, consulta interactiva, minería de datos en profundidad, y aplicaciones en tiempo real desde una única plataforma común. No es necesario mantener sistemas separados - con datos separados, metadatos, seguridad, gestión - que conducen rápidamente a la complejidad y a costes elevados.
Un esquema de la arquitectura de Spark , lo podemos ver en la siguiente imagen:
Spark está escrito en Scala por lo que antes de instalar Spark , hay que instalar Scala. Una guía de instalación de Spark la podemos encontrar aquí http://java.dzone.com/articles/apache-spark-fast-big-data
Además posee wrappers para Python y Java.
Se trata además de un proyecto muy activo y con un número de contribuidores en continuo crecimiento.
Finalmente reseñar que existe amplia documentación para su aprendizaje totalmente gratuita.