viernes, 23 de mayo de 2014

Principales Tecnologias de Big Data I

BIG DATA ya no es una promesa o una tendencia BIG DATA está aquí  y está provocando cambios profundos en diversas industrias.El análisis de todos los datos disponibles está creando un elemento de disrupción, es necesario tener en cuenta que el análisis de grandes volúmenes de datos , de diversas fuentes a gran velocidad y con una enorme flexibilidad puede ser un valor fundamental y diferenciador.

Se dice que el concepto de BIG DATA se basa en las cinco V que es necesario conocer:

  • Volumen:  se procesan grandes volúmenes de datos donde se convierte en un reto el capturar, almacenar y procesar la información.
  • Variedad:  todo tipo de datos estructurados y no estructurados (imágenes, videos, música, por ejemplo) obtenidos desde muy diversas fuentes.
  • Velocidad: Alta velocidad para procesar los datos, considerando además el volumen de información que se genera en redes sociales y demás plataformas digitales.
  • Veracidad: determinar la validez y calidad de los datos para determinar lo que sirve para establecer una estrategia.
  • Valor: Es fundamental tener acceso a grandes volúmenes de datos, pero a menos que podamos convertirlo en valor resulta inútil. Así que usted puede discutir con seguridad que el "valor" es la más importante V de Big Data. Es tan fácil caer en la trampa de moda y embarcarse en iniciativas de datos grandes y sin una comprensión clara de los costos y beneficios. que se olvida que hay que buscar el valor que se genera con los datos para el consumidor final, mediante el  diseño y desarrollo tanto de estrategias de comunicación personalizadas como de productos que cubran las necesidades básicas del target.

Respecto a las tecnologías que se utilizan en el mundo BIG DATA existen una serie de términos con los que nos empezamos a familiarizar y que pasamos a describir a continuación:
  • Bases de Datos NoSQL : acrónimo de Not Only SQL)  donde podemos destacar:
    • MongoDB: www.mongodb.org/ Orientada a documentos JSON, madura base de datos NoSQL ampliamente adoptada por la comunidad de usuarios de Big Data.
    • Apache Cassandra http://cassandra.apache.org/  Base de datos NoSQL creada por Facebook. Un matrimonio exitoso entre Google BigTable y Amazon Dynam 
    • Neo4j Graph Database:  http://www.neo4j.org/  Base de datos de grafos lista para ser implantada en soluciones empresariales y con un maduro ecosistema.
  • Apache Hadoop Implementación open-source de MapReduce, un paradigma para desarrollar programas de procesamiento de datos masivos en modo batch.
  • Apache Hive es un data warehouse construida en la base de Hadoop a fin de proporcionar resumenes de datos, consultas y análisis. Aunque inicialmente desarrollado por Facebook, Apache Hive está utilizado y desarrollado por otras empresas como Netflix.  Hive también se incluye en “Amazon Elastic MapReduce” en Amazon Web Services.
  • Apache Pig es una plataforma para el análisis de grandes conjuntos de datos que consta de un lenguaje de alto nivel para expresar programas de análisis, junto con la infraestructura para la evaluación de los mismos. La característica sobresaliente de los programas de Pig es que su estructura es susceptible a la paralelización, lo que a su vez le permite manejar enormes cantidades de información.
En los siguientes artículos profundizaremos más sobre cada una de estas herramientas.