Atrás

Big Data

¿Qué es el Big Data?

En la actualidad, el Big Data está presente en muchos eventos tecnológicos. Cuando se habla de él se asocia a la idea de que es necesaria su implantación para conseguir que la empresa pueda aprovechar sus características para conseguir más posibilidades de negocio.

Pero ¿qué es el Big Data? Se puede describir de muchas maneras pero, de forma general, es una tecnología que permite analizar grandes cantidades de datos de una forma rápida y potente. Además, esos datos pueden provenir de fuentes muy heterogéneas. Por ejemplo de Internet, redes sociales, las bases de datos tradicionales de la empresa, teléfonos móviles, sensores físicos, etc.

La cantidad de información que se mueve hoy en día por la red es gigantesca.  La siguiente imagen muestra el contenido que se mueve en un minuto en Internet.

Pero, ¿qué se persigue con Big Data? ¿Qué utilidad tiene acceder y conseguir los datos mencionados anteriormente? Básicamente, se trata de cotejar, mezclar y relacionar todas las fuentes de datos mencionadas antes para detectar patrones, tendencias, hábitos de consumo y compras y, en general, cualquier otro dato que pueda servir a la empresa para dirigir mejor su negocio y la posible evolución del mismo.

Es decir, a través del Big Data se captura y gestiona el valor del dato, su contenido. Además, se procesa junto con otra información para extraer un valor añadido para la empresa. Por supuesto, la Administración Pública puede usar este tipo de información para dar un mejor servicio al ciudadano, adelantándose a las necesidades demandadas y ofreciendo soluciones más imaginativas.

Otra de las características importantes del Big Data es que los datos procesados son tanto estructurados como no estructurados. En este sentido, se entiende por dato estructurado a aquel que se extrae de una fuente, como por ejemplo una base de datos tradicional. El dato no estructurado es el que se consigue de diversas fuentes como Internet, redes sociales y similares. Es decir, viene en “bruto” y hay que tratarlo para poder utilizarlo.

Tecnología utilizada

¿Qué tecnología se utiliza para el Big Data? ¿Cómo lo podemos implementar? El entorno más utilizado es Hadoop, junto con sus tecnologías asociadas.

En realidad, Hadoop es casi sinónimo del término “Big Data” para la gestión de grandes volúmenes de información de datos no estructurados.

Hadoop en un entorno que suministra librerías open source para la computación distribuida usando varios componentes. Los principales son:

  • Hadoop. Está diseñado para escalar desde unos pocos nodos a miles de máquinas, ofreciendo cada una de ellas la lógica de negocio y el almacenamiento a nivel local.
    • Dos de los puntos fuertes de Hadoop es que ha sido diseñado para ejecutarse en servidores de bajo coste y que dispone de una gran tolerancia a fallos. De hecho, en Hadoop, los fallos de hardware se tratan como una regla y no como una excepción.
  • MapReduce: Es un algoritmo de procesamiento de datos que implementa un proceso en paralelo
    • De forma simple distribuye las atareas a través de los nodos de un cluster  ejecutando una función map.
    • La función map estudia el problema, lo divide en trozos y los manda a diferentes máquinas para que todas las partes puedan ejecutarse concurrentemente.
    • Los resultados de este proceso paralelo se recogen y se distribuyen a través de distintos servidores que ejecutan una función “reduce”, que toma los resultados de los trozos y los recombina para obtener una respuesta simple

  • Hadoop Distributed File System (HDFS). Este implementa una capa de almacenamiento redundante y altamente escalable. HDFS puede almacenar gran cantidad de datos, escalar de forma incremental y sobrevivir a fallos de hardware sin perder datos:

Existen otros proyectos implicados en Hadoop, que se pueden utilizar dependiendo de las necesidades implicadas en el proyecto.

  • HBase: base de datos orientada a valores/claves que se ejecuta sobre HDFS.
  • Hive: sistema de funciones que soportan agregación de datos y consultas ad hoc sobre MapReduce.
  • Pig: lenguaje de alto nivel para gestionar flujos de datos y ejecución de aplicaciones sobre Hadoop.
  • Mahout: entorno de aprendizaje de máquinas implementado en Hadoop.      
  • Zookeeper: servicio centralizado para mantener información de configuración, gestión de nombre, y para facilitar la sincronización de servicios    
  • Sqoop: herramienta diseñada para transferir datos masivos desde Hadoop a otros entornos como bases de datos relacionales.

Tan importante y tan clave es el Big Data en la gestión actual de documentación que, precisamente, es una de las tendencias tecnológicas destacadas de este 2015. Por cierto, si trabajas con bases de datos relacionales como Oracle y quieres actualizar tus conocimientos, disponemos de una amplia oferta de cursos en esta materia. ¿Le echas un vistazo?

¿Conectamos?

Da un paso adelante con nosotros
suscribete a nuestro newsletter

Suscripción

Últimos posts publicados