¿Qué es Big Data y para qué sirve?

Entendemos como Big Data las cantidades de datos a gran escala que sobrepasan la capacidad del software convencional para ser capturadas, procesadas y almacenadas en un tiempo razonable.

también engloba las infraestructuras, tecnologías y servicios que han sido creados para poder gestionar esta gran cantidad de información.

El concepto de Big Data se encuentra muchas veces hermanado con otros términos como Data Science, Analytics o Data Mining, que expresan igualmente el objetivo de extraer valor de los datos. Es también conocida la definición de Big Data como las tres V, que representan el gran Volumen de datos que debe ser capaz de tratar, la Velocidad con la que puede procesar esos datos, y la Variedad de formas que pueden tomar los mismos. En ocasiones se hace énfasis en el objetivo del Big Data añadiendo una cuarta V, la del Valor que se obtiene por la información extraída de los datos.

 

¿Cómo funciona?

tienen como objetivo extraer información de valor mediante el análisis de grandes conjuntos de datos. Este análisis se fundamenta en técnicas matemáticas, generalmente basadas en la estadística, y que provienen de campos diversos como la minería de datos, el aprendizaje automático, el análisis de series temporales o la investigación operacional.

Mediante estas técnicas pueden explotarse datos de cualquier naturaleza: bases de datos, registros numéricos, texto libre, actividad en una red social, audios, imágenes, vídeos… Mediante los tratamientos adecuados, cualquier tipo de datos es susceptible de ser analizado. Escenarios donde haya diversidad de datos en diferentes formatos también podrán tratarse mediante estrategias de integración de la información, enriqueciendo así la solución.

Tipos de Big Data

A la hora de clasificar los “grandes datos” podemos hacerlo según dos criterios: procedencia y estructura. Así, según su procedencia, los datos pueden llegar desde distintas fuentes, entre otras:

Web y Redes Sociales:

Información disponible en Internet como contenido Web, generada por los usuarios en su actividad en las redes sociales o información de búsquedas en buscadores.

Machine-to-Machine (M2M):

Datos generados a partir de la comunicación entre sensores inteligentes integrados en objetos de uso cotidiano.

Transacciones: incluye registros de facturación, llamadas o transacciones entre cuentas.

Biométricos:

Datos generados por tecnología de identificación de personas mediante reconocimiento facial, de huellas dactilares o mediante información genética.

Generados por personas:

A través de correos electrónicos, servicios de mensajería o grabaciones de llamadas.

Generados por organizaciones tanto públicas como privadas:

Datos relacionados con el medioambiente, estadísticas gubernamentales sobre población y economía, historiales clínicos electrónicos, etc.

Por otro lado, según su estructura, el dato puede ser:

 

Estructurados:

Datos que tienen definidos su formato, tamaño y longitud, como las bases de datos relacionales o Data Warehouse.

Semiestructurados:

Datos almacenados según una cierta estructura flexible y con metadatos definidos, como XML y HTML, JSON, y las hojas de cálculo (CSV, Excel).

No estructurados:

Datos sin formato específico, como ficheros de texto (Word, PDF, correos electrónicos) o contenido multimedia (audio, vídeo, o imágenes).


 Carlos Humberto
Especialista Seguridad Informática
 09 de Noviembre 2019
 Técnicas de validación y Seguridad al Navegar