¿Qué tema estas buscando? Escribe aquí

lunes, 4 de enero de 2016

¿Qué es Big Data?

¿Qué es Big Data?
“Big Data” es una frase que ha saltado directamente del cuarto de computación de alto rendimiento de algún oscuro departamento de IT hacia los hashtags de Twitter. Desde entonces es una frase que encontramos habitualmente en ponencias y presentaciones de proveedores de virtualización de procesamiento y almacenamiento… pero ¿qué significa exactamente?[1]

Síguenos también en  Facebook / Twitter 

Big Data se refiere a conjuntos de datos que crecen tan rápidamente que no pueden ser manipulados por las herramientas de gestión de bases de datos tradicionales[2].La ciencia de los datos y el Big Data son conceptos de moda en el sector tecnológico. Las implicaciones del Big Data se relacionan con la capacidad de recolectar, almacenar y procesar datos, y de hecho, los retos que plantea no son nuevos, ya que históricamente ha habido bastantes encuentros notables con Big Data.

Un ejemplo interesante es el censo de los Estados Unidos. El realizado en 1880 tardó ocho años en contabilizarse; y en aquel tiempo, se calculó que el de 1890 tardaría más de 10 años, considerando el crecimiento de la población. Esto era un problema de Big Data de la época, hasta que Herman Hollerith apareció con un invento que hizo posible contabilizar los datos del censo de 1890 en un año y que sería la simiente de la IBM. Hollerith logró esto mediante el desarrollo de una nueva y eficaz forma para recoger y almacenar los crecientes volúmenes de datos; las tarjetas perforadas y una máquina de tabulación eléctrica que podía leer estas y calcular resultados.

En la actualidad, el gran volumen de datos se ha convertido en un tema interesante en la industria de la tecnología de la información, puesto que aborda uno de los problemas cruciales que desafía a las empresas. El mundo de los datos cambia y los clientes enfrentan el reto de administrar el volumen de estos, cada vez más grandes, variado de datos y generado a mayor velocidad. La cantidad de datos almacenada aumenta de manera exponencial gracias al surgimiento  de nuevas fuentes como, por ejemplo, la identificación por radiofrecuencia (RFID), internet y los medios sociales. Según IDC, para el año 2020, se almacenará hasta 35 zettabytes (35 millones de terabytes) de datos en el mundo, lo que representa una cantidad  44 veces más grande que la del 2009. La mayoría de los analistas coincide en que hasta el 85% de los datos capturados no está estructurado (como textos, blogs, videos, fotos). Asimismo, la velocidad a la que son capturados aumenta mientras que los clientes desean tomar decisiones en tiempo real según los datos de transmisión. Por ejemplo, un importante minorista tiene una trasmisión de RFID de los niveles de inventario y quiere decidir respecto a la reposición o los precios de inmediato.

En tanto que el volumen, la variedad y al velocidad de los datos explotan, el costo para almacenar y procesarlos se reduce de manera considerable en el hardware y el software. En las últimas décadas, el hardware ha tenido un crecimiento exponencial en la capacidad de almacenamiento y la informática, lo que ha reducido los costos a casi cero. En la actualidad, se puede comprar un terabyte de almacenamiento por menos de  UU$100. Esto representa un costo 100 veces menor en tan solo 10 años. Por su parte, en el caso del software, las tecnologías emergentes, como Hadoop y MapReduce, permiten a los clientes un gran almacenamiento distribuido y computar agrupaciones en el hardware  y software de la industria, lo que cambia de manera significativa la economía del análisis y el procesamiento de datos. Por primera vez, el costo para almacenar y procesar datos es menor que su futuro valor percibido. Por ejemplo, una organización puede optar ahora por almacenar un año de datos aunque no sepa para que pueda necesitarlos, mientras que antes se descartaba todo lo que más de un mes. Este enfoque de “guardar todo” y el cambio en la economía han producido una nueva ola del aprendizaje automático y análisis avanzado, como las redes neuronales, los algoritmos genéticos, los análisis de gráfico y los modelos de precisión en petabytes de datos, lo que plantea a los clientes nueva preguntas acerca del negocio.

Estas preguntas indagan sobre análisis web y social: ¿Cuál es la opinión sobre mi producto o marca?, ¿Qué tan efectiva es mi campaña en línea?, ¿a quién llego?, ¿Cómo puedo optimizar mi negocio o apuntar a la audiencia adecuada? Estas preguntas requieren una conexión con fuentes de datos en directo. Puede que una empresa de transporte grande use fuentes activas del tiempo atmosférico y patrones de tráfico para definir con precisión los envíos y rutas de los camiones, lo que se refleja en mejores tiempos de entrega y ahorros en costos. Pero, hay otras inquietudes que requieren un análisis avanzado. Por ejemplo, algunas empresas financieras usan el aprendizaje automático para lograr mejores algoritmos de detección de fraudes que suponen ubicación y frecuencia de la carga para incluir también patrones de compra personalizados: esto se traduce en una mejora experiencia del usuario[3].


[2] IBM ¿Qué es el Big Data? [Visto el 03/01/2016 desde: https://goo.gl/lpTvnD]
[3] Big Data Mundo Virtual. Fascículo de Diario Gestión N° 10.Primera publicación,2014.

No hay comentarios:

Publicar un comentario en la entrada

Gracias por tu comentario, te pido que no olvides de unirte a nuestro facebook.