domingo, 29 de diciembre de 2013

Big Data: exprimiendo los yottabytes.

Big Data: Sistemas y herramientas que sirven para recopilar, analizar y obtener valor entre grandes volúmenes de información, buscando correlaciones y patrones ocultos para la toma de decisiones.




Antes de empezar la entrada y, para entender la magnitud de la información que trata de interpretar Big Data, a partir de un bit añadiendo ceros a la derecha, llegamos al YottaByte

En la tabla siguiente podemos ver el factor binario de cada una de las unidades de medida múltiplos del bit.

Recordemos que el bit es "la unidad mínima de información empleada en informática, en cualquier dispositivo digital"




Para establecer algunas correlaciones de "formato átomo" a "formato digital", podemos decir que:

  • 1 Gigabyte son 7 minutos de video en alta definición.
  • 1,5 Petabytes es el tamaño de 10 billones de fotos en la red social de Facebook.
  • 20 Petabytes es el tamaño de la información procesada por Google, cada día.

Para almacenar un sólo Petabyte, necesitariamos 16 bloques de almacenamiento de los utilizados por Backblaze, colocados en 2 armarios (cabinas rack 19") de más de dos metros.



Ejemplo de un bloque de almacenamiento de la empresa Backblaze. Con 45 bahías para poder alojar discos duros de 4 TBytes podemos llegar a los 180 TeraBytes. Se crean 3 RAID + 3 LVM o 3 RAID + 1 LVM, todo corriendo en Linux. Visitar la wiki de 45 drives para más información.

Para almacenar un Exabyte necesitaríamos 2000 cabinas, es decir un centro de datos. Un Yottabyte serían 1 millón de centros de datos.




Las tres "uves": volumen, velocidad y variedad.


El incremento de  la variedad de los datos obtenidos de diferentes orígenes, el crecimiento constante de su volumen y, por ultimo la velocidad necesitada para el análisis inmediato de la información almacenada, es el Big Data.

Tal y como se muestra en la siguiente imagen, troceada de una infografía gentileza de Wipro, la rápida creación de la información y su posterior gestión, provocará decidir estrategias de todo tipo, enfocadas al problema a solucionar, permitiendo beneficios monetarios o sociales en el ámbito aplicado.




En el campo de la medicina, el estudio científico del genoma humano, basado en el Big data, provocará grandes avances en el diagnóstico y, su posterior tratamiento de enfermedades dañinas para la humanidad.

El vídeo siguiente de Intel, muestra una visión de Big Data en formato ameno con dibujos (en lenguaje anglosajón), ilustra la generación de la información, cuantificando su tamaño.






Es por tanto, una necesidad que será obligatoria para los próximos años, el poder exprimir los datos de múltiples fuentes de información, para aportar valor. 

Muchas empresas actuales o de nueva creación, nos brindarán soluciones de hardware y software para; almacenar la información, consultarla, analizarla, y tomar decisiones de negocio con ella.

Un ejemplo de nueva empreneduría se muestra en la siguiente entrevista, con capital humano brillante, creada recientemente pero con muchos "business angels" volando a su alrededor. Es una empresa de ingeniería de software con análisis inteligente para negocios. Busca gestionar la reputación online en las redes solciales en tiempo real.

Un par de empresas que me han resultado interesantes englobadas dentro del nicho de mercado para el análisis y visualización de los datos son: alterxy y visual.ly

La primera empresa aporta herramientas de software para, en base a diferentes orígenes de la informacón, mostrar estadisticas y gráficas cruzando los datos analizados. 




La segunda empesa pretende facilitar la visualización y/o comprensión de los datos trabajados, es decir hace un cóctel infográfico para poder aportar valor visual a la frialdad de los números. Es digno de mención el gran éxito de las infografías en la actual sociedad de la información.


En la práctica, ¿que nos aportará bit data?


En un estudio realizado por el MIT (Instituto Tecnológico de Massachusetts)  para la detección de fraude en las prestaciones por desempleo, utilizando la información de conectividad a las centrales de los dipositivos móviles, es posible tener una trazabilidad de comportamiento tanto de una persona parada, como de una persona trabajadora.

Comparando esos patrones, se puede dictaminar si esa persona esta realmente sin trabajo o por el contrario, miente. Si el sujeto investigado, no reduce su número de llamadas o, aparece su identificador de dispositivo en diferentes "celdas" de comunicación con la operadora, con mucha distancia entre ellas, puede delatar al infractor.


Enemigo público o "Minority Report", ¿un futuro mejor?.

Un clarooscuro dentro de esta nueva era de la información, sería la utilización de los datos, para prejuzgar a las personas. El halo de trazabildad que vamos dejando, desde que nos levantamos hasta que nos acostamos -si apagamos el movil-, nos desnuda dentro de nuestra propia marea de datos.

Pero no solo de cookies vive el Big Data, pues en campos como la nanociencia y la biotecnología, sumándose a la medicina, puede y debe mejorar nuestras vidas, y no precisamente para vendernos alguna cosa o ser inspeccionados...simplemente para ser más longevos.


La cita:

«Los datos están ahí, en manos de las operadoras, en las redes sociales, en todas partes, y están desvelando desde el silencio muchas más cosas de las que uno cree», Jameson Toole.