Another Tech IT Point Of vieW: Big Data

Mostrando entradas con la etiqueta Big Data. Mostrar todas las entradas

domingo, 12 de julio de 2020

Lectura recomendada: "La era de la disrupción digital". Javier Andrés y Rafael Doménech. Deusto.

Lectura imprescindible para conocer el punto de partida y las posibles regulaciones necesarias para conseguir de manera no hostil, unos niveles positivos en el empleo, desigualdad aceptable y un alto bienestar social ante las nuevas tecnologías de la información globales. ¿Tendremos un mundo digital mas justo?

Es digno de mención que los autores del libro, sean un tanto optimistas respecto al impacto que tendrá la disrupción digital en la economía mundial. Pero mi alineación económica respecto a su ideas, aún reconociendo en parte que los dos autores dicen "verdades como puños", es distante y no se ajusta a sus razones para creer que podremos gestionar correctamente la gran transformación social, económica y laboral que nos está viniendo como un vendaval.

El libro es y será un referente en el estudio del impacto que se producirá a causa de la presente / futura era digital, tanto en el empleo, desigualdad y bienestar social.

Realmente la lectura tiene momentos "zen", donde nuestro Kindle, nota la presión del dedo en su pantalla para, pasar páginas y para subrayar su contenido en un espacio corto de tiempo. La lectura es amena y las gráficas ayudan a entender las diferencias entre los países, respecto a PIB, Tecnología y, automatización de procesos.

En la cuarta revolución industrial, el imparable avance de la tecnología aplicada a todos los procesos inimaginables dentro de entornos empresariales, afecta y afectará directamente a todos los elementos que forman parte del bienestar individual y colectivo.

Lamentablemente, los algoritmos, el Internet de las cosas y los robots, van a destruir empleos de manera masiva. Aquellos trabajos donde la aportación del empleado no aporte valor, tanto físico como intelectual sin tomas de decisiones complejas o condicionadas a razonamientos subjetivos, serán reemplazados por un fórmula tecnológica exitosa.

Pensar que cada uno de los empleos destruidos, el mercado de manera autónoma, generará una nueva oportunidad para el colectivo afectado, es alentador. Pero yo no creo que sea posible. Todas las revoluciones industriales tenían aplicaciones especificas en sus procesos que eliminaban puestos de trabajo. Ese entorno laboral no estaba basado en economías de escala, donde los costes fijos son elevados, pero una vez terminado el mínimo producto viable (MVP), su distribución y despliegue tienden a coste cero o casi nulo. Aunque lo use toda la humanidad, ¿donde podrán desarrollar una carrera profesional si esas soluciones casi no necesitan presencia humana?

De entrada los trabajos afectados serán los repetitivos y/o suceptibles de ser automatizados. Estamos hablando de que los algoritmos, los robots, la inteligencia artificial (AI), el machine learning, los dispositivos inteligentes (IoT), las impresoras 3D y 4D y los drones, entre otros, van a construir la era digital. La pregunta no es cuándo y con qué calado, dado que hoy en día ya se está produciendo y dependerá de las curvas de adopción de las economías y sus necesidades, sino si la sociedad está preparada.

Para poder frenar la perdida en la creación del empleo, los autores hablan de las dos medidas populares, una de ellas propuesta por Bill Gates. El primer planteamiento es hacer pagar impuestos a los robots, "una tribulación específica por cada nueva máquina incorporada al proceso productivo". Los autores creen que no es la solución. Creo que si se deberá ir pensando en esta propuesta.

Llegará un momento donde deberemos hacer que todo algoritmo o ente tecnológico que sea productivo, abone seguros sociales. Puede ser mucho mas efectivo que una renta básica universal (RBU). Se requerirá mantener con capacidad adquisitiva a un porcentaje elevado de la población para conseguir el crecimiento económico requerido para mantener el sistema, dando ayudas a los segmentos de la población que queden excluidos. Pero parece que la RBU no se podrá sostener económicamente, es un lastre financiero en las arcas de las economías mundiales que ya deben actualmente gestionar las partidas presupuestarias de manera eficiente (sanidad y pensiones).

De momento los países con alta tecnificación en sus procesos productivos, no presenta una tasa de desempleo elevada, pero queda mucho camino por recorrer y la polarización en la empleabilidad humana ya muestra tensiones evidentes. "Riders" siendo falsos autónomos, los vehículos de transporte con conductor (VTC), las cajeras de los supermercados...todos estos puestos de trabajo pueden tener los días contados. Lo drones y la conducción autónoma, harán que de manera no atendida, la entrega de paqueteria ("last mile delivery") y el transporte personal en las ciudades sean gobernados y gestionados por potentes sistemas informáticos en el Front-End y en el Back-End, ejecutando algoritmos complejos.

Amazon, con su propuesta Amazon go ya ha mostrado en los EEUU, casi topándose con los límites de la ley, su idea de tener una tienda desatendida: sin cajeros ni humanos. Se deberán modificar la legislación mundial para permitir vender alcohol en supermercados donde comprar, es tan fácil como caminar por los estantes cogiendo todo lo que necesitamos para satisfacer nuestros deseos culinarios.

La mencionada disrupción digital afectará principalmente a trabajadores cualificados con un nivel de formación medio, que actualmente se dedican a tareas con rutinas codificables como apoyo de oficina y administrativo, y a ocupaciones de producción, como las relacionadas con la confección y reparación.

"La robotización se ve como una amenaza para los trabajadores pues se estima que para 2030 podría reemplazar hasta 20 millones de empleos en fábricas de todo el mundo. La disrupción digital incrementará la desigualdad social."

Por otra parte, esta revolución industrial 4.0 presenta un menor impacto en puestos de baja cualificación, en trabajos manuales y de servicio, debido a que, requieren: destreza física, reconocimiento visual, comunicación cara a cada y adaptación a las situaciones, algo que es actualmente difícilmente "clonable" a corto / medio largo plazo por el binomio hardware / software.

El libro propone consejos para evolucionar de manera positiva ante esta mas que probable problemática mundial. Promover e incentivar la adecuación del mercado laboral con cursos masivos on-line casi gratuitos (MOOCs), para hacer pivotar la carreras profesionales a la demanda del momento en el mercado laboral. Sea cual sea la edad de los candidatos.

Buscar sinergias económicas donde actualmente no podemos imaginar.

Con el nuevo paradigma de la computación cuántica, podremos dotar a los robots de verdaderas redes neuronales, donde saber si estamos hablando con un humano o con una máquina será muy difícil. Ya existe una extensa literatura que habla sobre ello y, películas de culto que nos muestran un futuro inquietante.

"Quizás tendremos que ir pensando en jugar con las emociones creadas por nosotros mismos en forma de algoritmos, que se ejecutaran en nuestras propias máquinas, para que consuman nuestros propios servicios."

Se que parece una autentica locura. Pero realmente es un Win-Win y, sería un resorte sobre el que sostener la posible pérdida de músculo económico, usando cualquiera de los indices financieras que conocemos. Solo de esta manera la distribución de las rentas se podrá realizar de manera efectiva y equitativa, pues todos aportamos al estado del bienestar ingresos a través de retenciones implícitas los ingresos de nóminas. Estos recursos podrían ser monetarios (pudiéndose usar criptomonedas) o unidades de tiempo.

Tiempos en forma de "slots" para poder realizar tareas en la población mundial longeva para poder estabilizar nuestra vida tanto física, como emocionalmente.

De nada servirá si la energía de la revolución industrial 4.0, potencialmente positiva económicamente hablando, no provoca en paralelo un refinamiento en las áreas de la educación, las regulaciones de los mercados de trabajo, bienes, servicios y, el Estado del Bienestar.

Los autores también proponen demandas populares, que no se están ejecutando en la actualidad, como son el pago de impuestos en los países donde ganan dinero aunque no tengan presencia física. Pero teniendo en cuenta que esas medidas económicas no frenen de manera directa sus deseos recurrentes en innovación.

Un libro muy interesante en su lectura, que te hace pensar que nos queda mucho por comprender, diligenciar y administrar los grandes cambios venideros. ¿Conseguiremos construir un mundo digital más justo?

La cita:

"Mucho se ha escrito sobre el potencial de la IA para reflejar lo mejor y lo peor de la humanidad. Por ejemplo, hemos visto que la IA brinda conversación y consuelo a los solitarios; También hemos visto a la IA participar en la discriminación racial. Sin embargo, el mayor daño que la IA puede causar a las personas a corto plazo es el desplazamiento del trabajo, ya que la cantidad de trabajo que podemos automatizar con la IA es mucho mayor que antes. Como líderes, nos corresponde a todos asegurarnos de que estamos construyendo un mundo en el que cada individuo tenga la oportunidad de prosperar”. Andrew Yan-Tak Ng

jueves, 24 de septiembre de 2015

Watson: El ordenador que ganó al hombre por segunda vez.

¿Como es el ordenador que venció a los concursantes de Jeopardy? Una entrada para explicar la tremenda capacidad de computación e inteligencia que la máquina de IBM dotó a Watson, para poder ganar a los concursantes del concurso televisivo.

En 1997 la primera batalla intelectual entre un hombre y una máquina (el "Deep Blue" de IBM), tuvo como desenlace la derrota del campeón del mundo de ajedrez Gary Kasparov.

Esa primera victoria de una supercomputadora, posicionada en el puesto 259 dentro de una lista de las 500 mejores, fue revalidada por el supercomputador Watson, también -como no podría ser de otra manera- diseñada por IBM, ganando el concurso Jeopardy! en Estados Unidos el febrero del 2011.

Recordaremos el formato del concurso: "Jeopardy! es un concurso de televisión estadounidense con preguntas sobre historia, literatura, arte, cultura popular, ciencia, deportes, geografía, juegos de palabras, y otros temas. El programa tiene un formato de “respuesta y pregunta”, en el cual a los concursantes se les presentan pistas en forma de respuestas, y deben dar sus respuestas en forma de una pregunta.”- fuente Wikipedia.

¿Que hace que estas máquinas sean tan potentes?

La capacidad de proceso de estas supercomputadoras se logra sumando varias decenas de servidores entre sí mediante una red de muy altas prestaciones, usando sistemas operativos escalables y programas que permitan trabajar con miles de nodos y extensas cantidades de datos.

Para poder vencer a los concursantes, la solución presentada por IBM usó software de código libre -exceptuando la base de datos propietaria DB2- y una integración de procesadores masivamente paralelos.

Watson respondía "la pregunta" usando una estructuración de la información indexada en su memoria, tomada de variopintos orígenes, siendo el motivo de esta entrada, desgranar el hardware (servidores y red) y software de la solución exitosa aportada por IBM.

Componentes hardware de Watson (servidores).

Para poder dar una gran capacidad de indexación de la información y, teniendo en cuenta que Watson no tenía conexión a internet, el servidor escogido por los investigadores de IBM fue el Power 750.

Para poder cargar toda la información en la RAM, tener una latencia de computación extrema, usaron 4 tarjetas con un procesador RISC de 8 núcleos cada uno, teniendo un total de 32 núcleos lógicos por servidor.

Diez armarios para alojar un total de 90 servidores, dotaban al sistema de 2880 núcleos (cores) de 3.25 GHz.

Todos esos servidores estaban unidos mediante un conmutador Ethernet de Juniper -de alta capacidad de proceso- a una velocidad de 10 Gbps. La unión física de los servidores se realizó con fibra óptica.

El total de memoria RAM conseguida era de unos 15 TBbytes. Los investigadores creyeron, acertadamente, que era necesario tanta memoria de acceso aleatorio para conseguir almacenar la mayor información posible y, disminuir la más que probable penalización en el caso de tener que acceder a disco (Hard Disk).

Para encontrar paralelismos con la vida cotidiana, remarcar que con todos esos TeraBytes podríamos: escuchar música durante 2 años ininterrumpidamente, visualizar más de 5 millones de fotos, ver más de 3 millones de películas o almacenar 90 millones de veces la Enciclopedia Británica.

Esta configuración de hardware permitía disponer de 80.000.000.000.000 de operaciones por segundos, es decir 80 TeraFLOPSs. En una lista de 500 superordenadores, Watson ocupaba el puesto 114.

Componentes hardware de Watson (red).

Para poder mover una cantidad ingente de datos entre los 90 servidores con una ridícula latencia, los investigadores usaron un IBM J16E con 15 tarjetas 10GBytes Ethernet.

La capacidad de computación de esta excelente caja de comunicaciones es impresionante y necesaria, para poder dotar de velocidad a la capa de software del que hablaremos en el siguiente punto.

Este mastodóntico conmutador de paquetes Ethernet, permite mover 2 billones de paquetes por segundo (pps) con un velocidad de 12.4 TeraBytes por segundo.

Con esta potencia Watson es capaz de correr con garantias los mas de 100 algoritmos, para poder llegar a la respuesta en menos de 3 segundos.

Probablemente no se le de nunca la importancia que tiene el tener una buena infraestructura LAN (red de área local), pero sin este hardware de red, Watson no podría responder con tanta rapidez, pues su software no podría procesar paralelamente mediante sus algoritmos con garantías.

Junos OS, es el sistema operativo que corre en el hardware de Juniper. El principal atractivo del producto es que permite virtualización y balanceo de carga a voluntad, teniendo controlado en todo momento la interconexión de los 2880 núcleos -con sus respectivas pilas de proceso- controladas por el sistema operativo SUSE.

El Software de Watson.

El sistema operativo que Watson usó para gestionar un repositorio de datos des-estructurados y el DeepQA, fue la distribución de Linux Suse Enterprise Server v11.

Para poder trabajar con datos estructurados, semi-estructurados o no-estructurados, usaron el Framework de Hadoop. Tenemos que pensar que Watson tenia "cargada" en RAM muchísimas enciclopedias, diccionarios, noticias, artículos, títulos literarios, bases de datos de música y bases de datos de películas.

Hadoop es un software de código libre, surge a través de un proyecto (Dug Cutting, Mike Cafarella), soporta aplicaciones distribuidas y, permite trabajar con volumenes de TeraBytes, PetaBtye o ExaBytes.

Está insipirado en la tecnologías Map&Reduce de Google y Google File System (GFS). Está desarrollado en JAVA y sus bloques principales son HDFS y Map&Reduce.

HDFS es un sistema de ficheros distribuido y Map&Reduce es el paradigma de la computación en paralelo. Para poder tener la información controlada existen componentes Hadoop que alojan la información en bases de datos no SQL, como son: HBase, Hive y Cassandra. Hadoop es el nombre de un elefante que tenía un hijo de los dos creadores.

La gran aportación realizada por IBM fue el software DeepQA. Básicamente gestionaba un centenar de algoritmos que, en base a la pregunta realizada por el presentador, hacia los siguientes pasos (apoyándose en una arquitectura UIMA) :

Analizaba la pregunta en lenguaje natural.
Identificaba fuentes alojados en sistema.
Separaba y generaba hipótesis.
Buscaba y puntuaba evidencias.
Sintetizaba los datos para dar finalmente la respuesta, dependiendo de la puntuación obtenida.

La gran potencia del sistema era la posibilidad de gestionar múltiples procesos, para poder lanzar "queries" (preguntas) y obtener decenas de hipótesis. Con estas hipótesis el software sintetizaba los resultados para poder dar una respuesta.

Para poder buscar, analizar y evaluar semánticamente o lexicográficamente la pregunta, se usaron librerías de Lucene y Lemur / Indri. Son librerías de código abierto. La gran importancia de estas librerías, es poder buscar en diferentes formatos de documento. Es decir, buscar textos que puede estar en PFD o en páginas Web, así como documentos realizados con cualquier procesador de textos.

En la imagen resumen de arriba, vemos un esquema del UIMA (Unstructed Information Management Architecture) usado por DeepQA.

Básicamente este componente software analiza y gestiona información no estructurada (texto, audio o vídeo). Permite construir una herramienta para poder extraer la información solicitada. Es licenciado por Apache y de código abierto.

¿Para que servirá Watson en el futuro?

Teniendo en cuenta que casi toda la información que circula por Internet no esta estructurada, de las decenas de TeraBytes generados cada hora, Watson crea un sistema de lenguaje natural para responder a una pregunta de manera rápida y segura.

Ejemplos de aplicación inmediata:

Call Center o asistencia telefónica: el primer nivel, responde a las preguntas que le puede hacer un usuario básico. En el caso de no poder solucionar la consulta, se pasaría a un segundo nivel con un operador humano.

Marketing / Desarrollo de producto: Predicciones en el comportamiento de las personas en la compra y utilización de bienes. Seguimiento de la post-venta mediante redes sociales y web. Seguimiento de pre-venta en redes sociales, documentos internet y encuestas físicas en tienda.

Finanzas: Predicciones en el comportamiento bursátil, teniendo en cuenta las noticias, redes sociales e indices de contratación. El hombre ya ha sido ganado por aplicaciones en una competición simulada de comercio financiero.

Sanidad: Interpretación masiva de datos en busca de patrones para poder solucionar mutaciones. Consulta de casos repetitivos para poder mejorar el diagnostico.

Recursos Humanos: Búsquedas heurísticas en los empleados para determinar horarios, proyectos o cualquier otra información que se precise.

Infinitas aplicaciones serán apoyadas con micro o mini Watsons. Pero lo que de momento no podrá hacer Watson, es tomar decisiones.

Serán utilizados como asistentes interactuados por voz, un nuevo interfaz de usuario-maquina. De esta manera la indexación de la información de múltiples fuentes, sera realizada por el asistente liberándonos de esa tediosa tarea.

Lo que no sabrán todos los sistemas IT similares a Watson es saber qué son, todavía.

La cita:

“Todas las piezas deben unirse sin ser forzadas. Debe recordar que los componentes que está reensamblando fueron desmontados por usted, por lo que si no puede unirlos debe existir una razón. Pero sobre todo, no use un martillo” — Manual de mantenimiento de IBM, año 1925

domingo, 29 de diciembre de 2013

Big Data: exprimiendo los yottabytes.

Big Data: Sistemas y herramientas que sirven para recopilar, analizar y obtener valor entre grandes volúmenes de información, buscando correlaciones y patrones ocultos para la toma de decisiones.

Antes de empezar la entrada y, para entender la magnitud de la información que trata de interpretar Big Data, a partir de un bit añadiendo ceros a la derecha, llegamos al YottaByte.

En la tabla siguiente podemos ver el factor binario de cada una de las unidades de medida múltiplos del bit.

Recordemos que el bit es "la unidad mínima de información empleada en informática, en cualquier dispositivo digital"

Para establecer algunas correlaciones de "formato átomo" a "formato digital", podemos decir que:

1 Gigabyte son 7 minutos de video en alta definición.
1,5 Petabytes es el tamaño de 10 billones de fotos en la red social de Facebook.
20 Petabytes es el tamaño de la información procesada por Google, cada día.

Para almacenar un sólo Petabyte, necesitariamos 16 bloques de almacenamiento de los utilizados por Backblaze, colocados en 2 armarios (cabinas rack 19") de más de dos metros.

Ejemplo de un bloque de almacenamiento de la empresa Backblaze. Con 45 bahías para poder alojar discos duros de 4 TBytes podemos llegar a los 180 TeraBytes. Se crean 3 RAID + 3 LVM o 3 RAID + 1 LVM, todo corriendo en Linux. Visitar la wiki de 45 drives para más información.

Para almacenar un Exabyte necesitaríamos 2000 cabinas, es decir un centro de datos. Un Yottabyte serían 1 millón de centros de datos.

Las tres "uves": volumen, velocidad y variedad.

El incremento de la variedad de los datos obtenidos de diferentes orígenes, el crecimiento constante de su volumen y, por ultimo la velocidad necesitada para el análisis inmediato de la información almacenada, es el Big Data.

Tal y como se muestra en la siguiente imagen, troceada de una infografía gentileza de Wipro, la rápida creación de la información y su posterior gestión, provocará decidir estrategias de todo tipo, enfocadas al problema a solucionar, permitiendo beneficios monetarios o sociales en el ámbito aplicado.

En el campo de la medicina, el estudio científico del genoma humano, basado en el Big data, provocará grandes avances en el diagnóstico y, su posterior tratamiento de enfermedades dañinas para la humanidad.

El vídeo siguiente de Intel, muestra una visión de Big Data en formato ameno con dibujos (en lenguaje anglosajón), ilustra la generación de la información, cuantificando su tamaño.

Es por tanto, una necesidad que será obligatoria para los próximos años, el poder exprimir los datos de múltiples fuentes de información, para aportar valor.

Muchas empresas actuales o de nueva creación, nos brindarán soluciones de hardware y software para; almacenar la información, consultarla, analizarla, y tomar decisiones de negocio con ella.

Un ejemplo de nueva empreneduría se muestra en la siguiente entrevista, con capital humano brillante, creada recientemente pero con muchos "business angels" volando a su alrededor. Es una empresa de ingeniería de software con análisis inteligente para negocios. Busca gestionar la reputación online en las redes solciales en tiempo real.

Un par de empresas que me han resultado interesantes englobadas dentro del nicho de mercado para el análisis y visualización de los datos son: alterxy y visual.ly

La primera empresa aporta herramientas de software para, en base a diferentes orígenes de la informacón, mostrar estadisticas y gráficas cruzando los datos analizados.

La segunda empesa pretende facilitar la visualización y/o comprensión de los datos trabajados, es decir hace un cóctel infográfico para poder aportar valor visual a la frialdad de los números. Es digno de mención el gran éxito de las infografías en la actual sociedad de la información.

En la práctica, ¿que nos aportará bit data?

En un estudio realizado por el MIT (Instituto Tecnológico de Massachusetts) para la detección de fraude en las prestaciones por desempleo, utilizando la información de conectividad a las centrales de los dipositivos móviles, es posible tener una trazabilidad de comportamiento tanto de una persona parada, como de una persona trabajadora.

Comparando esos patrones, se puede dictaminar si esa persona esta realmente sin trabajo o por el contrario, miente. Si el sujeto investigado, no reduce su número de llamadas o, aparece su identificador de dispositivo en diferentes "celdas" de comunicación con la operadora, con mucha distancia entre ellas, puede delatar al infractor.

Enemigo público o "Minority Report", ¿un futuro mejor?.

Un clarooscuro dentro de esta nueva era de la información, sería la utilización de los datos, para prejuzgar a las personas. El halo de trazabildad que vamos dejando, desde que nos levantamos hasta que nos acostamos -si apagamos el movil-, nos desnuda dentro de nuestra propia marea de datos.

Pero no solo de cookies vive el Big Data, pues en campos como la nanociencia y la biotecnología, sumándose a la medicina, puede y debe mejorar nuestras vidas, y no precisamente para vendernos alguna cosa o ser inspeccionados...simplemente para ser más longevos.

La cita:

«Los datos están ahí, en manos de las operadoras, en las redes sociales, en todas partes, y están desvelando desde el silencio muchas más cosas de las que uno cree», Jameson Toole.