La verdadera promesa de la inteligencia artificial es automatizar la interpretación de la información. Pero… ¿Cómo lo va a hacer?
Para empezar a comprender qué es la inteligencia artificial, resulta imprescindible preguntarse ¿qué es la inteligencia? Concepto complejo donde los haya, no existe una definición universalmente aceptada, pues comprende tantos procesos y atributos que dificultan una definición única y acotada. No obstante, una buena aproximación puede basarse en la capacidad de pensar, comprender, razonar, emplear el uso de la lógica y, sobre todo, de resolver problemas.
Con la inteligencia artificial, sucede lo mismo. No existe una definición única. De las múltiples maneras de definirla, la que más me gusta es la que el inventor estadounidense y director de ingeniería de Google desde 2012, Ray Kurzweil, propuso en 1990: La inteligencia artificial es el arte de crear máquinas con capacidad de realizar funciones que efectuadas por personas requieren de inteligencia.
El concepto de inteligencia artificial se remonta al nacimiento de la informática, siendo el término acuñado por John McCarthy en una propuesta de investigación escrita en 1956. En dicha propuesta, se sugería que “podría alcanzarse un progreso significativo si se consiguiera que las máquinas resolvieran los problemas que hasta el momento sólo podían resolver las personas… si un grupo de científicos seleccionados cuidadosamente trabajaran juntos durante un verano”.
Colosal ingenuidad, sumada a unas promesas mucho mayores de lo que la tecnología era capaz de proporcionar, condenaron el término al ostracismo intelectual entre los investigadores, prefiriendo estos sustituirlo por otros más discretos como “sistemas expertos”, o “redes neuronales”. El punto de inflexión se produjo en 2012, cuando The ImageNet Challenge , un concurso de investigación promovido por la universidad de Stanford, devolvió la inteligencia artificial a primera plana.
ImageNet no es otra cosa que una base de datos virtual que contiene millones de imágenes etiquetadas manualmente. El concurso reta a los participantes a desarrollar técnicas de reconocimiento y etiquetado automático de imágenes.
En 2010, el equipo ganador clasificó correctamente las imágenes en un 72% de las ocasiones. Dos años después, un equipo liderado por Geoffrey Hinton, de la Universidad de Toronto alcanzó un 85% de aciertos, gracias a una nueva técnica denominada deep learning (aprendizaje profundo). En 2015, se superó por primera vez el umbral de acierto humano (95% de media), consiguiendo el equipo ganador un nivel de acierto del 96%.
El aprendizaje profundo es una rama del aprendizaje automático (machine learning) que emplea una gran potencia de cálculo para tratar representaciones de datos, de los que puede distinguir y establecer jerarquías y patrones. En un futuro nada lejano, su principal implicación será la automatización la interpretación de la información. Convertir información sin estructurar en conceptos significativos a través del reconocimiento de imágenes y la comprensión de textos. Esto significa que, por ejemplo, en lugar de que un médico analice una radiografía, y únicamente se centre en el corazón para buscar posibles problemas, la inteligencia artificial podrá escanear el cuerpo humano al completo, lo que va a permitir intervenir más deprisa. Tan rápido como se detecte un problema.
El aprendizaje profundo está basado en una estructura muy simplificada del sistema nervioso. Su arquitectura consiste en redes neuronales artificiales que tratan de reproducir el proceso de solución de problemas del cerebro humano. Una red neuronal está formada por capas. La información entra por la capa de entrada y una serie de neuronas artificiales organizadas en capas “escondidas”, procesan la información, aplicándola distintos valores numéricos aleatorios o “pesos” y enviando el resultado a la capa de salida. Una red profunda, con muchas capas escondidas es capaz de distinguir con gran detalle las propiedades de los datos de entrada. Entrenar una red supone ajustar los pesos internos de las neuronas, de manera que sea capaz de responder del modo deseado cuando se introduzca una entrada concreta.
A principios de los 90, la utilidad de las redes neuronales artificiales se reducía a tareas tan simples como reconocer números escritos a mano. Dos décadas después, varios grupos de investigadores descubrieron que las unidades de procesamiento gráfico (GPUs), se adecuaban exponencialmente bien para ejecutar algoritmos de aprendizaje profundo, dotándolos de una velocidad 100 veces superior. Los mismos chips que se emplean para recrear mundos imaginarios, resultan fantásticos para ayudar a los ordenadores a comprender el mundo real a través del aprendizaje profundo.
Cuanto más profunda sea una red, mayor será su capacidad de abstracción y de alcanzar mejores resultados. El aprendizaje profundo está demostrando ser de gran utilidad para resolver una gran amalgama de problemas de diversa índole. Google lo emplea para refinar los resultados de su algoritmo de búsqueda, mejorar la interpretación de las peticiones de voz que realizan los usuarios a su asistente personal Google Now, mejorar su traductor… y ayudar a sus vehículos autónomos a comprender mejor su entorno. El sistema informático Watson de IBM, que es capaz de responder a preguntas enunciadas en lenguaje natural consiguió superar a los mejores concursantes en el famoso programa de la televisión estadounidense Jeopardy! Asimismo, el aprendizaje profundo está siendo puesto a prueba para desarrollar nuevos, fármacos por compañías farmacéuticas como Merck.
Predecir y prevenir desde problemas médicos hasta atascos serán dos de los mayores avances que nos aportará la inteligencia artificial en un futuro muy próximo.
Existen varios métodos de aprendizaje profundo. Vamos a ver cómo funciona cada uno:
Aprendizaje supervisado
Es la técnica más usada. Consiste en entrenar a un sistema a través de conjuntos de ejemplos clasificados. Uno de los ámbitos de aplicación habitual son las listas de filtrado de spam, para las cuales se construyen enormes bases de datos con ejemplos de mensajes clasificados como spam, o no spam. Se puede entrenar a un sistema de aprendizaje profundo empleando los ejemplos y ajustando sus pesos dentro de la red neuronal para mejorar iterativamente su precisión.
La mayor ventaja de este método es que no se precisa de la intervención humana para elaborar una lista de reglas, ni para programar su implantación en un código. El sistema aprende directamente de los datos clasificados.
Los sistemas entrenados mediante el uso de información etiquetada, se emplean actualmente para clasificar imágenes, reconocer comandos de voz, detectar transacciones fraudulentas con tarjetas de crédito, identificar virus y spam, e hipersegmentar la publicidad online. Aplicaciones en las que la respuesta correcta es conocida por un gran número de casos anteriores. Facebook es capaz de reconocer y etiquetar a tus amigos cuando subes una foto, y acaba de lanzar un sistema que describe el contenido de las imágenes para usuarios ciegos.
Existen enormes reserva de datos susceptibles de ser cribados por el aprendizaje supervisado. La adopción de esta tecnología está permitiendo que empresas dedicadas a la seguridad informática, el marketing y los servicios financieros, se reinventen como compañías de inteligencia artificial.
Aprendizaje no supervisado
Consiste en entrenar a una red exponiéndola a un gran número de ejemplos, pero sin decirla qué buscar. Por el contrario, la red aprende a reconocer características y a agruparlas con ejemplos similares, detectando así grupos ocultos, vínculos, o patrones dentro de los datos.
El aprendizaje no supervisado se emplea para buscar cosas de las que se desconoce su apariencia, como por ejemplo, el rastreo de patrones de tráfico en busca de anomalías que pudieran corresponderse a un ciberataque, el análisis de de grandes cantidades de reclamaciones de seguros para detectar fraudes, o agrupaciones de caras peludas que resultan ser gatos en Youtube.
Aprendizaje reforzado
Es un híbrido entre el aprendizaje supervisado y el aprendizaje no supervisado. Se basa en la psicología conductista y consiste en entrenar a una red neuronal para que interactúe con su entorno, retroalimentándola ocasionalmente con una recompensa. Su entrenamiento consiste en ajustar los pesos de la red para buscar la estrategia que genere mayores recompensas de forma más consistente.
DeepMind es el mejor ejemplo del éxito de este enfoque. En febrero de 2015, publicó un estudio en Nature, describiendo un sistema de aprendizaje reforzado capaz de de aprender a jugar a 49 juegos clásicos de Atari, asistiéndose únicamente de los píxeles de la pantalla y la puntuación. El sistema aprendió a jugar a todos y cada uno de ellos desde cero y alcanzó un nivel similar, o superior al humano en 29 de ellos. En marzo de 2016, su programa AlphaGo, derrotó a Lee Sedol, el segundo mejor jugador del mundo de Go.
Demmis Hassabis, cofundador y CEO de DeepMind, trabaja actualmente el desarrollo de un nuevo método denominado aprendizaje de transferencia (transfer learning), el cual permitiría a un sistema de aprendizaje reforzado aprovechar los conocimientos adquiridos anteriormente, en lugar de tener que volver a entrenarlo desde el principio en cada situación. Es, en definitiva, lo que hacemos las personas por defecto y sin esfuerzo. Un niño puede decir que un Formula 1 es un coche, sin haber visto ninguno antes. La informática, todavía no puede hacerlo.
MetaMind, la startup recientemente adquirida por Salesforce, está trabajando en un enfoque similar, al llamado aprendizaje multitarea, en el cual la misma arquitectura de la red neuronal se usa para resolver distintos tipos de problemas, de tal manera que la experiencia adquirida en un tema, sirva para solucionar mejor el siguiente, aunque sea distinto. Se trata de explorar diversos tipos de arquitecturas modulares que sean capaces de ingerir conjuntos de afirmaciones y responder preguntas sobre las mismas deduciendo las conexiones lógicas existentes entre ellas.
El objetivo a largo de las investigaciones más avanzadas es construir una inteligencia artificial general (artificial general intelligence), un sistema capaz de resolver una amplia variedad de problemas. Los más optimistas confían conseguir en una década alcanzar un nivel similar al humano.
El hecho de que los humanos podamos aprender de pequeñas cantidades de información, sugiere que es posible desarrollar la inteligencia sin necesidad de enormes conjuntos de datos, como están demostrando las startups Numenta y Geometric Intelligence.
De primeras, estos rápidos avances que hemos comentado se presentarán en mejoras incrementales de los servicios online que usamos a diario. Los resultados de las búsquedas serán más precisos, y las recomendaciones mejor personalizadas. Sin darnos cuenta, en menos de lo que nos imaginamos, prácticamente “todo” vendrá con inteligencia artificial incorporada. Las interfaces evolucionarán más allá de los iconos y las ventanas, hacia modelos conversacionales y predictivos, lo que las hará accesibles a personas que no puedan leer, o escribir.
Estas mejoras continuas, pueden devenir en cambios bruscos, en el momento en el que se supere el umbral en el que las máquinas sean capaces de realizar tareas que antes sólo podían realizar los humanos. Casos como los coches que se autoconducen, o los robo-advisors, son tan sólo un par de ejemplos de cómo la automatización afectará tanto a trabajadores poco cualificados, como a aquellos con altas cualificaciones, cuyas ocupaciones sean rutinarias.
El margen para la aparición avances inesperados es holgado. La tecnología va años luz por delante de las regulaciones, y la sociedad no va a ver con buenos ojos muchos de los progresos que nos esperan. Llegados a este punto, toca hablar de la ética del algoritmo, tema para el próximo post.