Google quiere interpretar la realidad

656
0
Compartir
Un robot observa un cerebro.

Google quiere saber si el helado que tomamos en el paseo marítimo era de menta, fresa o pistacho sin tener que decírselo. También si hablamos con acento de Madrid o Buenos Aires. Incluso si vamos a contestar el correo electrónico de inmediato o vamos a dejarlo estar en la bandeja según quién sea el remitente. Además, no solo quiere conocer al usuario, sino también la realidad que le rodea. Reconocer carteles, fechas importantes o alimentos como lo haría un ciudadano local y hacer que sirva para el resto del mundo.

El buscador quiere impulsar el machine learning, una rama de la inteligencia artificial dedicada a tomar decisiones e interpretar datos basándose en patrones. John Giannandre, responsable de Investigación y Machine Intelligence, habla con la mente puesta en el futuro:

“Hace 10 años ni te imaginabas poder hablar con tu ordenador. Hoy está integrado en cada vez más productos. La traducción ha sido un paso importante, el siguiente será la visión a través de la computación. Hacer que se pueda comprender mejor lo que nos rodea a través de las máquinas”.
Greg Corrado, ingeniero que lidera un equipo de machine learning, trata de explicar en qué consiste este método: “Se trata de un programa que aprende a partir de los ejemplos. A medida que se usa, el margen de error es menor. El machine learning no es magia. Son ejemplos y preguntas bien hechas. En Google tenemos muchos doctores en Inteligencia Artificial, muy buenos, pero más que respuestas, lo que tienen son buenas preguntas”.

Inbox, la aplicación de correo electrónico que ofrecen todavía de manera experimental, acaba de añadir una novedad, la posibilidad de responder correos con lo que Google cree que el usuario diría. El nombre oficial de esta característica es Smart Reply, respuesta inteligente. A partir de las respuestas más habituales, el contenido del mensaje y la interacción con el remitente, Google sugiere una respuesta que debe aprobar antes del envío. Lo sorprendente es que el contenido de la respuesta, en inglés, se parece mucho a lo que pondría el propio usuario.

En su opinión no se trata de algo muy avanzado pero sí con gran sentido común: “Se usan matemáticas de secundaria, quizá de primer año de universidad. No hay milagros, solo herramientas. En la conferencia de machine learning no se habla de ecuaciones y parámetros, sino de métodos, ejemplos y cómo afecta el factor humano”.

Como suele ocurrir en el mundo real, lo difícil son las excepciones. Donde cualquier humano ve una fiesta de cumpleaños, Google ve una imagen con humanos de tamaño pequeño, globos y una tarta. Google también sabe que si aparece un pavo en la mesa, hay varias personas alrededor y es finales de noviembre, seguramente estarán celebrando la festividad de Acción de Gracias. Tom Duerig, se encarga del departamento de Computer Vision, donde se intenta que las máquinas aprendan a discernir entre diferentes objetos y situaciones. “Tomamos datos de diferentes puntos y los unimos, con patrones de geometría y colores. El resto es hacer mejores definiciones de qué es cada objeto o crear situaciones para poder tomar decisiones de manera más flexible. En las fotos estamos intentando ser más sensibles a las texturas, porque marcan la diferencia”, sostiene.

Google Fotos ha sido el primer paso, la aplicación permite buscar diferentes términos dentro del álbum del móvil de manera inmediata. Desde su nacimiento en junio ha hecho grandes progresos. Cada vez distingue entre más lugares, vehículos, animales y comidas. Peter Warden habla de un concepto más concreto de deep learning, que sirve para explorar dentro de lo que descubren y ofrecer mejores resultados. En Fotos, por ejemplo, se refleja en la selección de imágenes que aparecen al abrir la aplicación: “Queremos que la gente se sienta bien, a gusto. Escogemos momentos que en su momento te hicieron sentir bien: vacaciones, actividades deportivas, bodas, reuniones familiares. Sabemos qué fotos se tomaron en un evento con otros familiares”.

Uno de los primeros experimentos de Google en este campo es Instant Camera, una aplicación que se ha integrado en el traductor. Basta con hacer una foto del menú de un restaurante de Río de Janeiro para leer al momento el plato del día en inglés. “En algunos idiomas no es tan complicado, pero si alguien viaja a China o Japón, lo aprecia muchísimo. Parece mentira que convertir unas letras en algo comprensible cambie tanto la experiencia”, expone Otavio Good, el ingeniero brasileño que desarrolla esta lente mágica.

La misión de Maya Gupta tiene que ver con valoraciones. Dirige Glassbox Machine Learning, una división que pretende ayudar a tomar mejores decisiones. “A partir de los ejemplos, añadimos una capa de sentido común”, explica. Uno de los primeros experimentos es un programa para saber qué precio debe tener un coche o una casa solo con ver la imagen. “Tenemos en cuenta el tamaño de la casa, pero es muy importante la localización. Una casa de tres millones aquí puede tener un precio inferior al millón en Texas. En el caso de los coches, el año de fabricación define mucho su valor, pero un cambio menor, como el color, puede generar una gran oscilación. Es lo que tenemos que aprender a corregir”:

A pesar de todo este esfuerzo, Google reconoce que le queda una frontera. La más humana, la del lenguaje oral. Con Google Now han demostrado que pueden recibir órdenes, pero no mantienen una conversación. La investigadora francesa Françoise Baufays asume que, a pesar de las numerosas pruebas y avances, el muro está ahí: “La promesa que hicimos en los noventa, no se ha cumplido. Dijimos que nos entenderían, y los ordenadores pueden entender bien el sentido de un documento, pero no mantener una conversación fluida, normal, con doble sentido y giros. Aunque estamos en ello”.

elpais

No hay comentarios

Dejar una respuesta