Microsoft Research crea un sistema capaz de generar pies de fotos "inteligentes" automáticamente

Seguro que en alguna ocasión te has topado con un pie de foto confuso, incorrecto o que poco dice de la imagen a la que se refiere; e incluso es posible que, si te dedicas a publicar tus propios artículos, te resulte de lo más tedioso rellenar este apartado. Pues bien, los de Redmond han alumbrado una herramienta que pretende ponerte las cosas más fáciles.

Un trabajo publicado por Microsoft Research que se describe como un “sistema de generación de pies de foto” capaz de imitar las características narrativas del lenguaje humano, es decir, una tecnología que puede describir las capturas como si de uno de nosotros se tratase, con su contexto correspondiente. Algo en lo que empresas de la talla de Facebook, Microsoft y Google llevan tiempo trabajando pero que esta vez supera las expectativas.

En qué consiste

Se lo pasó genial

De esta manera, el sistema posee la facultad de, incluso, contar una historia completa a partir de varias imágenes, describiéndola y contándola como si de un libro se tratase. Una utilidad que, según los expertos, podría acabar convirtiéndose en una prestación que aporte un toque más humano a ciertas aplicaciones, aplicaciones de reconocimiento de voz, generar descripciones de manera automática en otros ámbitos y un largo etcétera.

Y es que la herramienta no se limita a decir, brevemente, lo que “ve”, sino que aporta un contexto más amplio de la situación que se plasma en la imagen, consiguiendo un “contexto narrativo y estilo único de narración”, ha explicado Frank Ferraro, uno de los autores de este trabajo. Para ponernos en situación nos brinda un claro ejemplo.

Su madre se sintió orgullosa de él

Así, nos plantea el siguiente caso: “imaginemos que tenemos un álbum de fotos de unos amigos que han celebrado un cumpleaños en un bar. Algunas de las primeras imágenes muestran a la gente pidiendo cerveza y bebiéndosela, mientras que en las últimas aparece alguien dormido en un sofá”, comenta.

Un sistema convencional “podría apuntar de manera sencilla algo así como hay una persona tumbada en un sofá, mientras que nuestro sistema podría incluir que probablemente esta se encuentra en tal situación porque está borracha tras tomar unas copas”. Un añadido que aporta comprensión y cierta carga emocional que también se plasman a través de las imágenes y pies de foto integrados en este artículo.

Vía | MIT Tecnology Review

En Xataka Windows | Microsoft lanza una aplicación que determina la raza de tu perro

En qué consiste

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios