¿Computadoras capaces de ver como los seres humanos?


Se necesitan sólo unos cuantos pixels para poder identificar el sujeto de una imagen, de acuerdo con investigadores de especialistas en informática del célebre Massachusetts Institute of Technology (MIT). El resultado, un software que facilita la identificación automatizada de imágenes online, debido a que es capaz de reducir la cantidad de datos necesarios para reconocer el contenido de una imagen.
Así, la búsqueda y reconocimiento de imágenes que contengan el mismo contenido se torna mucho más veloz que con sistemas actuales. La idea es que con este hallazgo sería posible lograr la identificación automatizada de imágenes online y, en última instancia, sentar las bases para que las computadoras puedan ver cómo los seres humanos.
El español Antonio Torralba , del Laboratorio de Inteligencia Artificial e Informática del MIT, ha estado intentando descubrir cuál es la cantidad de información más pequeña (o sea, la representación numérica más corta) que se pueda obtener de una imagen para que ésta nos de información útil sobre su contenido.
Obtener esa representación más corta sería un paso importante para catalogar miles de millones de imágenes en Internet de manera automática. En la actualidad, la única manera de buscar imágenes se basa en capturas de texto que la gente introduce a mano en cada fotografía que sube a una página web. Además, muchas imágenes ni tan siquiera tienen ese pequeño texto.
La identificación automática proporcionaría, además, una manera de indexar fotografías que descargadas desde cámaras digitales a las computadoras sin tener que recorrer a mano cada una de las capturas.

Y, la cereza del postre: un robot sería capaz de entender los datos que le llegan desde sus cámaras o hacerse una idea de dónde se encuentran físicamente.
Estamos intentando encontrar códigos muy cortos para las imágenes -comenta Torralba-, de manera tal que si dos imágenes tienen una secuencia de números similar probablemente también pertenezcan, más o menos, al mismo objeto en la misma composición.
Si una imagen ha sido identificada por un título, entonces, otras imágenes que tengan el mismo código numérico probablemente muestren el mismo objeto (como un auto, un árbol o una persona) y el nombre o título original asociado con esa imagen puede ser transferido a otras automáticamente.
Para encontrar cuál es la cantidad de información de una imagen que se necesita para reconocer el sujeto de la fotografía, Torralba y su equipo redujeron gradualmente varias imágenes a resoluciones cada vez más bajas. De esta manera, comprobaron cuántas imágenes se podían identificar en cada nivel de resolución.
Somos capaces de reconocer qué hay en las imágenes, incluso si la resolución es muy baja, porque conocemos dichas imágenes, comenta. La cantidad de información necesaria para identificar la mayor parte de las imágenes es de 32x32 pixels. Sin embargo, la imagen más pequeña mostrada por Google, por ejemplo, tiene 100x100.
Incluso la cámara digital más barata nos proporciona imágenes formadas por varios megapixels de datos (cada píxel contiene 24 bits). Torralba y sus colegas han creado un sistema matemático que reduce los datos de cada fotografía, de tal modo que muchas imágenes pueden ser reconocidas incluso cuando la representación numérica que contienen queda reducida a entre 256 y 1024 bits de datos.

Usando esa reducida cantidad de datos por imagen es posible buscar fácilmente fotografías similares entre millones de imágenes en una base de datos (con un simple PC) en menos de un segundo. Y, a diferencia de otros métodos con los que primero es necesario dividir la imagen en secciones, éste que ahora se presenta usa la imagen entera.
Por ejemplo, utilizando su sistema de codificación, Torralba pudo representar un conjunto de 12,9 millones de imágenes tomadas de Internet en tan sólo 600 megabytes. La herramienta es pública y está disponible en la web.
Por supuesto, un sistema que reduce drásticamente la cantidad de información no puede acercarse a una identificación perfecta. Por el momento, funciona con imágenes sencillas. Sin embargo, su nivel de acierto es ciertamente impresionante en el caso de objetos sencillos, como una flor o un edificio.



PD. A menos que especifique lo contrario, todas estas notas (informacion, imagenes, videos, etc.) son tomadas de la red, y tienen un autor y una propiedad intelectual la cual se respeta. Solo se colocan en este Blog con el proposito de dar a conocer y debatir sobre estas ideas.

No hay comentarios:

Publicar un comentario

Por favor, haga aquí su comentario. Para mi es importante. Gracias.