radio uned: terceras jornadas MAVIR


Hoy, como casi todos los miércoles, he escuchado el programa de radio UNED dentro de la Revista de Informática. El tema tratado hoy ha sido el de las terceras jornadas de divulgación del consorcio de investigación MAVIR, financiado por la Comunidad de Madrid, formado por empresas privadas y grupos de investigación universidades, y que tiene su foco de investigación principal en las tecnologías de procesado del lenguaje natural y sus aplicaciones a la búsqueda de información multimedia en la web. Entre sus actividades se encuentra la organización de seminarios relacionados con los temas de investigación. El consorcio está coordinado por la UNED.

Por cierto que en la página web del consorcio hay una sección de dedicada a todas las emisiones de radio de la UNED que se han referido a las jornadas que el consorcio ha celebrado desde hace un par de años. También se tiene acceso a las presentaciones de la mayoría de los ponentes de dichas conferencias.

Esta es la referencia de la emisión:

Programa: REVISTA DE INFORMÁTICA
28/01/2009, de 06:30 a 07:00

Título: Lenguajes y Sistemas Informáticos

Contenido:

III Jornadas Mavir
_________________________________
Hablan de las terceras jornadas de este consorcio, una red de investigación formada por grupos de investigación, universidades y pymes. Sus líneas de investigación se centran en las tecnologías del lenguaje humano y la comunicación científica a través de la web

Participante/s:

Ana García Serrano, Profesora (UNED)
Victor Peinado Herencia (UNED)

Las jornadas científicas MAVIR han tratado el acceso a la información multimedia, por ejemplo encontrar imágenes (médicas) de forma eficiente. O recuperación de imágenes para documentalistas o periodistas. También sistemas que analizan imágenes de vídeo (texturas, colores, formas y siluetas)

Se pone el ejemplo de Google o Yahoo! como ejemplos de buscadores textuales y cómo funcionan. Las nuevas necesidades requieren manejar también información multimedia como ocurre en flickr. Aparecen nuevas dimensiones que en el texto no existen. Existe una distancia entre la descripción natural de las imágenes y la forma de almacenamiento de dichas imágenes, es lo que se llama la brecha. Se intentan investigar formas de almacenar y marcar las imágenes o vídeos con información (anotación) automática que se parezca a cómo se describe de forma natural por parte de un ser humano.

La búsqueda textual se hace de forma estadística, si la palabra buscada aparece mucho en un marcaje o descripción entonces se incluye en la respuesta. También se incluyen otros parámetros como cuántas veces se ha accedido a la imagen o el vídeo (lo popular que es) para colocarlo en posiciones más privilegiadas en la lista de resultados. Esto provoca que algunas búsquedas aparezcan muy abajo. Otros parámetros como el color y textura de las imágenes, tampoco son muy útiles.

La anotación es la clave. Pero se pueden cometer errores en la anotación. Existe un sistema analizador morfosintático que se llama GRAMPAL que permite obtener la información necesaria para el marcado a partir de la descripción del lenguaje natural aunque tenga errores. La información sobre este sistema se encuentra en la web del consorcio, en el catálogo de productos desarrollados.

Otro producto interesante es un sistema de búsqueda basado en el establecimiento de un diálogo en el que se va obteniendo la información necesaria para la búsqueda, llamado SQUASH (A Question Answering System for Spanish)

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s