Curso UIMP: Sistemas de Visión Artificial en Inteligencia Ambiental


En la primera sesión del último día del seminario/curso de la UIMP, Jesús García Herrero, miembro del Grupo de Inteligencia Artificial Aplicada (GIAA) de la Universidad Carlos III de Madrid (UC3M), nos ha hablado sobre Sistemas de vídeo en Inteligencia Ambiental (Aml), en concreto del papel de la visión artificial en los sistemas de AmI.

Como ya hemos visto en anteriores charlas durante esta intensa semana de cursos veraniegos los sistemas de AmI se basan por una parte en una computación ubicua y eventualmente móvil distribuida sobre una red inalámbrica de telecomunicación adhoc formada por sensores y protocolos de comunicación capaces de capturar, procesar y distribuir información de contexto de los usuarios del sistema, y por otra parte en el concepto de entorno inteligente cooperativo en su relación con el usuario que permite a éste interactuar con el sistema de forma natural.

La visión artificial permite por una parte capturar la información de contexto del usuario de la forma menos intrusiva posible (i.e sin que el usuario necesite llevar encima ningún artefacto pasivo o activo) y por otra permitir esa interacción natural (p.e por medio de acciones, gestos o estados emocionales) La información de conexto que se puede capturar con la imagen es muy rica (localización, identidad, actividad, …) El problema que tiene la visión artificial es que no es problema trivial extraer la información de contexto de las secuencias de imágenes de las cámaras.

NOTA: uno de los alumnos comentó, al hilo de la afirmación de que las emociones son una parte de la información de contexto que se puede extraer, que en un laboratorio del MIT estaban investigando sobre el tema y lo denominaban: persuasive computing. La información del estado emocional del usuario se podía extraer del tono de su voz, de sus gestos faciales, etc.

El omnipresente contexto

El ponente volvió a dar una definición consensuada del concepto de contexto de usuario (extraída de los resultados de las primeras reuniones celebradas en un congreso sobre el tema de context-aware) y distinguió dos tipos de contexto: el físico derivado de la información de los sensores y el social derivado del conocimiento de la identidad, agenda, preferencias, planes, citas, quiénes hay alrededor, …

NOTA: He buscado por la red congresos relacionados con la computación ubicua y/o inteligencia ambiental y he encontrado dos: (1) UbiComp (International Conference on Ubiquitous Computing) y (2) LoCA Workshops.

El contexto de usuario se debe determinar y utilizar. Para eso es útil conocer sus límites. El ponente puso una transparencia en la que se indicaba que el espacio de percepción de un ser humano está alrededor de 15 metros. Y el espacio de acción no supera el metro. Este conocimiento puede y debe de ser utilizado como principio de diseño de sistemas de interacción en AmI. La representación y localización de objetos será de vital importancia y el proceso de calibración será fundamental en la precisión con la que se localizan objetos en el contexto del usuario. Por otra parte la información proporcionada al usuario debe ser no intrusiva.

Ejemplos de Interfaces de Usuario Inteligentes

La visión artificial en AmI proporciona los mecanismos para implementar Interfaces de Usuario Adaptativa (IUA) Se dieron ejemplos de tareas necesarias para las IUAs:

  • identificación de caras (p.e a través del iris)
  • reconocimiento de gestos con las manos (p.e para sustituir mandos a distancia)

NOTA: el ejemplo concreto que se dio suponía que la mano estaba sobre un fondo uniforme de color claro para permitir distinguir perfectamente su contorno. Estas condiciones ideales de laboratorio hacen que el sistema funcione perfectamente. En la realidad el fondo puede no ser tan favorable y el sistema falla. Hay un largo camino por recorrer para que los sistemas diseñados sean robustos. Este problema se presenta en muchas aplicaciones comerciales sacadas de experimentos de laboratorio y dan un cierto desprestigio en la industria de las aplicaciones derivadas de la visión artificial (comentarios del ponente)

  • Control del PC: en función del lugar donde se mira mediante el seguimiento de los ojos del usuario
  • VirtualScreen: hacer que una pantalla de ordenador se convierta en sensible al tacto mediante el uso de las imágenes capturadas desde una cámara del movimiento de la mano y dedos del usuario sobre la pantalla real normal (esto evidentemente requiere de un gran esfuerzo de calibración para fijar con precisión el modelo geométrico del posicionamiento de la mano y extraer de forma precisa su posición de la imagen obtenida) (he buscado por la red este tipo de aplicaciones)
  • teclado virtual (paper keyboard): un teclado que se proyecta sobre una superficie y que mediante visión artificial puede ser tecleado.
  • control de dispositivos con movimientos haciendo uso de la cámara del móvil en lugar de un sensor inercial.
  • Juegos Interactivos (camBall)
  • Smart WallTangible UI: un ejemplo de realidad aumentada (augmented reality) en donde elementos físicos reales (notas pegadas en la pared) y virtuales se relacionan
  • ArcheoGuide (otro ejemplo de realidad aumentada, esta vez en el área de turismo cultural)

Problemas Básicos de Visión Artificial

Los problemas básicos que hay que afrontar a la hora de utilizar la visión por computador para el diseño de interfaces gráficos adaptativos (IUAs) son la detección y segmentación de objetos, el seguimiento de objetos (cálculo del movimiento y razonamiento temporal), el reconocimiento de actividades de usuario, la calibración de los sensores, la fusión de la información de contexto proporcionada por diversos sensores, etc.

Affective Computing

Si se quiere conseguir una interacción entre seres humanos y máquinas, es muy importante el reconocimiento y la expresión de estados emocionales como un elemento más de interacción. En la charla el ponente puso como referencia a Rosalind Picard, 1997 que fue la creadora del affective computing. También se mencionó un paper llamado russell’s theory of arousal and valence de 1980 c0mo un trabajo pionero en la formulación teórica de las emociones y su papel en la interacción entre seres humanos y entre humanos y máquinas (HCI)

Realidad Aumentada

La realidad aumentada consiste en sobre imponer a la imagen real percibida por el usuario información contextual sin que la atención se detraiga por completo de la escena real (se tiene que ser capaz de ver a través de la información que se esta mostrando) Los conceptos básicos aquí son el Monitor y el Optical Seethrough.

Técnicas de Visión Artificial

Se comentaron muy por encima las técnicas matemáticas estadísticas y de inteligencia artificial para la diferentes tareas a realizar en un sistema de visión artificial aplicado a AmI. El sistema se definió a partir del planteamiento del proyecto EasyLiving de Microsoft, como un sistema compuesto por unos sensores de los que se obtiene un modelo geométrico que es analizado y puesto en el interfaz de usuario a través del cual se pueden manejar actuadores que modifican (mediante comandos) el entorno real.

El sistema tiene que realizar primero un proceso de detección y segmentación de objetos de interés mediante la obtención de una serie de parámetros para definir la escena. El aprendizaje de parámetros con ayuda de un modelo estadístico (operaciones de marginalizar y condicionar, que es el cálculo efectivo de las probabilidades condicionadas del modelo) de dependencia de variables observadas y no observadas. El modelo se convierte en un modelo operativo en el proceso de inferencia de las variables no observadas a partir de las observaciones (extracción y reconocimiento de objetos en la escena) Se habla de aprendizaje supervisado con una fase de entrenamiento del sistema en el que se muestran las imágenes y las soluciones para que el sistema ajuste los parámetros del modelo.

La transformación de coordenadas del espacio virtual de la imagen al espacio físico es otra labor fundamental del sistema de visión artificial. Existen trucos para simplificar ese proceso como el uso de marcadores (no precisó más sobre este asunto)

El siguiente paso es identificar una serie de estados de actividad (se basa en modelos matemáticos como las cadenas de markov ocultas) a partir de las variables observadas mediante la inferencia de una secuencia de acciones implementadas como una máquina de estados finitos. En la ponencia se muestra un ejemplo llamado CAMEO (Camera Assisted Matching Event Observer) en el que se puede ver de forma muy didáctica el proceso de visión artificial desde el bajo nivel de detección de formas y objetos hasta el alto nivel de razonamiento sobre la escena. Se trata de un sistemas que identifica a los participantes de una reunión y su estado (si están sentados escuchando, si se levantan para intervenir o presentarse, si están discutiendo entre ellos o si la reunión se termina)

Los sistemas probabilísticos utilizados permiten obtener resultados que llevan incorporados un grado de incertidumbre lo cual permite medir su calidad.

NOTA: Ejemplo de reconocimiento de gestos de un grupo de investigación finlandés. Un vídeo en el que se ve a un usuario haciendo diversos movimientos con el cuerpo, los brazos y las piernas y se ve como el sistema reconoce y etiqueta esos movimientos.

Reconocimiento de emociones mediante gestos

Un paso más en las interfaces naturales (interfaces de usuario inteligentes) es tener la capacidad de reconocer las emociones del usuario e incluso de expresar emociones en su interacción con el usuario para enriquecerla. La capacidad de reconocer estos elementos no verbales está condicionada por la calidad de los datos de contexto proporcionados por los sensores del sistema AmI. Se mencionaron los llamados Agentes Emocionales.

El problema del movimiento

Las escenas de vídeo son escenas dinámicas en las cuales algunos de los objetos interesantes que hay que reconocer y sobre los que hay que inferir cosas están en continuo movimiento. Es importante poder realizar un seguimiento de los objetos determinando su estado cinético (i.e dónde están y hacia dónde van)

El ponente pone un ejemplo de la detección de una lucha entre dos personas en un recinto cerrado como puede ser una estación de metro o de tren por el que pasan muchas personas.

Este problema requiere de un modelo que permita predecir lo que va a suceder más que un modelo que permita describir una escena más o menos estática.

La detección de movimiento tiene los problemas inherentes de los sistemas de tiempo real que tienen que procesar una ingente cantidad de información (i.e se utilizan sistemas que procesan la información de color que implica procesar de forma armonizada las tres componentes de color de una imagen; además se utilizan modelos de partículas que requieren un esfuerzo computacional importante)

Esta última parte de la ponencia no fue tratada prácticamente debido a la falta de tiempo.

Un comentario en “Curso UIMP: Sistemas de Visión Artificial en Inteligencia Ambiental

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s