Maxine
Máxine: creación de escenarios virtuales.
Maxine es un potente motor dirigido por scripts para la gestión en tiempo real de entornos 3D virtuales y personajes virtuales 3D. El sistema soporta la interacción multimodal usuario-agente virtual en tiempo real a través de diferentes canales: texto, voz (lenguaje natural), ratón/teclado/pantallas táctiles e imágenes.
Los humanos virtuales 3D Maxine están dotados de animaciones corporales y faciales, sincronización labial y voz sintetizada. El estado emocional del agente puede variar durante la interacción y modula las expresiones faciales y corporales, las reacciones, las respuestas y la voz del agente. Los humanos virtuales Maxine se han utilizado con éxito en distintos ámbitos, como presentadores virtuales en tiempo real, asistentes para el control de entornos domóticos, agentes pedagógicos para la enseñanza de infografía o intérpretes virtuales.
Los módulos Maxine: Gestión de los agentes
El «Módulo Sensorial» integra toda la información procedente de las entradas al sistema. Se ha prestado especial atención a la creación de una interacción multimodal con el usuario, a través del ratón, del texto gracias a la consola y al lenguaje de scripting, de la voz mediante órdenes o preguntas sencillas captadas por un micrófono y de la webcam para obtener de la cara del usuario información como su estado emocional.
El «Módulo de Percepción» se encarga de extraer la información relevante presente en la información de entrada. La interpretación de la entrada de voz y de la imagen del usuario es de especial interés. El motor de reconocimiento de voz se ha construido sobre la base del software Loquendo ASR (Audio Speech Recognition). El objetivo de la entrada de imagen es detectar el estado emocional del usuario.
El «Módulo Deliberativo» analiza la información procedente del Módulo de Percepción y se encarga de la toma de decisiones. Básicamente, se encarga de generar las respuestas a las preguntas del usuario y de clasificar sus emociones. En ambos casos, se requiere una base de conocimientos estática (respuestas fijas) y dinámica (preguntas precedentes). El sistema de motor de respuestas se basa en la tecnología de chatbot de la Artificial Intelligence Foundation que utiliza CyN bajo licencia GNU GPL. En nuestro caso, el sistema se ha diseñado para conversaciones cortas y específicas. La base de conocimientos del personaje virtual se almacena en archivos AIML (Artificial Intelligence Markup Language).
El «Módulo Generativo» se encarga de establecer las reacciones del avatar a las entradas del sistema. Recibe información del Módulo de Percepción (en el caso de acciones puramente reactivas) o del Módulo Deliberativo (cuando se plantean decisiones). Por el momento, el comportamiento se basa en un esquema de acción/reacción y está gestionado por una máquina de estados jerárquica. Este módulo juega con los movimientos corporales, las expresiones faciales y la voz del avatar. En los tres casos, la respuesta se modifica en función del estado emocional del avatar.
El «Módulo Motor» gestiona y supervisa la realización de acciones de bajo nivel que implican, en particular, la ejecución, sincronización y mezcla de las animaciones corporales y faciales del avatar, la sincronización labial y de las secuencias de ejecución, etc. La técnica de animación esquelética se utiliza tanto para la animación facial como para la corporal y la nomenclatura seguida es la de la norma VHML.
