lunes, 11 de febrero de 2008

Interfaces basadas en voz

Introducción.

La Interfaz de usuario es una forma de comunicación entre un usuario y la computadora, una forma de manipular archivos, manejar herramientas, configurar el equipo y cualquier trabajo computacional en donde el usuario intervenga.
Estamos acostumbrados a oír o leer sobre interfaces gráficas de usuario (GUI) o comandos de línea (interfaces no gráficas). De igual manera existen las interfaces basadas en voz, o por sus siglas en inglés: Voice User Interface (VUI) que es una interfaz de usuario que utiliza el reconocimiento de voz o diálogo para comunicar al usuario con la máquina.

La VUI aún esta en desarrollo y perfeccionamiento, es aquí donde los estudios de usabilidad son importantes, ya que la interfaz tiene que ser desarrollada de acuerdo al área a la que será destinada, por ejemplo, si ésta esta dirigída al público en general es importante que exista suficiente ayuda para un usuario principiante. Por el contrario, si esta destinada a un grupo pequeño de personas especializadas en este área, la interfaz deberá enfocarse en la productividad más que en la ayuda.

Principios del diseño de una interfaz basada en voz

El propósito de desarrollar una interfaz que esté basada en el reconocimiento de voz para funcionar es que ésta sea como una persona que sirva al usuario fielmente, es decir, que sea de gran ayuda para el usuario y que además sea respetuoso. Las interfaces que utilizan el reconocimiento de voz para interactuar con el usuario, generalmente eran consideradas como inteligencia artificial y nada más, está claro que es necesario desarrollar agentes inteligentes para tener en sí una interfaz basada en voz, pero cada vez está más cercano el hecho de tener computadoras con las cuales cualquier usuario pueda interactuar normalmente mediante la voz.

De acuerdo con Lotus Speech Initiative, existen ciertos principios que deben ser considerados al momento de desarrollar una interfaz basada en voz. El primer grupo de principios están orientados a la interacción natural y cortes de la máquina con el usuario.
  • El sistema deberá poder entender el lenguaje natural del usuario, es decir, deberá entender referencias que el usuario haga de algún pronombre. También deberá poder manejar comandos y preguntas que no necesariamente tengan información completa para ejecutarse, pero además, el sistema deberá pedir especificaciones cuando los comandos sean ambiguos o pedir información necesaria cuando así sea requerido.
  • El sistema no deberá interrumpir al usuario cuando este esté hablando, a menos que exista alguna emergencia o alguna notificación de alta prioridad.
  • El usuario podrá interrumpir al sistema, excepto en las situaciones de alta prioridad, si no es así, el sistema deberá detenerse cuando el usuario hable.
  • No deberán existir ciclos de preguntas, es decir, el usuario no deberá estar forzado a responder preguntas generadas por el sistema para seguir adelante en otros procesos.
  • Si el sistema tuviera algo que decir que no fuera respuesta a alguna pregunta del usuario, el sistema deberá pedir permiso para hablar, a menos que sea alguna cuestión de alta prioridad.
  • El sistema deberá poder manejar respuestas de cortesía como “gracias” o “de nada”, ya que existirán usuarios que las realicen por costumbre, así mismo el sistema deberá generar respuestas de cortesía.


El segundo grupo de principios está destinado a la confianza que el usuario tendrá al sistema y su dependencia hacia éste. Los usuarios tienen la necesidad de saber si han sido correctamente escuchados y si se está ejecutando el proceso que solicitaron, también tienen la necesidad de saber si la respuesta que consiguieron es la que estaban buscando. Actualmente el reconocimiento de voz es imperfecto en esta área.

  • Cuando el sistema responda a alguna pregunta, éste deberá referirse a la pregunta realizada por el usuario, de manera que “Si” o “25” no son respuestas aceptables.
  • Si algún procedimiento que fuera generado por el usuario no tuviera algún efecto visible para éste, el sistema deberá notificar que se llevo a cabo, por el contrario si el efecto es evidente (como el cierre de una ventana), entonces la simple acción será suficiente.
  • Los procedimientos de eliminación o irreversibles deberán ser confirmados por el usuario.
  • Si algún proceso tardara más que algunos segundos, entonces el sistema deberá indicar que el proceso se está llevando a cabo de manera específica, es decir, se deberán usar palabras como “imprimiendo” en vez de sólo “trabajando”, para que el usuario esté seguro de que el procedimiento correcto se está ejecutando.
  • El usuario debe poder cancelar algún comando que este en proceso.
  • Si el usuario por alguna razón no contesta a alguna pregunta generada por el sistema, entonces, después de cierto periodo de tiempo, el sistema deberá pedir permiso al usuario para hablar, y después preguntar si el usuario aún desea seguir ejecutando el comanda mencionado anteriormente, si es así, entonces el sistema deberá realizar la pregunta una vez más.


El tercer grupo de principios está relacionado con la consistencia y la transparencia del sistema.

  • La manera de hablar del sistema deberá arrojar palabras y frases que el usuario pueda entender, no usar palabras de las que no se entienda que se debe realizar acción alguna.
  • El sistema no deberá asumir cuestiones acerca de algún comando que el usuario ingresara, por ejemplo, si el usuario dice “abre este mensaje…” el sistema no debe asumir que el usuario quiera responder.
  • El habla del sistema deberá ser consistente y usar palabras similares para acciones similares.
  • El sistema no deberá hacer creer al usuario que éste es más inteligente que el sistema, ya que esto solo provocará que el usuario haga más cosas que el sistema no pueda reconocer o entender.




Aquí se presenta una conversación entre el sistema desarrollado por Lotus Speech Initiative y un usuario, se puede observar como cumplen con cada uno de los principios mencionados anteriormente:


User: What time is it?
LCI: The time is 4:49 PM.
User: Let me know when it is 5 o’clock.
LCI: Alarm set for 5:00 PM.
User: Show me my messages please.
LCI: Opens the mail inbox window.
User: Let me see the message from Beth.
LCI: Selects the first message from Beth Brownholtz. This
one?
User: No, the next one.
LCI: Opens the next message from Beth Brownholtz.
User: Forward this message to Robert
LCI: Robert Armes or Robert Corell?
User: Armes.
LCI: Creates a new message to Robert Armes containing the
contents of the original message.
User: Send this message.
LCI: Message sent.
User: Is Robert online?
LCI: Robert Armes is offline.
User: Notify me when he is available.
LCI: Monitoring chat status of Robert Armes.
User: Delete the message from Bill.
LCI: Selects the message. Are you sure?
User: Yes.
LCI: Deletes the message.
LCI: Excuse me?
User: What is it?
LCI: You have one new message.
User: Who is it from?
LCI: The message is from Julie Alweis.
User: What is it about?
LCI: The subject of the message is expense report.
User: File this in my management folder.
LCI: The message disappears from the inbox.
LCI: Excuse me?
User: Go ahead.
LCI: IBM has reached the limit of 93, trading at 93.06.
User: Tell me when IBM reaches ninety three and a half.
LCI: Monitoring IBM for a limit of 93.5.
User: What is ninety three times one hundred twenty?
LCI: 93 times 120 is 11,160.
User: Thanks.
LCI: You’re welcome!

7 comentarios:

Unknown dijo...

Estas interfaces ademas tienen otro proposito, uno educativo, el uso de esta tecnologia ayuda a niños o a personas ciegas a poder tener una mejor calidad educativa.

Asi las interfaces basadas en voz ayudan a personas a tener una mejor educacion.

La universidad de yucatan es un centro de investigacion activo en esta area.

dejo a continuacion la liga a un documento sobre un programa que usa una VUI es un programa interesante que ayuda a niños con problemas del habla.

http://www.clihc.org/2007/papers/JuegoGravedad_ID3_shortpaper.pdf

Jair Cazarin dijo...

Sí definitivamente falto énfasis en el hecho de que las interfaces de voz, permiten tener algo que se conoce como hands-free computing, es decir poder interactuar con la computadora sin necesidad de usar el teclado y/o ratón. Esto facilita mucho el uso de computadoras por parte de personas con diferentes capacidades.

Un ejemplo clarisimo del poder de esto, lo pueden ver las personas que tienen instalado Windows Vista, ya que incluyeron un nuevo elemento de Speech Recogniton mucho mejor que el pasado.

Es muy interesante la parte de los principios, ya que es claramente importante que una interfaz basada en voz no puede seguir los mismos principios de usabilidad de una que no.

Unknown dijo...

A mi en lo personal me agrada mucho este tipo de tecgnologías ya que las personas al ver mayor similitud con las máquinas se desenvualven mejor en el ámbito, es más fácil interctual con alguien que es similar a ti que por el contrario con alguien que no lo es.

Muchas personas manifiestan su enojo porque llega un punto en el que ya no desean oir más a la máquina; les aturde que alguien les de instrucciones. Por ejemplo actualmente existe un sistema de alarma con voz en autos, y se activa cuando la puerta no está bien cerrada o cuando las personas van muy aprisa, etc.

Los usuarios dicen que llega el momento en el que esa voz los pone de malas y aún peor los estresa.
Eso es un punto en contra, pero se requieren de más estudios.

Se cuentan con diversos tipos de interfaces de voz como son:

La detección de tonos (DTMF), en donde el usuario oye una voz que le da las instrucciones y pulsa el teclado del terminal para escoger las opciones. El sistema reconoce la opción dada por el usuario a partir del tono pulsado.

Reconocimiento de voz (ASR)en donde
el usuario oye una voz que le da las instrucciones y responde con la voz para escoger las opciones. El sistema reconoce lo que dice el usuario.

Síntesis de voz (TTS)en donde la voz que oye el usuario no está pregrabada, es voz sintetizada. Útil para dar respuestas con valores variables.

Verificación de la persona que habla (SV)en donde la vertiente biométrica del reconocimiento de voz permite reconocer a la persona a través de las características de su voz.

Salvador Fuentes García dijo...

Las interfaces basadas en voz sirven de gran ayuda en dispositivos moviles ya que de esta manera podemos interactuar con estos dispositivos sin utilizar una interfaz visual y asi podemos aprovechar de mejor manera las interfaces visuales.

Tambien en el area de educacion podemos ver que estas interfaces de usuario son de gran ayuda, un ejemplo de ellos es el aprendizaje de nuevos idiomas a travez de la combinacion de interfaces auditivas y visuales.

Roberto Rogel dijo...

La interfaces basada en voz es un tema del que se habla desde hace algún tiempo, ya sea que se quieran instalar en coches, casas o directamente en la computadora.
A este tipo de interfaces yo le veo muchos problemas, el principal es el reconocimiento de voz y de palabras, es decir que la maquina sepa que hacer cuando se le diga una palabra, pero si el usuario tiene problemas al hablar o no la dice correctamente entonces no va a funcionar.
Este tipo de interfaz aun esta en desarrollo, pero pienso que les falta mucho camino por recorrer y muchos aspectos importantes a tomar en cuenta.

hugo romero dijo...

Las interfaces basadas en voz pueden llegar a facilitarle la vida a las personas discapacitadas de una manera que no se ha logrado actualmente, además de servir para educar a personas con algún tipo de problema, éstas pueden servir de maneras más directas.
Como por ejemplo, Instituto de Investigación en Ingeniería de Aragón en la Universidad de Zaragoza, España, se encuentra desarrollando una silla de ruedas "inteligente" que responde a comandos de voz.

http://users.isr.ist.utl.pt/~lmontesano/papers/ONCE05.pdf

Federico Hdez dijo...

Una tendencia muy interesante en cuanto a las interfaces basadas en voz, es la "Voice-Based Search Technology"(tecnología de búsquedas basadas en voz). Empresas como Google Inc, Microsoft Corp y Yahoo Inc, se han interesado mucho en esta aplicación de las tecnologías de voz, y han iniciado una carrera en el desarrollo de interfaces de búsqueda a través de la voz[1]. Actualmente, los experimentos de prueba de dichas compañías, sirven como asistencia guiada, directorio telefónico y ofrecen nuevos beneficios a los usuarios de teléfonos móviles.

Este tema se ha vuelto tan importante que del 10 al 12 de marzo habrá una conferencia de tres días, en la ciudad de San Diego en Californía, nombrada "Voice Serach Conference"[2]. Dicha conferencia está siendo organizada por Applied Voice Input Output Society(AVIOS) y Bill Meisel (Presidente de TMA Associates y publicista de Speech Strategy News. Hará énfasis en papel perturbador del reconocimiento de voz, en la síntesis de texto a voz (Text-to-Speech) y en interfaces de usuario multimodales con aplicación móvil y de Web. Se cree que dicha conferencia tendrá un gran impacto, no sólo en consumidores o clientes; si no en los proveedores de servicios, proveedores de contenido, estrategas de mercado, agencias de publicidad, centros de llamadas y otros vendedores [3] .

Referencias

[1]. Clark, Don. Google Targets Voice Searches. Service Helps Users Find Businesses; Rivaling Microsoft. Wall Street Journal, April 12, 2007; p. B3 [Disponible en http://www.voicesearchconference.com/
story_google.htm
]
[2]. Voice Search Conference 2008.[Disponible en http://www.voicesearchconference.com/]
[3]. Why you should attend the Voice Search Conference. Voice Search Conference 2008. AVIOS and TMA Associates. [Disponible en http://www.voicesearchconference.com/
why_attend.htm
]