Reconocimiento de voz | Definiciones del Glosario de Tecnología

¿Qué es el reconocimiento de voz?

El reconocimiento de voz identifica y decodifica el habla de los usuarios. Reconoce patrones y marcadores únicos para diferenciar entre la voz de un humano y la de otro o entre voces humanas y sonidos ambientales.

El reconocimiento de voz se ha vuelto común en tecnologías domésticas y comerciales. Muchos productos para el hogar inteligente, como asistentes de voz y altavoces inteligentes, utilizan el reconocimiento de voz para identificar cuándo alguien les está hablando. Dado que cada humano tiene una huella de voz única, algunas industrias utilizan la tecnología de reconocimiento de voz para verificar la identidad de los usuarios al acceder a sistemas seguros.

Las empresas también utilizan software de reconocimiento de voz para traducir llamadas y conversaciones a un formato que sea fácil de buscar. También les ayuda a mejorar la accesibilidad para algunos empleados, quienes pueden controlar dispositivos con su voz en lugar de sus manos y ojos.

Cómo funciona el reconocimiento de voz

El reconocimiento de voz ha ganado popularidad junto con las tecnologías inteligentes. El reconocimiento de voz generalmente sigue este flujo:

La voz viaja a través de una corriente eléctrica a un convertidor de analógico a digital (ADC). Este convertidor cambia el audio a una señal digital.
Los filtros ayudan a diferenciar la voz del ruido de fondo. El sistema reconoce ciertas frecuencias como humanas y separa los sonidos que están por encima o por debajo de ese rango.
El sistema aprende la voz específica de un usuario a través de un proceso llamado coincidencia de plantillas. El usuario pronuncia palabras o frases específicas varias veces para entrenar el software. El software numera y promedia estas entradas y las almacena en su sistema como una plantilla para uso futuro.
Cuando un hablante intenta más tarde acceder a un sistema con su voz, la tecnología compara las características entre su voz y las almacenadas en su base de datos para decidir si la voz coincide.

Usos del reconocimiento de voz

El reconocimiento de voz ha existido durante décadas, pero su precisión y eficiencia están aumentando rápidamente. La tecnología tiene casos de uso en muchos campos, incluyendo:

Seguridad. Los bancos e instituciones financieras utilizan el reconocimiento de voz como una capa adicional de autenticación biométrica. Dado que cada voz humana es única, es difícil de imitar con precisión. A menudo, las empresas combinan el reconocimiento de voz con otras formas de seguridad, como huellas dactilares, escaneos faciales o de retina, y nombres de usuario y contraseñas.
Electrónica de consumo. Los dispositivos del Internet de las cosas (IoT), como altavoces inteligentes y asistentes de voz, también dependen del reconocimiento de voz. La tecnología les permite distinguir las voces humanas del ruido de fondo de televisores y radios.
Vehículos. El reconocimiento de voz y reconocimiento del habla habilitan interfaces de usuario manos libres en los automóviles, permitiendo a los usuarios mantener sus ojos en la carretera mientras realizan otras tareas. Por ejemplo, pueden decirle a su asistente de voz que llame a alguien o apague la música mientras navegan de manera segura por la carretera.
Almacenes. Algunos almacenes utilizan la selección por voz para ahorrar tiempo a los trabajadores y optimizar las operaciones. En este sistema, los trabajadores usan un auricular con micrófono. El programa de selección por voz se integra con el sistema de gestión de almacenes existente de la empresa y les indica a los trabajadores qué pedidos recoger. Los empleados luego confirman el pedido hablando al micrófono. El software interpreta y captura sus palabras con capacidades de reconocimiento de voz y habla.

Beneficios del reconocimiento de voz

Las organizaciones aprecian el software de reconocimiento de voz por sus muchos casos de uso que aumentan la eficiencia y protección de los empleados. Algunas ventajas específicas incluyen:

Aumento de la productividad. Hablar es a menudo más rápido que escribir. Los empleados completan el trabajo más rápidamente usando su voz en lugar de un teclado.
Mejora de la seguridad. Un usuario puede configurar un dispositivo habilitado para reconocimiento de voz para responder solo a su voz, con su inflexión, tono y tono únicos. Si alguien más intenta activar o acceder al dispositivo, no responderá.
Impulso de la seguridad personal. El reconocimiento de voz permite a los usuarios mantener sus manos y ojos en otras tareas. En aplicaciones como la conducción, esto permite a los usuarios realizar múltiples tareas de manera segura. En el cuidado de la salud, permite a los pacientes y médicos interactuar con un asistente de voz y disminuir la propagación de gérmenes.
Creación de accesibilidad. El reconocimiento de voz permite a las personas controlar una computadora o dispositivo IoT solo con su voz. Esto proporciona accesibilidad para usuarios con uso limitado de manos o visión.

Reconocimiento de voz vs. reconocimiento del habla

Las personas a menudo usan los términos reconocimiento de voz y reconocimiento del habla de manera intercambiable, pero son tecnologías diferentes.

El reconocimiento de voz identifica la voz de un usuario individual analizando sus características únicas. Dispositivos como asistentes virtuales, computadoras y teléfonos inteligentes utilizan esta tecnología para reconocer e interactuar con los humanos. El reconocimiento de voz es particularmente útil en la autenticación de usuarios para fines de seguridad.

El reconocimiento del habla entiende las palabras habladas y a menudo convierte esas palabras en texto escrito. Esta tecnología utiliza técnicas de inteligencia artificial (IA) como el procesamiento del lenguaje natural (NLP) para descomponer elementos como la gramática y la sintaxis. Algunos casos de uso para el reconocimiento del habla incluyen la dictado en el cuidado de la salud y la transcripción de entrevistas y llamadas telefónicas en los negocios.

Muchos dispositivos y programas de software combinan el poder del reconocimiento de voz y del habla. Juntas, estas tecnologías permiten que los productos habilitados para computadora o internet sepan con quién están hablando y qué están diciendo.

Aprende más sobre la historia del reconocimiento de voz y el software popular que lo habilita.

Kelly Fiorini

Kelly Fiorini is a freelance writer for G2. After ten years as a teacher, Kelly now creates content for mostly B2B SaaS clients. In her free time, she’s usually reading, spilling coffee, walking her dogs, and trying to keep her plants alive. Kelly received her Bachelor of Arts in English from the University of Notre Dame and her Master of Arts in Teaching from the University of Louisville.