
La precisión excepcional, incluso con audio desafiante y terminología técnica, combinada con su API amigable para desarrolladores que se integra sin problemas. Funciones avanzadas como la diarización de hablantes y la moderación de contenido ofrecen un valor tremendo más allá de la transcripción básica. Reseña recopilada por y alojada en G2.com.
La integración con sistemas de bases de datos complejos como VertexDB puede ser desafiante y requiere un esfuerzo de desarrollo adicional. La latencia de respuesta a veces puede ser más larga de lo esperado, especialmente al procesar archivos de audio grandes, lo que puede afectar a las aplicaciones en tiempo real que requieren resultados de transcripción inmediatos. Reseña recopilada por y alojada en G2.com.
67 AssemblyAI - Speech to Text API Reseñas

Estoy impresionado con el servicio de transcripción de AssemblyAI debido a su precio razonable. Por transcribir 243 horas de audio, pagué solo $68. En comparación, el modelo Chirp_2 de Google costó $47 por solo 35 horas, lo que habría sumado $326 para las mismas 243 horas.
Los beneficios adicionales incluyen la capacidad de separar el texto por diferentes hablantes (solo en inglés) y la detección automática de idiomas. La API es fácil de usar y fue fácil de integrar tanto en aplicaciones Flutter como en aplicaciones web de .NET Core.
En general, estoy satisfecho con el servicio y planeo seguir usándolo. Reseña recopilada por y alojada en G2.com.
Hay algunos aspectos que me gustaría ver mejorados. La respuesta de la API contiene demasiados campos innecesarios que no necesito, lo que aumenta los tiempos de carga. También agradecería velocidades más rápidas de procesamiento de voz a texto y un aumento en el límite máximo de duración más allá de la restricción actual de 10 horas. Además, el modelo slam-1 solo funciona con texto en inglés, y me gustaría que este modelo se internacionalizara para admitir múltiples idiomas. Reseña recopilada por y alojada en G2.com.

AssemblyAI es realmente impresionante. Antes de encontrarlo, probé Google Cloud, Whisper y algunas herramientas de código abierto para diarización. Incluso le di una oportunidad a Read.ai, pero honestamente, ninguna de ellas me dio los resultados que estaba buscando.
Luego vi a alguien mencionar AssemblyAI en Reddit y decidí probarlo. Estoy tan contento de haberlo hecho: su transcripción y diarización están en otro nivel. Casi nunca necesito editar las transcripciones, lo cual es raro con este tipo de herramientas.
El precio es muy razonable para lo que obtienes, y la API es realmente flexible. He podido construir mis propios flujos de trabajo para transcribir reuniones, entrevistas y videos sin ningún problema. Lo uso prácticamente todos los días para transcribir reuniones que grabo en mi computadora, y guardo todo en formato Markdown.
Si estás buscando un servicio de transcripción sólido y confiable que simplemente funcione, no puedo recomendar AssemblyAI lo suficiente. Reseña recopilada por y alojada en G2.com.
No es que no me guste, pero creo que hay una barrera alta para que los no técnicos accedan al servicio. Sé que tienen un área de pruebas, pero aún es intimidante para las personas que quieren usar el servicio pero ven el. Algunos amigos que ven mi flujo de trabajo quieren imitarlo, pero se detienen cuando ven la interfaz de la API. La documentación está muy bien detallada, pero todavía hay barreras para la adopción en ciertos segmentos de clientes.
Otra cosa que me gustaría sería almacenar el grupo de voces que se graban y me gustaría que el modelo las nombrara automáticamente. Creo que esto sería demasiado complicado y probablemente haya preocupaciones de privacidad involucradas. Pero sería un enfoque para mejorar la calidad de vida. Sin embargo, supongo que esto es una necesidad de nicho en lugar de algo que interesaría a la base de clientes. Reseña recopilada por y alojada en G2.com.

Recientemente comenzamos a usar la API de AssaemblyAI para transcribir videos de nuestros canales educativos. La API funciona de manera rápida y confiable. Hasta ahora, nunca hemos encontrado ninguna limitación de la plataforma, aunque nuestros videos son bastante grandes. La calidad del reconocimiento es muy alta, el precio es aproximadamente el mismo que con los análogos de OpenAI, pero no hay un límite de 25 minutos por fragmento de video. Reseña recopilada por y alojada en G2.com.
Desearía que el precio fuera aún más bajo, tenemos muchos más videos que procesar. Además, no está muy claro cómo funciona el formato en párrafos, según la API obtenemos exactamente el texto sin párrafos, aunque en la versión disponible de forma gratuita a través de la interfaz, el texto reconocido ya está formateado. Reseña recopilada por y alojada en G2.com.

AssemblyAI impresiona con su alta calidad de transcripción, incluso cuando se trata de entradas de audio desordenadas o de baja calidad. Las capacidades de diarización son particularmente fuertes, distinguiendo con precisión entre los hablantes en grabaciones menos que perfectas. La suite de API es rápida, está bien documentada y devuelve un formato de salida rico y detallado que hace que el post-procesamiento sea sencillo y potente. También encontré especialmente útil la función Word Boost: poder priorizar palabras complicadas o poco comunes mejora significativamente la precisión del reconocimiento en casos de uso específicos. En general, es una plataforma amigable para desarrolladores que equilibra precisión con flexibilidad. Reseña recopilada por y alojada en G2.com.
Honestamente, hay poco de qué quejarse. El modelo de precios es razonable para el nivel de calidad y características proporcionadas, y no he encontrado inconvenientes significativos en mi uso. Reseña recopilada por y alojada en G2.com.
Una de las mejores cosas de AssemblyAI es lo mucho más asequible y accesible que es en comparación con muchas otras opciones en el mercado. Los precios son claros y económicos, lo que lo convierte en una excelente opción tanto para pequeños desarrolladores como para equipos más grandes. A pesar del costo más bajo, la precisión de la transcripción y el conjunto de características siguen siendo de primera categoría. La API es fácil de implementar y la documentación es clara y útil. Es confiable, rápido y está lleno de características como la diarización de hablantes y la detección de temas que generalmente están reservadas para plataformas mucho más caras. Reseña recopilada por y alojada en G2.com.
Actualmente hay algunas funciones que no están disponibles para los usuarios europeos, pero creo que están en desarrollo. Reseña recopilada por y alojada en G2.com.
Es realmente excelente para el español específicamente y la diarización de usuarios. Además, es rápido en comparación con la API de Speechmatics; es realmente lenta, así que felicitaciones por eso también, y ha sido realmente rentable. Debo haber transcrito entre 800 y 1000 llamadas con los créditos gratuitos, así que eso es realmente genial. En general, muy sólido. Reseña recopilada por y alojada en G2.com.
Creo que la peor parte de Assembly ha sido que la API en sí es un poco complicada de usar, ya que con las grabaciones primero tienes que convertirlas en enlaces y luego enviar los enlaces y los IDs de transcripción a un endpoint separado. Todavía puedo trabajar con ella y he hecho muchas cosas, pero sería más fácil si fuera una sola API si estoy trabajando con grabaciones que hiciera esto en segundo plano. Reseña recopilada por y alojada en G2.com.
Soy académico. Recientemente comencé a usar Assembly AI para un proyecto en el que he estado interesado durante años. Simplemente no tenía una buena manera de generar transcripciones de videos. Por lo tanto, lo he estado usando extensamente durante las últimas semanas. Imagino que será un caso en el que lo usaré mucho en breves períodos durante los próximos meses/años.
Me puse en contacto con una pregunta sobre el uso académico y me sorprendió lo rápido que AAI respondió (pero, por favor, reconozcan .edu como un correo electrónico de trabajo válido).
Comencé a trabajar con Assembly AI con los créditos gratuitos (que es una excelente manera de "probar"). Me tomó un tiempo conseguir que las cosas estuvieran como quería, pero una vez que lo logré, ha sido todo muy fluido y en gran medida he automatizado su integración en mi flujo de trabajo de investigación. He encontrado la transcripción bastante precisa (este es el modelo estándar, no el nuevo y sofisticado). El tiempo de procesamiento es rápido y todo es fácilmente programable. Hay una documentación bastante buena. Reseña recopilada por y alojada en G2.com.
Creo que hay dos cosas que me gustaría ver en el futuro.
Primero, creo que la documentación está un poco fragmentada. Sería bueno si estuviera más simplificada. En mi caso, esto realmente se aplica al formateo de la salida. Más scripts de ejemplo para la salida serían geniales. Esto habría hecho que la implementación inicial fuera un poco más fácil (lo calificaría como un 5/10 de dificultad... y me considero un usuario de Python más o menos competente).
Segundo, me gustaría ver detección de interrupciones/superposiciones. Entiendo que eso podría ser difícil sin múltiples micrófonos. Para esto, solo voy a mantener la esperanza en el constante avance del progreso. Reseña recopilada por y alojada en G2.com.

- Fácil de configurar gracias a la buena documentación
- No soy desarrollador, pero lo entendí
- Integrado en N8N para mi automatización
- El modelo Nano es muy rentable
- Gran detección de altavoces Reseña recopilada por y alojada en G2.com.
- Me llevó un poco de prueba ajustar mis configuraciones correctamente, pero la buena documentación ayudó.
- Funciona perfectamente una vez que salí del nivel gratuito, antes estaba limitado, pero es comprensible debido a la cuenta gratuita. Reseña recopilada por y alojada en G2.com.

Utilizo AssemblyAI para obtener transcripciones de los episodios de mi pódcast, y la precisión es bastante buena.
La marca de tiempo asociada con cada palabra nos permite hacer fácilmente una conexión con el audio del pódcast y saltar justo donde necesitamos.
El servicio de atención al cliente ha sido excelente. Reseña recopilada por y alojada en G2.com.
Nada de qué quejarse.
A veces es un poco complicado cuando el podcaster dice el deletreo del código promocional que usa.
Por ejemplo, si el código promocional es SUMMER. Puedo recibir S-U-M-M-E-R, lo cual no es fácil de manejar. Pero es un caso excepcional. Reseña recopilada por y alojada en G2.com.
Me encanta cómo AssemblyAI ofrece una precisión de transcripción excepcional incluso en audio ruidoso o de baja calidad. Los SDKs, la documentación y los ejemplos de código hicieron que la integración en nuestra base de código fuera muy fácil y casi instantánea. Además de todo eso, características como el ajuste de vocabulario personalizado, la detección de temas y el análisis de sentimientos significan que puedo confiar en una sola plataforma para todo, desde transcripciones básicas hasta profundos análisis de audio. Reseña recopilada por y alojada en G2.com.
Ocasionalmente, la API tiene dificultades con acentos fuertes o un habla extremadamente rápida, lo que lleva a pequeñas transcripciones erróneas que requieren corrección manual. Reseña recopilada por y alojada en G2.com.