
AssemblyAI impressionne par sa haute qualité de transcription, même lorsqu'il s'agit de traiter des entrées audio désordonnées ou de faible qualité. Les capacités de diarisation sont particulièrement fortes, distinguant avec précision les locuteurs dans des enregistrements moins que parfaits. La suite API est rapide, bien documentée, et renvoie un format de sortie riche et détaillé qui rend le post-traitement simple et puissant. J'ai également trouvé la fonctionnalité Word Boost particulièrement utile : pouvoir prioriser des mots difficiles ou peu communs améliore considérablement la précision de la reconnaissance dans des cas d'utilisation de niche. Dans l'ensemble, c'est une plateforme conviviale pour les développeurs qui équilibre précision et flexibilité. Avis collecté par et hébergé sur G2.com.
Honnêtement, il y a peu de choses à redire. Le modèle de tarification est raisonnable pour le niveau de qualité et les fonctionnalités fournies, et je n'ai rencontré aucun inconvénient significatif dans mon utilisation. Avis collecté par et hébergé sur G2.com.
Avis sur 67 AssemblyAI - Speech to Text API

Je suis impressionné par le service de transcription d'AssemblyAI en raison de ses tarifs raisonnables. Pour transcrire 243 heures d'audio, je n'ai payé que 68 $. En comparaison, le modèle Chirp_2 de Google coûtait 47 $ pour seulement 35 heures, ce qui aurait totalisé 326 $ pour les mêmes 243 heures.
Les avantages supplémentaires incluent la capacité de séparer le texte par différents locuteurs (en anglais uniquement) et la détection automatique de la langue. L'API est simple à utiliser et a été facile à intégrer dans les applications Flutter et .NET Core Web.
Dans l'ensemble, je suis satisfait du service et je prévois de continuer à l'utiliser. Avis collecté par et hébergé sur G2.com.
Il y a certains aspects que j'aimerais voir améliorés. La réponse de l'API contient trop de champs inutiles dont je n'ai pas besoin, ce qui augmente les temps de chargement. J'apprécierais également des vitesses de traitement de la parole en texte plus rapides et une augmentation de la limite de durée maximale au-delà de la restriction actuelle de 10 heures. De plus, le modèle slam-1 ne fonctionne qu'avec le texte anglais, et j'aimerais voir ce modèle devenir internationalisé pour prendre en charge plusieurs langues. Avis collecté par et hébergé sur G2.com.

AssemblyAI est vraiment impressionnant. Avant de le découvrir, j'ai essayé Google Cloud, Whisper et quelques outils open-source pour la diarisation. J'ai même essayé Read.ai, mais honnêtement, aucun d'eux ne m'a donné les résultats que je recherchais.
Puis j'ai vu quelqu'un mentionner AssemblyAI sur Reddit, et j'ai décidé de l'essayer. Je suis tellement content de l'avoir fait—leur transcription et diarisation sont d'un autre niveau. Je n'ai presque jamais besoin de modifier les transcriptions, ce qui est rare avec ce genre d'outils.
Le prix est très raisonnable pour ce que vous obtenez, et l'API est vraiment flexible. J'ai pu créer mes propres flux de travail pour transcrire des réunions, des interviews et des vidéos sans aucun problème. Je l'utilise presque tous les jours pour transcrire les réunions que j'enregistre sur mon ordinateur, et je sauvegarde tout au format Markdown.
Si vous cherchez un service de transcription solide et fiable qui fonctionne tout simplement, je ne peux pas recommander AssemblyAI assez. Avis collecté par et hébergé sur G2.com.
Ce n'est pas que je n'aime pas, mais je pense qu'il y a une barrière élevée pour les non-techniciens pour accéder au service. Je sais qu'ils ont un terrain de jeu, mais c'est toujours effrayant pour les gens qui veulent utiliser le service mais voient cela. Certains amis qui voient mon flux de travail veulent imiter mais s'arrêtent quand ils voient l'interface API. Les documents sont très bien détaillés, mais il y a encore des barrières à l'adoption pour certains segments de clients.
Une autre chose que j'aimerais serait de stocker le cluster de voix qui sont enregistrées, j'aimerais que le modèle les nomme automatiquement. Je pense que ce serait trop compliqué et qu'il y a probablement des préoccupations de confidentialité impliquées. Mais ce serait une approche pour améliorer la qualité de vie. Mais je suppose que c'est un besoin de niche plutôt que quelque chose qui intéresserait la base de clients. Avis collecté par et hébergé sur G2.com.

Nous avons récemment commencé à utiliser l'API AssaemblyAI pour transcrire des vidéos de nos chaînes éducatives. L'API fonctionne rapidement et de manière fiable. Jusqu'à présent, nous n'avons jamais rencontré de limitations de la plateforme, bien que nos vidéos soient assez volumineuses. La qualité de la reconnaissance est très élevée, le prix est à peu près le même que celui des analogues d'OpenAI, mais il n'y a pas de limite de 25 minutes par fragment vidéo. Avis collecté par et hébergé sur G2.com.
Je souhaite que le prix soit encore plus bas, nous avons tellement plus de vidéos à traiter. De plus, il n'est pas très clair comment le formatage en paragraphes fonctionne, selon l'API nous recevons exactement le texte sans paragraphes, bien que dans la version disponible gratuitement via l'interface, le texte reconnu soit déjà formaté. Avis collecté par et hébergé sur G2.com.
L'un des meilleurs aspects d'AssemblyAI est sa plus grande accessibilité et son coût plus abordable par rapport à de nombreuses autres options sur le marché. Les tarifs sont simples et économiques, ce qui en fait un excellent choix tant pour les petits développeurs que pour les grandes équipes. Malgré le coût inférieur, la précision de la transcription et l'ensemble des fonctionnalités restent de premier ordre. L'API est facile à mettre en œuvre, et la documentation est claire et utile. Elle est fiable, rapide et regorge de fonctionnalités comme la diarisation des locuteurs et la détection de sujets, qui sont généralement réservées à des plateformes beaucoup plus coûteuses. Avis collecté par et hébergé sur G2.com.
Actuellement, certaines fonctionnalités ne sont pas disponibles pour les utilisateurs européens, mais je crois qu'elles sont en cours de développement. Avis collecté par et hébergé sur G2.com.
C'est vraiment génial pour l'espagnol en particulier et la diarisation des utilisateurs. De plus, c'est rapide comparé à l'API de Speechmatics ; elle est vraiment lente, donc bravo pour cela aussi, et cela a été vraiment rentable. J'ai dû transcrire 800 à 1000 appels avec les crédits gratuits, donc c'est vraiment super. Globalement, c'est vraiment solide. Avis collecté par et hébergé sur G2.com.
Je pense que la pire partie d'Assembly est que l'API elle-même est un peu compliquée à utiliser, car avec les enregistrements, il faut d'abord les transformer en liens, puis envoyer les liens et les identifiants de transcription à un point de terminaison séparé. Je peux toujours travailler avec et j'ai fait beaucoup de choses, mais ce serait plus facile si c'était une seule API qui faisait cela en arrière-plan lorsque je travaille avec des enregistrements. Avis collecté par et hébergé sur G2.com.
Je suis un universitaire - j'ai récemment commencé à utiliser Assembly AI pour un projet qui m'intéresse depuis des années. Je n'avais tout simplement pas de bon moyen pour générer des transcriptions à partir de vidéos. Ainsi, je l'ai utilisé de manière intensive au cours des dernières semaines. J'imagine que ce sera un cas où je l'utiliserai beaucoup par à-coups au cours des mois/années à venir.
J'ai contacté l'équipe avec une question sur l'utilisation académique et j'ai été surpris par la rapidité de la réponse d'AAI (mais, veuillez reconnaître .edu comme une adresse e-mail professionnelle valide).
J'ai commencé à travailler avec Assembly AI grâce aux crédits gratuits (ce qui est un excellent moyen de "tester"). Il m'a fallu un certain temps pour obtenir les résultats que je souhaitais, mais une fois que j'y suis parvenu, tout s'est déroulé sans accroc et l'intégration dans mon flux de travail de recherche a été largement automatisée. J'ai trouvé la transcription assez précise (il s'agit du modèle standard, pas du nouveau modèle sophistiqué). Le temps de traitement est rapide et tout est facilement scriptable. La documentation est plutôt bien faite. Avis collecté par et hébergé sur G2.com.
Je pense qu'il y a deux choses que j'aimerais voir à l'avenir.
Premièrement, je pense que la documentation est un peu fragmentée. Ce serait bien si elle était plus rationalisée. Dans mon cas, cela concerne vraiment le formatage de la sortie. Plus de scripts d'exemples pour la sortie seraient formidables. Cela aurait rendu la mise en œuvre initiale un peu plus facile (je dirais que c'est une difficulté de 5/10... et je me considère comme un utilisateur de Python moyen).
Deuxièmement, j'aimerais voir une détection d'interruption/superposition. Je comprends que cela pourrait être difficile sans plusieurs microphones. Pour celui-ci, je vais juste garder espoir dans la marche constante du progrès. Avis collecté par et hébergé sur G2.com.

L'exactitude exceptionnelle, même avec un audio difficile et une terminologie technique, combinée à leur API conviviale pour les développeurs qui s'intègre parfaitement. Des fonctionnalités avancées comme la diarisation des locuteurs et la modération de contenu offrent une valeur considérable au-delà de la transcription de base. Avis collecté par et hébergé sur G2.com.
L'intégration avec des systèmes de bases de données complexes comme VertexDB peut être difficile et nécessite un effort de développement supplémentaire. La latence de réponse peut parfois être plus longue que prévu, surtout lors du traitement de gros fichiers audio, ce qui peut affecter les applications en temps réel qui nécessitent des résultats de transcription immédiats. Avis collecté par et hébergé sur G2.com.

- Facile à configurer grâce à une bonne documentation
- Je ne suis pas développeur mais j'ai compris
- Intégré dans N8N pour mon automatisation
- Le modèle Nano est très rentable
- Excellente détection des locuteurs Avis collecté par et hébergé sur G2.com.
- Il a fallu un peu de tests pour régler correctement mes paramètres, mais une bonne documentation m'a aidé.
- Cela fonctionne parfaitement une fois que je suis passé au niveau payant, j'étais limité avant cela, mais c'est compréhensible en raison du compte gratuit. Avis collecté par et hébergé sur G2.com.

J'utilise AssemblyAI pour obtenir des transcriptions de mes épisodes de podcast, et la précision est assez bonne.
Le timestamp associé à chaque mot nous permet de faire facilement le lien avec l'audio du podcast et de sauter directement là où nous en avons besoin.
Le support client a été excellent. Avis collecté par et hébergé sur G2.com.
Rien à redire. Parfois, c'est un peu délicat lorsque le podcasteur épelle le code promo qu'il utilise.
Par exemple, si le code promo est SUMMER. Je peux obtenir S-U-M-M-E-R, ce qui n'est pas facile à utiliser. Mais c'est un cas particulier. Avis collecté par et hébergé sur G2.com.
J'adore la façon dont AssemblyAI offre une précision de transcription exceptionnelle même sur des audios bruyants ou de faible qualité. Les SDK, la documentation et les exemples de code ont rendu l'intégration dans notre base de code très facile et presque instantanée. En plus de tout cela, des fonctionnalités comme l'ajustement du vocabulaire personnalisé, la détection de sujets et l'analyse des sentiments signifient que je peux compter sur une seule plateforme pour tout, des transcriptions de base aux analyses audio approfondies. Avis collecté par et hébergé sur G2.com.
Parfois, l'API a du mal avec les accents prononcés ou les discours extrêmement rapides, ce qui entraîne de légères erreurs de transcription nécessitant une correction manuelle. Avis collecté par et hébergé sur G2.com.