Ich bin Akademiker und habe kürzlich begonnen, Assembly AI für ein Projekt zu nutzen, das mich seit Jahren interessiert. Ich hatte einfach keine gute Möglichkeit, Transkripte von Videos zu erstellen. Daher habe ich es in den letzten Wochen intensiv genutzt. Ich stelle mir vor, dass es ein Fall sein wird, in dem ich es in den kommenden Monaten/Jahren in kurzen Schüben viel nutzen werde.
Ich habe mich mit einer Frage zur akademischen Nutzung an sie gewandt und war überrascht, wie schnell AAI geantwortet hat (aber bitte erkennen Sie .edu als gültige Arbeits-E-Mail an).
Ich habe begonnen, mit Assembly AI auf den kostenlosen Credits zu arbeiten (was eine großartige Möglichkeit ist, es „auszuprobieren“). Es hat eine Weile gedauert, bis ich alles so hatte, wie ich es wollte, aber sobald ich dort angekommen war, lief alles reibungslos und die Integration in meinen Forschungsworkflow war weitgehend automatisiert. Ich habe festgestellt, dass die Transkription ziemlich genau ist (dies ist das Standardmodell, nicht das neue, ausgefallene). Die Verarbeitungszeit ist schnell und alles ist leicht skriptbar. Es gibt eine ziemlich gute Dokumentation. Bewertung gesammelt von und auf G2.com gehostet.
Ich denke, es gibt zwei Dinge, die ich in der Zukunft gerne sehen würde.
Erstens finde ich, dass die Dokumentation irgendwie zersplittert ist. Es wäre schön, wenn sie mehr gestrafft wäre. In meinem Fall gilt das wirklich für die Formatierung der Ausgabe. Mehr Beispielskripte für die Ausgabe wären großartig. Das hätte die anfängliche Implementierung erheblich erleichtert (ich würde es als 5/10 Schwierigkeitsgrad bezeichnen... und ich würde mich selbst als einen mittelmäßigen Python-Nutzer bezeichnen).
Zweitens würde ich gerne Unterbrechungs-/Overlay-Erkennung sehen. Ich verstehe, dass das ohne mehrere Mikrofone schwierig sein könnte. Bei diesem Punkt hoffe ich einfach auf den stetigen Fortschritt. Bewertung gesammelt von und auf G2.com gehostet.
67 AssemblyAI - Speech to Text API Bewertungen

Ich bin beeindruckt von AssemblyAIs Transkriptionsdienst aufgrund seiner angemessenen Preisgestaltung. Für die Transkription von 243 Stunden Audio habe ich nur 68 Dollar bezahlt. Im Vergleich dazu kostete das Chirp_2-Modell von Google 47 Dollar für nur 35 Stunden, was für die gleichen 243 Stunden insgesamt 326 Dollar betragen hätte.
Zusätzliche Vorteile sind die Möglichkeit, den Text nach verschiedenen Sprechern zu trennen (nur Englisch) und die automatische Spracherkennung. Die API ist einfach zu verwenden und ließ sich problemlos in sowohl Flutter- als auch .NET Core-Webanwendungen integrieren.
Insgesamt bin ich mit dem Dienst zufrieden und plane, ihn weiterhin zu nutzen. Bewertung gesammelt von und auf G2.com gehostet.
Es gibt einige Aspekte, die ich gerne verbessert sehen würde. Die API-Antwort enthält zu viele unnötige Felder, die ich nicht benötige, was die Ladezeiten erhöht. Ich würde auch schnellere Sprach-zu-Text-Verarbeitungsgeschwindigkeiten und eine Erhöhung des maximalen Dauernlimits über die derzeitige 10-Stunden-Beschränkung hinaus schätzen. Außerdem funktioniert das Slam-1-Modell nur mit englischem Text, und ich würde gerne sehen, dass dieses Modell internationalisiert wird, um mehrere Sprachen zu unterstützen. Bewertung gesammelt von und auf G2.com gehostet.

AssemblyAI ist wirklich beeindruckend. Bevor ich es gefunden habe, habe ich Google Cloud, Whisper und einige Open-Source-Tools für Diarisierung ausprobiert. Ich habe sogar Read.ai ausprobiert, aber ehrlich gesagt hat mir keines davon die Ergebnisse geliefert, die ich gesucht habe.
Dann habe ich jemanden auf Reddit über AssemblyAI sprechen sehen und beschlossen, es auszuprobieren. Ich bin so froh, dass ich es getan habe – ihre Transkription und Diarisierung sind auf einem ganz anderen Niveau. Ich muss die Transkripte kaum bearbeiten, was bei diesen Arten von Tools selten ist.
Die Preisgestaltung ist für das, was man bekommt, super vernünftig, und die API ist wirklich flexibel. Ich konnte meine eigenen Workflows erstellen, um Meetings, Interviews und Videos ohne Probleme zu transkribieren. Ich benutze es fast jeden Tag, um Meetings zu transkribieren, die ich auf meinem Computer aufzeichne, und speichere alles im Markdown-Format.
Wenn Sie nach einem soliden, zuverlässigen Transkriptionsdienst suchen, der einfach funktioniert, kann ich AssemblyAI nur wärmstens empfehlen. Bewertung gesammelt von und auf G2.com gehostet.
Es ist nicht so, dass ich es nicht mag, aber ich denke, es gibt eine hohe Barriere für Nicht-Techniker, um auf den Dienst zuzugreifen. Ich weiß, dass sie einen Spielplatz haben, aber es ist immer noch beängstigend für Leute, die den Dienst nutzen wollen, aber ihn sehen. Einige Freunde, die meinen Arbeitsablauf sehen, wollen ihn nachahmen, hören aber auf, wenn sie die API-Schnittstelle sehen. Die Dokumentation ist sehr detailliert, aber es gibt immer noch Barrieren für die Akzeptanz in bestimmten Kundensegmenten.
Eine weitere Sache, die ich gerne hätte, wäre, die aufgezeichneten Stimmencluster zu speichern und das Modell sie automatisch benennen zu lassen. Ich denke, das wäre zu kompliziert und wahrscheinlich gibt es Datenschutzbedenken. Aber es wäre ein Ansatz zur Verbesserung der Lebensqualität. Aber ich denke, das ist ein Nischenbedürfnis, anstatt etwas, das die Kundenbasis interessieren würde. Bewertung gesammelt von und auf G2.com gehostet.

Wir haben kürzlich begonnen, die AssaemblyAI-API zu verwenden, um Videos von unseren Bildungskanälen zu transkribieren. Die API arbeitet schnell und zuverlässig. Bisher sind wir auf keine Einschränkungen der Plattform gestoßen, obwohl unsere Videos ziemlich groß sind. Die Erkennungsqualität ist sehr hoch, der Preis ist ungefähr derselbe wie bei OpenAI-Äquivalenten, aber es gibt kein Limit von 25 Minuten pro Videofragment. Bewertung gesammelt von und auf G2.com gehostet.
Ich wünschte, der Preis wäre noch niedriger, wir haben noch so viele Videos zu verarbeiten. Außerdem ist nicht ganz klar, wie die Formatierung in Absätze funktioniert, laut der API erhalten wir genau den Text ohne Absätze, obwohl in der über die Schnittstelle kostenlos verfügbaren Version der erkannte Text bereits formatiert ist. Bewertung gesammelt von und auf G2.com gehostet.

AssemblyAI beeindruckt mit seiner hohen Transkriptionsqualität, selbst bei unordentlichen oder minderwertigen Audioeingaben. Die Diarisierungsfähigkeiten sind besonders stark – sie unterscheiden genau zwischen Sprechern in weniger perfekten Aufnahmen. Die API-Suite ist schnell, gut dokumentiert und liefert ein reichhaltiges, detailliertes Ausgabeformat, das die Nachbearbeitung einfach und leistungsstark macht. Ich fand auch die Word Boost-Funktion besonders hilfreich: Die Möglichkeit, knifflige oder ungewöhnliche Wörter zu priorisieren, verbessert die Erkennungsgenauigkeit in speziellen Anwendungsfällen erheblich. Insgesamt ist es eine entwicklerfreundliche Plattform, die Präzision mit Flexibilität in Einklang bringt. Bewertung gesammelt von und auf G2.com gehostet.
Ehrlich gesagt, gibt es wenig zu beanstanden. Das Preismodell ist angemessen für das gebotene Qualitäts- und Funktionsniveau, und ich habe bei meiner Nutzung keine wesentlichen Nachteile festgestellt. Bewertung gesammelt von und auf G2.com gehostet.
Eines der besten Dinge an AssemblyAI ist, wie viel erschwinglicher und zugänglicher es im Vergleich zu vielen anderen Optionen auf dem Markt ist. Die Preisgestaltung ist einfach und budgetfreundlich, was es zu einer ausgezeichneten Wahl sowohl für kleine Entwickler als auch für größere Teams macht. Trotz der niedrigeren Kosten bleiben die Transkriptionsgenauigkeit und der Funktionsumfang erstklassig. Die API ist einfach zu implementieren, und die Dokumentation ist klar und hilfreich. Es ist zuverlässig, schnell und vollgepackt mit Funktionen wie Sprecherdiarisierung und Themenerkennung, die normalerweise viel teureren Plattformen vorbehalten sind. Bewertung gesammelt von und auf G2.com gehostet.
Derzeit sind einige Funktionen für europäische Nutzer nicht verfügbar, aber ich glaube, dass diese in Entwicklung sind. Bewertung gesammelt von und auf G2.com gehostet.
Es ist wirklich großartig, speziell für Spanisch und Benutzerdiaresierung. Außerdem ist es im Vergleich zur Speechmatics-API schnell; diese ist wirklich langsam, also auch dafür ein Lob, und es war wirklich kosteneffektiv. Ich muss 800-1000 Anrufe mit den kostenlosen Credits transkribiert haben, also ist das wirklich großartig. Insgesamt wirklich solide. Bewertung gesammelt von und auf G2.com gehostet.
Ich denke, der schlimmste Teil an Assembly war, dass die API selbst etwas kompliziert zu handhaben ist, da man bei Aufnahmen diese zuerst in Links umwandeln und dann die Links und Transkript-IDs an einen separaten Endpunkt senden muss. Ich kann immer noch damit arbeiten und habe viele Dinge getan, aber es wäre einfacher, wenn es eine einzige API gäbe, die im Hintergrund mit Aufnahmen arbeitet. Bewertung gesammelt von und auf G2.com gehostet.

Die außergewöhnliche Genauigkeit, selbst bei herausforderndem Audio und technischer Terminologie, kombiniert mit ihrer entwicklerfreundlichen API, die sich nahtlos integriert. Erweiterte Funktionen wie Sprecherdiarisierung und Inhaltsmoderation bieten einen enormen Mehrwert über die grundlegende Transkription hinaus. Bewertung gesammelt von und auf G2.com gehostet.
Die Integration mit komplexen Datenbanksystemen wie VertexDB kann herausfordernd sein und erfordert zusätzlichen Entwicklungsaufwand. Die Antwortlatenz kann manchmal länger als erwartet sein, insbesondere bei der Verarbeitung großer Audiodateien, was sich auf Echtzeitanwendungen auswirken kann, die sofortige Transkriptionsergebnisse erfordern. Bewertung gesammelt von und auf G2.com gehostet.

- Einfach zu konfigurieren dank guter Dokumentation
- Ich bin kein Entwickler, habe es aber herausgefunden
- In N8N für meine Automatisierung integriert
- Nano-Modell ist sehr kostengünstig
- Hervorragende Sprechererkennung Bewertung gesammelt von und auf G2.com gehostet.
- Es hat ein wenig Testen erfordert, um meine Einstellungen richtig zu bekommen, aber die gute Dokumentation hat geholfen.
- Funktioniert einwandfrei, sobald ich das kostenlose Level verlassen habe. Vorher wurde ich gedrosselt, was aber aufgrund des kostenlosen Kontos verständlich ist. Bewertung gesammelt von und auf G2.com gehostet.

Ich benutze AssemblyAI, um Transkripte meiner Podcast-Episoden zu erhalten, und die Genauigkeit ist ziemlich gut.
Der mit jedem Wort verbundene Zeitstempel ermöglicht es uns, leicht eine Verbindung mit dem Podcast-Audio herzustellen und genau dorthin zu springen, wo wir es brauchen.
Der Kundensupport war großartig. Bewertung gesammelt von und auf G2.com gehostet.
Nichts zu beanstanden. Manchmal ist es ein bisschen knifflig, wenn der Podcaster den Buchstabiercode des von ihm verwendeten Promo-Codes sagt.
Zum Beispiel, wenn der Promo-Code SUMMER ist. Ich bekomme vielleicht S-U-M-M-E-R, was nicht einfach zu handhaben ist. Aber es ist ein Ausnahmefall. Bewertung gesammelt von und auf G2.com gehostet.
Ich liebe es, wie AssemblyAI herausragende Transkriptionsgenauigkeit selbst bei lauten oder minderwertigen Audiodateien liefert. Die SDKs, die Dokumentation und die Codebeispiele machten die Integration in unseren Code sehr einfach und nahezu sofort. Darüber hinaus bedeuten Funktionen wie benutzerdefinierte Vokabularanpassung, Themen-Erkennung und Sentiment-Analyse, dass ich mich auf eine einzige Plattform für alles verlassen kann, von einfachen Transkripten bis hin zu tiefen Audio-Einblicken. Bewertung gesammelt von und auf G2.com gehostet.
Gelegentlich hat die API Schwierigkeiten mit starken Akzenten oder extrem schneller Sprache, was zu kleineren Fehltranskriptionen führt, die manuell korrigiert werden müssen. Bewertung gesammelt von und auf G2.com gehostet.