Together AI 推出了其最快的 ASR 堆栈,利用 NVIDIA Parakeet v3 和 Whisper 进行实时、低延迟的转录。有关技术和市场影响的详细信息。

AI 宣布推出号称世界上最快的语音转文本 (ASR) 堆栈,能够在 10 秒内转录 20 小时的语音。这一突破利用了 NVIDIA 的 Parakeet-TDT 0.6B v3 和 OpenAI 的 Whisper Large v3,两者都针对低延迟和高吞吐量应用程序进行了优化。这一发展可以显着推进实时语音人工智能系统,这是该公司扩展基础设施时关注的一个关键领域。
Together AI 成就的核心在于将 ASR 视为全路径系统问题,而不是仅仅关注 GPU 推理。这种整体方法解决了预处理、GPU 执行、内存管理和网络方面的瓶颈。例如,TensorRT 配置文件调整、条件 CUDA 图和零复制数据路径等创新极大地减少了整个堆栈的延迟。
一个突出的优化是 Parakeet v3 中的解码器循环。通过将条件逻辑从 CPU 转移到 GPU,Together AI 消除了代价高昂的同步延迟,从而使解码速度提高了 2-3 倍。同样,使用共享内存和事件 I/O 进行流式转录可以最大限度地减少开销,确保实时应用程序的高吞吐量和低抖动。
Parakeet v3 是一种经过 170 万小时音频训练的多语言 ASR 模型,与前身相比实现了重大飞跃。它现在支持 25 种欧洲语言,包括自动语言检测,并保留其行业领先的英语转录性能。 Together AI 的平台还集成了 Whisper Large v3,用于生产规模的工作负载,为构建语音驱动应用程序的开发人员创建了一个强大的生态系统。
满足市场需求
此公告将 Together AI 定位为 ASR 市场的有力竞争者,特别是对于实时和流媒体用例。与依赖孤立管道的传统 ASR 系统不同,Together AI 提供了一个模块化堆栈,其中语音转文本 (STT)、自然语言理解 (NLU) 和文本转语音 (TTS) 可以在同一基础设施上协同运行。这减少了延迟,并允许开发人员检查和操作中间输出,这是实时语音代理的关键区别。
最近的合作伙伴关系凸显了该公司构建开放、可组合生态系统的战略。 2026 年 4 月,Deepgram 将其 ASR 模型直接集成到 Together AI 的平台上,使开发人员能够将专门的语音模型与 Together AI 的基础设施混合和匹配。随着人工智能工作负载转向统一架构、结合语音、语言和多模式功能,这种灵活性变得越来越有价值。
行业和投资者影响
根据 2026 年 3 月的报告,Together AI 的进步正值该公司寻求以 75 亿美元的估值筹集资金之际。投资者的兴趣反映了对高性能推理基础设施不断增长的需求,尤其是语音和多模式人工智能系统。 Together AI 的平台已支持超过 450,000 名开发人员和 200 个开源模型,因此处于有利地位,可以充分利用这一势头。
Deepgram 和 Google 等竞争对手仍然主导着 ASR 市场的各个领域,但 Together AI 对开放模型托管和实时性能的关注可能会占据重要的市场份额。 NVIDIA ASR 技术的集成进一步巩固了其技术可信度,特别是考虑到 NVIDIA 在 AI 硬件和软件优化方面的领先地位。
随着语音接口越来越融入消费者和企业应用程序,像Together AI这样的低延迟和可扩展的ASR解决方案可以重新定义用户的期望。随着公司不断完善其堆栈并扩展其生态系统,开发人员、投资者和企业都应该密切关注。
书签












