低延迟

首页 > 低延迟

VideoChat

VideoChat是一个实时语音交互数字人项目，支持端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）。...
ElevenLabs Flash

Flash是ElevenLabs最新推出的文本转语音(Text-to-Speech, TTS)模型，它以75毫秒加上应用和网络延迟的速度生成语音，是低...
Retell AI

Retell AI是一个能够帮助开发者在一天内构建人类般对话语音AI的API。它具有大约800毫秒的响应时间，并能够处理中断。使用Retell AI，...
Carteisa Sonic

Sonic是由Carteisa团队开发的低延迟语音模型，旨在为各种设备提供逼真的语音生成能力。该模型利用了创新的状态空间模型架构，以实现高分辨率音频和...
SenseVoice

SenseVoice是一个包含自动语音识别(ASR)、语音语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)等多语音理解能力的语音基础...
voicechat2

voicechat2是一个基于WebSocket的快速、完全本地化的AI语音聊天应用程序，使用户能够在本地环境中实现语音到语音的即时通讯。它利用了AM...
LLaMA-Omni

LLaMA-Omni是一个基于Llama-3.1-8B-Instruct构建的低延迟、高质量的端到端语音交互模型，旨在实现GPT-4o级别的语音能力。...
CosyVoice 2

CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型，它基于监督离散语音标记，并结合了两种流行的生成模型：语...
ElevenLabs Flash

Flash是ElevenLabs最新推出的文本转语音(Text-to-Speech, TTS)模型，它以75毫秒加上应用和网络延迟的速度生成语音，是低...
SpeechGPT 2.0-preview

SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练，实现了低延迟、高自然度的...
Hibiki

Hibiki 是一款专注于流式语音翻译的先进模型。它通过实时积累足够的上下文信息来逐块生成正确的翻译，支持语音和文本翻译，并可进行声音转换。该模型基于...
Groq

Groq是一家提供高性能AI芯片和云服务的公司，专注于为AI模型提供超低延迟的推理服务。其产品GroqCloud?自2024年2月推出以来，已经有超过...
Cloudflare AI Agents

Cloudflare AI Agents 是一个基于 Cloudflare Workers 和 Workers AI 的平台，旨在帮助开发者构建能够自...
Gemini 2.0 Family

Gemini 2.0 是谷歌在生成式 AI 领域的重要进展，代表了最新的人工智能技术。它通过强大的语言生成能力，为开发者提供高效、灵活的解决方案，适用...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL