收集全球10,000⁺个好用的AI软件
-
讯飞星火讯飞星火是科大讯飞推出的一款全面对标GPT-4 Turbo的AI大语言模型,它通过集成多种AI技术,如语音识别、自然语言处理、机器学习等,为用户提供高...
-
Spirit LMSpirit LM是一个基础多模态语言模型,能够自由混合文本和语音。该模型基于一个7B预训练的文本语言模型,通过持续在文本和语音单元上训练来扩展到语音...
-
GLM-4-VoiceGLM-4-Voice是由清华大学团队开发的端到端语音模型,能够直接理解和生成中英文语音,进行实时语音对话。它通过先进的语音识别和合成技术,实现了语音...
-
Universal-2Universal-2是AssemblyAI推出的最新语音识别模型,它在准确度和精确度上超越了前一代Universal-1,能够更好地捕捉人类语言的复...
-
hertz-devhertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型,拥有85亿参数。该模型代表了可扩展的跨模态学习技术...
-
OuteTTS-0.1-350MOuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术,它不需要外部适配器或复杂架构,通过精心设计的提示和音频标记实现高质量的语音合...
-
PlayDialogPlayDialog是Play.ai推出的一款端到端AI语音模型,它利用对话的历史背景来控制韵律、语调、情感和节奏,以提供更自然的声音,为匹配人类在现...
-
卡卡字幕助手卡卡字幕助手(VideoCaptioner)是一款功能强大的视频字幕配制软件,利用大语言模型进行字幕智能断句、校正、优化、翻译,实现字幕视频全流程一键...
-
ultravox-v0_4_1-llama-3_1-8bfixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-...
-
ultravox-v0_4_1-llama-3_1-70bfixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whispe...
-
ultravox-v0_4_1-mistral-nemoultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-lar...
-
ClearerVoice-StudioClearerVoice-Studio是一个开源的AI驱动语音处理工具包,专为研究人员、开发者和最终用户设计。它提供了语音增强、语音分离、目标说话人提...
-
OmniAudio-2.6BOmniAudio-2.6B是一个2.6B参数的多模态模型,能够无缝处理文本和音频输入。该模型结合了Gemma-2B、Whisper turbo和一个...
-
CosyVoice 2CosyVoice 2是由阿里巴巴集团的SpeechLab@Tongyi团队开发的语音合成模型,它基于监督离散语音标记,并结合了两种流行的生成模型:语...
-
CartesiaCartesia提供实时多模态智能技术,旨在为各种设备提供服务。产品包括Sonic和On-Device两大核心功能。Sonic是快速、超逼真的生成性语...
-
Kokoro-82MKokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音(TTS)模型。它具有8200万参数,使用Apache 2...
-
MiniCPM-o-2_6MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最强大的模型。该模型基于SigLip-400M、Whisper-medium-300M、...
-
Llasa-3BLlasa-3B 是一个强大的文本到语音(TTS)模型,基于 LLaMA 架构开发,专注于中英文语音合成。该模型通过结合 XCodec2 的语音编码技...
-
Llasa-1BLlasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。它基于 LLaMA 架构,通过结合 XCodec2 代码本中的语音标记,能够将文...
-
PengChengStarlingPengChengStarling 是一个专注于多语言自动语音识别(ASR)的开源工具包,基于 icefall 项目开发。它支持完整的 ASR 流程,...