开源

收集全球10,000⁺个好用的AI软件

首页 > 开源

Reverb

Reverb 是一个开源的语音识别和说话人分割模型推理代码，使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。...
Praises

Praises是一款文本转语音（TTS）工具，它通过将文本转换为语音输出，帮助用户更轻松地获取信息。这款工具支持多种API，包括Azure API、E...
Transcribro

Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用，它使用whisper.cpp来运行OpenAI Whi...
hertz-dev

hertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型，拥有85亿参数。该模型代表了可扩展的跨模态学习技术...
WhisperNER

WhisperNER是一个结合了自动语音识别（ASR）和命名实体识别（NER）的统一模型，具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大...
ClearerVoice-Studio

ClearerVoice-Studio是一个开源的AI驱动语音处理工具包，专为研究人员、开发者和最终用户设计。它提供了语音增强、语音分离、目标说话人提...
Desk-Emoji

Desk-Emoji是一个真正的开源AI桌面机器人，它集成了表情屏幕、双轴控制台和大型语言模型（LLM）的语音聊天功能。这款产品以其独特的设计和开源特...
Moonshine Web

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR...
Home Assistant Voice

Home Assistant Voice Preview Edition是一款开源、注重隐私的语音助手硬件产品，旨在提供一种开放、本地化、私人化的语音...
BetterWhisperX

BetterWhisperX是一个基于WhisperX改进的自动语音识别模型，它能够提供快速的语音转文字服务，并具备词级时间戳和说话人识别功能。这个工...
opensource_notebooklm

opensource_notebooklm是一个开源项目，旨在通过结合Deepseek-V3语言理解和PlayHT文本转语音技术，实现自然、教育性的对...
xiaozhi-esp32

xiaozhi-esp32 是一个开源的 AI 聊天机器人项目，基于乐鑫的 ESP-IDF 开发。它将大语言模型与硬件设备相结合，使用户能够打造出个性...
fixa

fixa是一个专注于AI语音代理测试与可观测性的平台，旨在帮助开发者和企业快速发现并修复语音代理中的问题。通过自动化测试、生产监控和错误检测等功能，确...
Kokoro-82M

Kokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音（TTS）模型。它具有8200万参数，使用Apache 2...
audiblez

Audiblez是一个利用Kokoro高质量语音合成技术，将普通电子书（.epub格式）转换为.m4b格式有声书的工具。它支持多种语言和声音，用户可以...
RealtimeSTT

RealtimeSTT是一个开源的语音识别模型，能够实时将语音转换为文本。它使用了先进的语音活动检测技术，可以自动检测语音的开始和结束，无需手动操作。...
kokoro-onnx

kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音（TTS）项目。它支持英语，并计划支持法语、日语、韩语和中文。该模型在ma...
百聆

百聆是一个开源的语音对话助手，旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成...
Llasa-3B

Llasa-3B 是一个强大的文本到语音（TTS）模型，基于 LLaMA 架构开发，专注于中英文语音合成。该模型通过结合 XCodec2 的语音编码技...
Llasa-1B

Llasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。它基于 LLaMA 架构，通过结合 XCodec2 代码本中的语音标记，能够将文...

«
1
2
...
6
7
8
9
10
11
12
...
15
16
»

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们