收集全球10,000⁺个好用的AI软件
-
RAIN是什么?一文让你看懂RAIN的技术原理、主要功能、应用场景RAIN概述简介 RAIN(Real-time Animation Of Infinite Video Stream)是创新的实时动画解决方案,基于...
-
Pipecat是什么?一文让你看懂Pipecat的技术原理、主要功能、应用场景Pipecat概述简介 Pipecat是开源的Python框架,专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音(TTS)和对话处理功...
-
RealtimeSTT是什么?一文让你看懂RealtimeSTT的技术原理、主要功能、应用场景RealtimeSTT概述简介 RealtimeSTT是开源的实时语音转文本库,专为低延迟应用设计。有强大的语音活动检测功能,可自动识别说话的开始与...
-
Step R-mini是什么?一文让你看懂Step R-mini的技术原理、主要功能、应用场景Step R-mini概述简介 Step R-mini(全称Step Reasoner mini)是阶跃星辰推出的推理模型, 是 Step 系列模型...
-
GLM-Realtime是什么?一文让你看懂GLM-Realtime的技术原理、主要功能、应用场景GLM-Realtime概述简介 GLM-Realtime是智谱推出的全新端到端多模态模型,具备低延迟的视频理解与语音交互能力,特别融入清唱功能,让...
-
CogView-3-Flash是什么?一文让你看懂CogView-3-Flash的技术原理、主要功能、应用场景CogView-3-Flash 概述简介 CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,能根据文本描述生成高审美分数的图像,...
-
MangaNinja是什么?一文让你看懂MangaNinja的技术原理、主要功能、应用场景MangaNinja概述简介 MangaNinja是基于参考图像的线稿上色方法,具备精准匹配和细致控制的能力。通过创新的补丁重排模块和点驱动控制方案...
-
AutoMouser是什么?一文让你看懂AutoMouser的技术原理、主要功能、应用场景AutoMouser概述简介 AutoMouser是Chrome扩展程序,能智能地跟踪用户交互,基于OpenAI的GPT模型自动生成Selenium...
-
CogVideoX-Flash是什么?一文让你看懂CogVideoX-Flash的技术原理、主要功能、应用场景CogVideoX-Flash概述简介 CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,继承CogVideoX自研的端到端视频...
-
Mini-InternVL是什么?一文让你看懂Mini-InternVL的技术原理、主要功能、应用场景Mini-InternVL概述简介 Mini-InternVL是“迷你版”书生·万象大模型,是上海AI实验室与清华大学、南京大学等机构联合推出的轻量...
-
Weebo是什么?一文让你看懂Weebo的技术原理、主要功能、应用场景Weebo概述简介 Weebo是实时语音聊天机器人,基于Whisper Small、Llama 3.2和Kokoro-82M技术驱动。能通过语音识别...
-
ParGo是什么?一文让你看懂ParGo的技术原理、主要功能、应用场景ParGo概述简介 ParGo是字节团队与中山大学合作提出的创新的多模态大语言大模型连接器,提升视觉和语言模态在多模态大语言大模型(MLLMs)中的...
-
MatterGen是什么?一文让你看懂MatterGen的技术原理、主要功能、应用场景MatterGen概述简介 MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,...
-
XMusic是什么?一文让你看懂XMusic的技术原理、主要功能、应用场景XMusic概述简介 XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生...
-
Seaweed APT是什么?一文让你看懂Seaweed APT的技术原理、主要功能、应用场景Seaweed APT概述简介 Seaweed APT是字节跳动推出的对抗性后训练(Adversarial Post-Training)模型,能实现...
-
OmAgent是什么?一文让你看懂OmAgent的技术原理、主要功能、应用场景OmAgent概述简介 OmAgent是Om AI和浙江大学滨江研究院联合开源的多模态语言代理框架,能简化设备端智能代理的开发。OmAgent支持可...
-
T2A-01-HD是什么?一文让你看懂T2A-01-HD的技术原理、主要功能、应用场景T2A-01-HD概述简介 T2A-01-HD是海螺AI海外版推出新的语音模型。支持声音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。模型具备...
-
Uni-AdaFocus是什么?一文让你看懂Uni-AdaFocus的技术原理、主要功能、应用场景Uni-AdaFocus概述简介 Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架,框架通过自适应聚焦机制,动态调整...
-
AnyStory是什么?一文让你看懂AnyStory的技术原理、主要功能、应用场景AnyStory概述简介 AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架,实现单个和多个主体的高保真个性化图像生成。通过“编码-路...
-
SHMT是什么?一文让你看懂SHMT的技术原理、主要功能、应用场景SHMT概述简介 SHMT(Self-supervised Hierarchical Makeup Transfer)是阿里巴巴达摩院与武汉理工大学...