收集全球10,000⁺个好用的AI软件
-
Sketch2Sound是什么?一文让你看懂Sketch2Sound的技术原理、主要功能、应用场景Sketch2Sound概述简介 Sketch2Sound是Adobe 研究院和西北大学推出的AI音频生成技术,能基于声音模仿和文本提示生成高品质音...
-
OmniAudio-2.6B是什么?一文让你看懂OmniAudio-2.6B的技术原理、主要功能、应用场景OmniAudio-2.6B概述简介 OmniAudio-2.6B是Nexa AI推出的音频语言大模型,专为边缘部署设计,能实现快速且高效的音频文本...
-
DreamOmni是什么?一文让你看懂DreamOmni的技术原理、主要功能、应用场景DreamOmni概述简介 DreamOmni 是香港中文大学、字节跳动和香港科技大学一起推出的统一图像生成和编辑模型。模型整合文本到图像(T2I)...
-
QVQ是什么?一文让你看懂QVQ的技术原理、主要功能、应用场景QVQ概述简介 QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视...
-
Open Notebook是什么?一文让你看懂Open Notebook的技术原理、主要功能、应用场景Open Notebook概述简介 Open Notebook是开源、注重隐私的谷歌NotebookLM替代工具,能帮助用户管理研究工作流程,生成A...
-
PC Agent是什么?一文让你看懂PC Agent的技术原理、主要功能、应用场景PC Agent概述简介 PC Agent是上海交通大学和Generative AI Research Lab (GAIR)联合推出的先进AI系统。...
-
Midscene.js是什么?一文让你看懂Midscene.js的技术原理、主要功能、应用场景Midscene.js概述简介 Midscene.js是基于AI技术的自动化SDK,通过用大型语言大模型(LLM)简化UI自动化测试中的命令。用户用...
-
ASAL是什么?一文让你看懂ASAL的技术原理、主要功能、应用场景ASAL概述简介 ASAL(Automated Search for Artificial Life)是用基础模型自动化搜索人工生命(ALife)的...
-
Browser Use是什么?一文让你看懂Browser Use的技术原理、主要功能、应用场景Browser Use概述简介 Browser Use是专门为大语言大模型服务的智能浏览器工具,创新的Python工具库,让AI代理能像人类一样自然...
-
TRELLIS是什么?一文让你看懂TRELLIS的技术原理、主要功能、应用场景TRELLIS概述简介 TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型,基于Structured LATent(SLAT)...
-
WiS是什么?一文让你看懂WiS的技术原理、主要功能、应用场景WiS概述简介 WiS(Who is Spy)是淘天集团和阿里的技术研究团队推出的创新在线AI竞赛平台,专门设计用在测试和分析基于大型语言大模型(L...
-
DRT-o1是什么?一文让你看懂DRT-o1的技术原理、主要功能、应用场景DRT-o1概述简介 DRT-o1是腾讯研究院推出的一系列AI大模型,通过长链思考推理(CoT)技术显著提升了文学作品的翻译质量,尤其在处理比喻和隐...
-
FastExcel是什么?一文让你看懂FastExcel的技术原理、主要功能、应用场景FastExcel概述简介 FastExcel是基于Java的开源库,提供快速、简洁且能解决大文件内存溢出问题的Excel处理工具。FastExce...
-
FinRobot是什么?一文让你看懂FinRobot的技术原理、主要功能、应用场景FinRobot概述简介 FinRobot是开源的AI代理平台,专注于金融领域的应用。基于大型语言大模型(LLMs)来构建能进行复杂分析和决策的金融...
-
DeepSeek V3是什么?一文让你看懂DeepSeek V3的技术原理、主要功能、应用场景DeepSeek V3概述简介 DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI大模型,在多...
-
3DHM是什么?一文让你看懂3DHM的技术原理、主要功能、应用场景3DHM概述简介 3DHM(3D Human Motions)是先进的3D人体动作生成技术,加州大学伯克利分校的开发人员推出。能从单张人物照片生成具...
-
Diff-Instruct是什么?一文让你看懂Diff-Instruct的技术原理、主要功能、应用场景Diff-Instruct概述简介 Diff-Instruct是先进的知识转移方法,用于从预训练的扩散模型中提取知识,指导其他生成模型的训练。它基于...
-
VidTok是什么?一文让你看懂VidTok的技术原理、主要功能、应用场景VidTok概述简介 VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支...
-
Infinity是什么?一文让你看懂Infinity的技术原理、主要功能、应用场景Infinity概述简介 Infinity是字节跳动推出的基于位级自回归建模的视觉生成模型,能根据语言指令生成高分辨率、逼真的图像。Infinity...
-
ModernBERT是什么?一文让你看懂ModernBERT的技术原理、主要功能、应用场景ModernBERT概述简介 ModernBERT是Answer.AI、LightOn、约翰斯·霍普金斯大学、英伟达和HuggingFace联合推出...