收集全球10,000⁺个好用的AI软件
-
cobalt是什么?一文让你看懂cobalt的技术原理、主要功能、应用场景cobalt概述简介 cobalt是开源的流媒体下载工具,提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载,包括主流视频网站、...
-
CogAgent-9B是什么?一文让你看懂CogAgent-9B的技术原理、主要功能、应用场景CogAgent-9B概述简介 CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML...
-
AGUVIS是什么?一文让你看懂AGUVIS的技术原理、主要功能、应用场景AGUVIS概述简介 AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架,专为自主GUI智能体设计,能在各种平台(如网页、桌面...
-
Enhance-A-Video是什么?一文让你看懂Enhance-A-Video的技术原理、主要功能、应用场景Enhance-A-Video概述简介 Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生...
-
Valley是什么?一文让你看懂Valley的技术原理、主要功能、应用场景Valley概述简介 Valley是字节跳动推出的多模态大模型,用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准...
-
联通元景是什么?一文让你看懂联通元景的技术原理、主要功能、应用场景联通元景概述简介 联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合...
-
DiTCtrl是什么?一文让你看懂DiTCtrl的技术原理、主要功能、应用场景DiTCtrl概述简介 DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTC...
-
MNN是什么?一文让你看懂MNN的技术原理、主要功能、应用场景MNN概述简介 MNN(Mobile Neural Network)是阿里集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等...
-
启元重症大模型是什么?一文让你看懂启元重症大模型的技术原理、主要功能、应用场景启元重症大模型概述简介 启元重症大模型是腾讯和迈瑞医疗联合发布的全球首个重症医疗大模型,专为ICU病房设计,解决重症监护中的痛点问题。模型整体参数量...
-
Poetry2Image是什么?一文让你看懂Poetry2Image的技术原理、主要功能、应用场景Poetry2Image概述简介 Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架,哈尔滨工业大学提出。框架通过自动化的反馈和...
-
PeterCat是什么?一文让你看懂PeterCat的技术原理、主要功能、应用场景PeterCat概述简介 PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率...
-
PartGen是什么?一文让你看懂PartGen的技术原理、主要功能、应用场景PartGen概述简介 PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI一起推出的。PartGen能识别并生成...
-
Vision Parse是什么?一文让你看懂Vision Parse的技术原理、主要功能、应用场景Vision Parse概述简介 Vision Parse是开源的PDF文档转换工具,基于视觉语言大模型(Vision LLMs)将PDF文件转换成...
-
The Language of Motion是什么?一文让你看懂The Language of Motion的技术原理、主要功能、应用场景The Language of Motion概述简介 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言大模型,能整...
-
Mathtutor on Groq是什么?一文让你看懂Mathtutor on Groq的技术原理、主要功能、应用场景Mathtutor on Groq概述简介 Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具,基于语音识别功能,支持用户...
-
VE-Bench是什么?一文让你看懂VE-Bench的技术原理、主要功能、应用场景VE-Bench概述简介 VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目...
-
EDTalk是什么?一文让你看懂EDTalk的技术原理、主要功能、应用场景EDTalk概述简介 EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一...
-
video-analyzer是什么?一文让你看懂video-analyzer的技术原理、主要功能、应用场景video-analyzer概述简介 video-analyzer 是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whispe...
-
SPAR是什么?一文让你看懂SPAR的技术原理、主要功能、应用场景SPAR概述简介 SPAR是智谱团队推出的自我博弈框架,能增强大型语言大模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成...
-
LowCodeEngine是什么?一文让你看懂LowCodeEngine的技术原理、主要功能、应用场景LowCodeEngine概述简介 LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系...