功能

首页 > 功能

cobalt是什么？一文让你看懂cobalt的技术原理、主要功能、应用场景

cobalt概述简介 cobalt是开源的流媒体下载工具，提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载，包括主流视频网站、...
CogAgent-9B是什么？一文让你看懂CogAgent-9B的技术原理、主要功能、应用场景

CogAgent-9B概述简介 CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型，仅依赖屏幕截图作为输入，无需HTML...
AGUVIS是什么？一文让你看懂AGUVIS的技术原理、主要功能、应用场景

AGUVIS概述简介 AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架，专为自主GUI智能体设计，能在各种平台（如网页、桌面...
Enhance-A-Video是什么？一文让你看懂Enhance-A-Video的技术原理、主要功能、应用场景

Enhance-A-Video概述简介 Enhance-A-Video 是新加坡国立大学、上海人工智能实验室和德克萨斯大学奥斯汀分校联合推出的视频生...
Valley是什么？一文让你看懂Valley的技术原理、主要功能、应用场景

Valley概述简介 Valley是字节跳动推出的多模态大模型，用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准...
联通元景是什么？一文让你看懂联通元景的技术原理、主要功能、应用场景

联通元景概述简介联通元景（UniT2IXL）是中国联通AI推出的中文原生文生图模型，完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合...
DiTCtrl是什么？一文让你看懂DiTCtrl的技术原理、主要功能、应用场景

DiTCtrl概述简介 DiTCtrl是基于多模态扩散变换器（MM-DiT）架构的多提示视频生成方法，是香港中文大学和腾讯等机构联合推出的。DiTC...
MNN是什么？一文让你看懂MNN的技术原理、主要功能、应用场景

MNN概述简介 MNN（Mobile Neural Network）是阿里集团开源的轻量级深度学习推理框架，为移动端、服务器、个人电脑、嵌入式设备等...
启元重症大模型是什么？一文让你看懂启元重症大模型的技术原理、主要功能、应用场景

启元重症大模型概述简介启元重症大模型是腾讯和迈瑞医疗联合发布的全球首个重症医疗大模型，专为ICU病房设计，解决重症监护中的痛点问题。模型整体参数量...
Poetry2Image是什么？一文让你看懂Poetry2Image的技术原理、主要功能、应用场景

Poetry2Image概述简介 Poetry2Image是一个专为中文古诗词图像生成设计的迭代校正框架，哈尔滨工业大学提出。框架通过自动化的反馈和...
PeterCat是什么？一文让你看懂PeterCat的技术原理、主要功能、应用场景

PeterCat概述简介 PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题，提升社区支持效率...
PartGen是什么？一文让你看懂PartGen的技术原理、主要功能、应用场景

PartGen概述简介 PartGen是先进的3D对象生成和重建框架，是牛津大学的视觉几何小组和Meta AI一起推出的。PartGen能识别并生成...
Vision Parse是什么？一文让你看懂Vision Parse的技术原理、主要功能、应用场景

Vision Parse概述简介 Vision Parse是开源的PDF文档转换工具，基于视觉语言大模型（Vision LLMs）将PDF文件转换成...
The Language of Motion是什么？一文让你看懂The Language of Motion的技术原理、主要功能、应用场景

The Language of Motion概述简介 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言大模型，能整...
Mathtutor on Groq是什么？一文让你看懂Mathtutor on Groq的技术原理、主要功能、应用场景

Mathtutor on Groq概述简介 Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具，基于语音识别功能，支持用户...
VE-Bench是什么？一文让你看懂VE-Bench的技术原理、主要功能、应用场景

VE-Bench概述简介 VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目...
EDTalk是什么？一文让你看懂EDTalk的技术原理、主要功能、应用场景

EDTalk概述简介 EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型，能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一...
video-analyzer是什么？一文让你看懂video-analyzer的技术原理、主要功能、应用场景

video-analyzer概述简介 video-analyzer 是开源的视频分析工具，结合Llama的11B视觉模型和OpenAI的Whispe...
SPAR是什么？一文让你看懂SPAR的技术原理、主要功能、应用场景

SPAR概述简介 SPAR是智谱团队推出的自我博弈框架，能增强大型语言大模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动，生成...
LowCodeEngine是什么？一文让你看懂LowCodeEngine的技术原理、主要功能、应用场景

LowCodeEngine概述简介 LowCodeEngine是阿里巴巴开源的低代码开发框架，基于提供拖拽、配置等简单操作，让开发者快速构建复杂的系...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL