收集全球10,000⁺个好用的AI软件
-
Step-1o Vision是什么?一文让你看懂Step-1o Vision的技术原理、主要功能、应用场景Step-1o Vision概述简介 Step-1o Vision 是阶跃星辰最新研发的原生端到端多模态生成与理解一体化模型中的视觉版本。专注于视觉...
-
3DIS-FLUX是什么?一文让你看懂3DIS-FLUX的技术原理、主要功能、应用场景3DIS-FLUX概述简介 3DIS-FLUX是基于深度学习的多实例生成框架,通过解耦实例合成实现高质量的图像生成。结合3DIS框架的深度驱动场景构...
-
DITTO-2是什么?一文让你看懂DITTO-2的技术原理、主要功能、应用场景DITTO-2概述简介 DITTO-2 是 Adobe 和加州大学开发人员联合推出的新型音乐生成模型,通过优化扩散模型的推理时间,实现快速且可控的音...
-
DiffEditor是什么?一文让你看懂DiffEditor的技术原理、主要功能、应用场景DiffEditor概述简介 DiffEditor是北京大学深圳研究生院与腾讯PCG的研究团队提出的基于扩散模型(Diffusion Model)的...
-
Textoon是什么?一文让你看懂Textoon的技术原理、主要功能、应用场景Textoon概述简介 Textoon是阿里集团通义实验室推出的创新项目,首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和...
-
子曰-o1是什么?一文让你看懂子曰-o1的技术原理、主要功能、应用场景子曰-o1概述简介 子曰-o1是网易有道发布的国内首个输出分步式讲解的推理模型。模型采用14B轻量级架构,专为消费级显卡设计,能在低显存设备上稳定运...
-
豆包大模型1.5是什么?一文让你看懂豆包大模型1.5的技术原理、主要功能、应用场景豆包大模型1.5概述简介 豆包大模型1.5 是字节跳动推出的最新版本大模型。采用大规模稀疏MoE架构,等效于7倍激活参数的Dense模型性能,综合得...
-
OmniManip是什么?一文让你看懂OmniManip的技术原理、主要功能、应用场景OmniManip概述简介 OmniManip 是北京大学与智元机器人联合实验室开发的通用机器人操作框架,通过结合视觉语言大模型(VLM)的高层次推...
-
WebWalker是什么?一文让你看懂WebWalker的技术原理、主要功能、应用场景WebWalker概述简介 WebWalker是阿里巴巴自然语言处理团队开发的用于评估和提升大型语言大模型(LLMs)在网页浏览任务中性能的工具。通...
-
VideoChat-Flash是什么?一文让你看懂VideoChat-Flash的技术原理、主要功能、应用场景VideoChat-Flash概述简介 VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言大...
-
EmoLLM是什么?一文让你看懂EmoLLM的技术原理、主要功能、应用场景EmoLLM概述简介 EmoLLM 是专注于心理健康支持的大型语言大模型,通过多模态情感理解为用户提供情绪辅导和心理支持。结合了文本、图像、视频等多...
-
Step-Video V2是什么?一文让你看懂Step-Video V2的技术原理、主要功能、应用场景Step-Video V2概述简介 Step-Video V2 是上海阶跃星辰智能科技发布的升级版视频生成模型。该版本在多个核心技术领域进行了优化和...
-
UI-TARS是什么?一文让你看懂UI-TARS的技术原理、主要功能、应用场景UI-TARS概述简介 UI-TARS是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,通过自然语言实现对桌面、移动设备和网页界面的自动化交...
-
EMO2是什么?一文让你看懂EMO2的技术原理、主要功能、应用场景EMO2概述简介 EMO2 (End-Effector Guided Audio-Driven Avatar Video Generation)是阿...
-
PaSa是什么?一文让你看懂PaSa的技术原理、主要功能、应用场景PaSa概述简介 PaSa是字节跳动研究团队(ByteDance Research)推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为,...
-
Baichuan-M1-preview是什么?一文让你看懂Baichuan-M1-preview的技术原理、主要功能、应用场景Baichuan-M1-preview概述简介 Baichuan-M1-preview 是百川智能推出的国内首个全场景深度思考模型。模型具备语言、视...
-
TokenVerse是什么?一文让你看懂TokenVerse的技术原理、主要功能、应用场景TokenVerse概述简介 TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性...
-
Baichuan-M1-14B是什么?一文让你看懂Baichuan-M1-14B的技术原理、主要功能、应用场景Baichuan-M1-14B概述简介 Baichuan-M1-14B是百川智能推出的行业首个开源医疗增强大模型,医疗能力超越了更大参数量的Qwen...
-
CogVideoX-2是什么?一文让你看懂CogVideoX-2的技术原理、主要功能、应用场景CogVideoX-2概述简介 CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压...
-
CogView-4是什么?一文让你看懂CogView-4的技术原理、主要功能、应用场景CogView4概述简介 CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench ...