收集全球10,000⁺个好用的AI软件
-
llmware是什么?一文让你看懂llmware的技术原理、主要功能、应用场景llmware概述简介 llmware是为企业级应用设计的统一框架,适用于构建基于小型、专门化模型的RAG(Retrieval-Augmented ...
-
FilmAgent是什么?一文让你看懂FilmAgent的技术原理、主要功能、应用场景FilmAgent概述简介 FilmAgent是哈尔滨工业大学(深圳)的研究团队开发的基于多智能体协作框架的虚拟电影制作工具,通过自动化流程实现虚拟...
-
Whisper Input是什么?一文让你看懂Whisper Input的技术原理、主要功能、应用场景Whisper Input概述简介 Whisper Input 是开源的语音输入工具,基于 Python 和 OpenAI 的 Whisper 模型...
-
Fast3R是什么?一文让你看懂Fast3R的技术原理、主要功能、应用场景Fast3R概述简介 Fast3R是Meta和密歇根大学的开发人员提出的新型的多视图3D重建方法,基于Transformer架构,能在一个前向传播过...
-
Tarsier2是什么?一文让你看懂Tarsier2的技术原理、主要功能、应用场景Tarsier2概述简介 Tarsier2是字节跳动推出的先进的大规模视觉语言大模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现...
-
VideoLLaMA3是什么?一文让你看懂VideoLLaMA3的技术原理、主要功能、应用场景VideoLLaMA3概述简介 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合...
-
Baichuan-Omni-1.5是什么?一文让你看懂Baichuan-Omni-1.5的技术原理、主要功能、应用场景Baichuan-Omni-1.5概述简介 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具...
-
TeleAI-t1-preview是什么?一文让你看懂TeleAI-t1-preview的技术原理、主要功能、应用场景TeleAI-t1-preview概述简介 TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”,具备强大的逻辑推理与...
-
Qwen2.5-1M是什么?一文让你看懂Qwen2.5-1M的技术原理、主要功能、应用场景Qwen2.5-1M概述简介 Qwen2.5-1M是阿里通义千问团队推出的开源模型,支持100万Tokens的上下文长度。模型包括Qwen2.5-7...
-
DiffuEraser是什么?一文让你看懂DiffuEraser的技术原理、主要功能、应用场景DiffuEraser概述简介 DiffuEraser是基于稳定扩散模型的视频修复模型,以更丰富的细节和更连贯的结构填充视频中的遮罩区域。模型通过结...
-
Janus-Pro是什么?一文让你看懂Janus-Pro的技术原理、主要功能、应用场景Janus-Pro概述简介 Janus-Pro是 DeepSeek 推出的开源AI大模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适...
-
Qwen2.5-VL是什么?一文让你看懂Qwen2.5-VL的技术原理、主要功能、应用场景Qwen2.5-VL概述简介 Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言大模型,具有3B、7B和72B三种不同规模。模型在视觉理解方面...
-
QVQ-72B-Preview是什么?一文让你看懂QVQ-72B-Preview的技术原理、主要功能、应用场景QVQ-72B-Preview概述简介 QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个...
-
Qwen2.5-Max是什么?一文让你看懂Qwen2.5-Max的技术原理、主要功能、应用场景Qwen2.5-Max概述简介 Qwen2.5-Max是阿里云推出的超大规模MoE(Mixture of Experts)模型,使用超过20万亿to...
-
MobileVD是什么?一文让你看懂MobileVD的技术原理、主要功能、应用场景MobileVD概述简介 MobileVD(Mobile Video Diffusion)是首个针对移动设备优化的视频扩散模型,Qualcomm A...
-
YuE是什么?一文让你看懂YuE的技术原理、主要功能、应用场景YuE概述简介 YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为...
-
VARGPT是什么?一文让你看懂VARGPT的技术原理、主要功能、应用场景VARGPT概述简介 VARGPT是创新的多模态大语言大模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切...
-
CityDreamer4D是什么?一文让你看懂CityDreamer4D的技术原理、主要功能、应用场景CityDreamer4D概述简介 CityDreamer4D是南洋理工大学 S-Lab 团队开发的用于生成无边界 4D 城市的组合生成模型。将动态...
-
SpeechGPT 2.0-preview是什么?一文让你看懂SpeechGPT 2.0-preview的技术原理、主要功能、应用场景SpeechGPT 2.0-preview概述简介 SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交...
-
LalaEval是什么?一文让你看懂LalaEval的技术原理、主要功能、应用场景LalaEval概述简介 LalaEval是香港中文大学和货拉拉数据科学团队一起推出的面向特定领域大语言大模型(LLMs)的人类评估框架,框架通过一...