收集全球10,000⁺个好用的AI软件
-
AIMv2是什么?一文让你看懂AIMv2的技术原理、主要功能、应用场景AIMv2概述简介 AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划...
-
VidSketch是什么?一文让你看懂VidSketch的技术原理、主要功能、应用场景VidSketch概述简介 VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架,根据手绘草图和简单文本提示...
-
HippoRAG 2是什么?一文让你看懂HippoRAG 2的技术原理、主要功能、应用场景HippoRAG 2是什么 HippoRAG 2是俄亥俄州立大学推出的检索增强生成(RAG)框架,解决现有RAG系统在模拟人类长期记忆动态性和关联性...
-
LDGen是什么?一文让你看懂LDGen的技术原理、主要功能、应用场景LDGen概述简介 LDGen是创新的文本到图像合成技术,通过结合大型语言大模型(LLMs)与扩散模型,提升文本描述到图像生成的质量和语义一致性。通...
-
AI-Infra-Guard是什么?一文让你看懂AI-Infra-Guard的技术原理、主要功能、应用场景AI-Infra-Guard概述简介 AI-Infra-Guard是腾讯开源的高效、轻量级易于使用的 AI 基础设施安全评估工具,能发现和检测 AI...
-
Mahilo是什么?一文让你看懂Mahilo的技术原理、主要功能、应用场景Mahilo概述简介 Mahilo 是灵活的多智能体框架,支持创建与人类互动的多智能体系统。Mahilo支持实时语音和文本通信,智能体之间能自主共享...
-
WorldCraft是什么?一文让你看懂WorldCraft的技术原理、主要功能、应用场景WorldCraft概述简介 WorldCraft是香港科技大学推出的基于大型语言大模型(LLM)代理的3D世界创建和定制系统,用在创建和定制逼真的...
-
Mobius是什么?一文让你看懂Mobius的技术原理、主要功能、应用场景Mobius概述简介 Mobius 是先进的无缝循环视频生成技术,能通过人工智能算法从文本描述生成无限循环的视频内容。核心在于强大的AI大模型,能自...
-
WarriorCoder是什么?一文让你看懂WarriorCoder的技术原理、主要功能、应用场景WarriorCoder概述简介 WarriorCoder 是华南理工大学计算机科学与工程学院和微软推出的代码生成大语言大模型(LLM)。基于模拟专...
-
xAR是什么?一文让你看懂xAR的技术原理、主要功能、应用场景xAR概述简介 xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction...
-
Avat3r是什么?一文让你看懂Avat3r的技术原理、主要功能、应用场景Avat3r概述简介 Avat3r 是慕尼黑工业大学和 Meta Reality Labs 推出的高保真三维头部头像的大型可动画高斯重建模型,仅需几...
-
WhisperChain是什么?一文让你看懂WhisperChain的技术原理、主要功能、应用场景WhisperChain概述简介 WhisperChain 是开源的语音识别工具,基于语音输入提升工作效率。WhisperChain用 Whispe...
-
星火医疗大模型X1是什么?一文让你看懂星火医疗大模型X1的技术原理、主要功能、应用场景星火医疗大模型X1概述简介 星火医疗大模型X1是科大讯飞发布的深度推理大模型,专门针对医疗领域设计,具备强大的复杂问题处理能力。模型通过深度推理算法...
-
story-flicks是什么?一文让你看懂story-flicks的技术原理、主要功能、应用场景story-flicks概述简介 story-flicks 是基于AI大模型的项目,支持一键生成高清故事短视频。用户输入故事主题后,系统基于AI技术...
-
CSM是什么?一文让你看懂CSM的技术原理、主要功能、应用场景CSM概述简介 CSM(Conversational Speech Model)是Sesame团队推出的新型语音对话模型,提升语音助手的自然度和情感...
-
AgiBot Digital World是什么?一文让你看懂AgiBot Digital World的技术原理、主要功能、应用场景AgiBot Digital World概述简介 AgiBot Digital World 是智元机器人推出的高保真机器人仿真框架,为机器人操作技能...
-
ARTalk是什么?一文让你看懂ARTalk的技术原理、主要功能、应用场景ARTalk概述简介 ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3D头部动画生成框架,基于自回归模型实现实时、高同步性的唇部动作和自...
-
LuminaBrush是什么?一文让你看懂LuminaBrush的技术原理、主要功能、应用场景LuminaBrush概述简介 LuminaBrush 是用在图像上绘制照明效果的交互式工具。LuminaBrush基于 Flux 文生图项目,用两...
-
HumanOmni是什么?一文让你看懂HumanOmni的技术原理、主要功能、应用场景HumanOmni概述简介 HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全...
-
Spark-TTS是什么?一文让你看懂Spark-TTS的技术原理、主要功能、应用场景Spark-TTS概述简介 Spark-TTS 是SparkAudio 团队开源的基于大型语言大模型(LLM)的高效文本转语音(TTS)工具, 无需...