多模态

收集全球10,000⁺个好用的AI软件

首页 > 多模态

tablegpt-agent

TableGPT-agent 是一个基于 TableGPT2 的预构建代理模型，专为处理表格数据的问答任务而设计。它基于 Langgraph 库开发，...
Tempus

Tempus是一个利用人工智能和大数据技术来加速新靶点发现、预测治疗效果、识别潜在的临床试验，并提前诊断多种疾病的精准医疗平台。通过其创新技术，Tem...
忆我

忆我（ReMe）是由微软亚洲研究院与上海市精神卫生中心联合开发的个性化认知训练框架，旨在为认知障碍患者提供个性化的认知训练。该框架基于微软Azure ...
MedRAX

MedRAX是一个创新的AI框架，专门用于胸部X光（CXR）的智能分析。它通过整合最先进的CXR分析工具和多模态大型语言模型，能够动态处理复杂的医疗查...
Cradle框架

Cradle框架旨在使基础模型能够通过与人类相同的通用接口（屏幕作为输入，键盘和鼠标操作作为输出）执行复杂的计算机任务。该框架在Red Dead Re...
Cantor

Cantor是一个多模态链式思维(CoT)框架，它通过感知决策架构，将视觉上下文获取与逻辑推理相结合，解决复杂的视觉推理任务。Cantor首先作为一个...
Visual Sketchpad

Visual Sketchpad 是一种为多模态大型语言模型（LLMs）提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时，根据自己绘制的视...
GPTS4O.SO

GPT-4o是OpenAI推出的先进多模态AI平台，它在GPT-4的基础上进一步扩展，实现了真正的多模态方法，涵盖文本、图像和音频。GPT-4o设计上...
ultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whispe...
ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-lar...
MAmmoTH-VL

MAmmoTH-VL是一个大规模多模态推理平台，它通过指令调优技术，显著提升了多模态大型语言模型（MLLMs）在多模态任务中的表现。该平台使用开放模型...
VideoRAG

VideoRAG 是一种创新的检索增强型生成框架，专门用于理解和处理极长上下文视频。它通过结合图驱动的文本知识锚定和层次化多模态上下文编码，实现了对无...
Grok 3

Grok 3是由Elon Musk的AI公司xAI开发的最新旗舰AI模型。它在计算能力和数据集规模上显著提升，能够处理复杂的数学、科学问题，并支持多模...
DeepSeek Japanese

DeepSeek 是由 High-Flyer 基金支持的中国 AI 实验室开发的先进语言模型，专注于开源模型和创新训练方法。其 R1 系列模型在逻辑推...
TheoremExplainAgent

TheoremExplainAgent 是一款基于人工智能的模型，专注于为数学和科学定理生成详细的多模态解释视频。它通过结合文本和视觉动画，帮助用户更...
Google AI Mode

AI Mode 是谷歌搜索中的一项实验性功能，基于 Gemini 2.0 模型开发。它通过高级推理和多模态能力，为用户提供更深入、更全面的搜索结果。该...
SmolVLM2

SmolVLM2 是一种轻量级的视频语言模型，旨在通过分析视频内容生成相关的文本描述或视频亮点。该模型具有高效性、低资源消耗的特点，适合在多种设备上运...
Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型，由Stability AI开发，具有改进的图像质量、排版、复杂提...
M2UGen

M2UGen是一个结合大语言模型的多模态音乐理解和生成框架,旨在帮助用户进行音乐创作。它能同时完成音乐理解和多模态音乐生成任务。...
ai-discord-bot-PigPig

PigPig是一个基于多模态大型语言模型（LLM）的Discord机器人，旨在通过自然语言与用户互动。它结合了先进的AI能力和实用功能，为Discor...

«
1
2
3
4
5
6
7
»

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们