强化学习

首页 > 强化学习

Tülu 3

Tülu 3是一系列开源的先进语言模型，它们经过后训练以适应更多的任务和用户。这些模型通过结合专有方法的部分细节、新颖技术和已建立的学术研究，实现了复...
Steiner-32b-preview

Steiner 是由 Yichao 'Peak' Ji 开发的推理模型系列，专注于通过强化学习在合成数据上训练，能够在推理时探索多种路径并自主验证或回...
DigiRL

DigiRL是一个创新的在线强化学习算法，用于训练能够在野外环境中控制设备的智能代理。它通过自主价值评估模型（VLM）来解决开放式的、现实世界中的An...
CUA

Computer-Using Agent (CUA) 是 OpenAI 开发的一种先进的人工智能模型，结合了 GPT-4o 的视觉能力和通过强化学习的...
HOMIEtele

HOMIE 是一种创新的人形机器人遥操作解决方案，旨在通过强化学习和低成本的外骨骼硬件系统，实现精准的行走与操作任务。该技术的重要性在于它解决了传统遥...
MarS

MarS是一个366市场模拟引擎，由生成式基础模型（LMM）驱动，能够根据历史366市场数据动态生成订单序列，以响应各种条件，包括用户注入的交互式订单...
MarS

MarS是一个金融市场模拟引擎，由生成式基础模型（LMM）驱动，能够根据历史金融市场数据动态生成订单序列，以响应各种条件，包括用户注入的交互式订单、模...
HuatuoGPT-o1

HuatuoGPT-o1是一个专为医疗复杂推理设计的大语言模型，能够识别错误、探索替代策略并完善答案。该模型通过利用可验证的医疗问题和专门的医疗验证器...
GLM-Zero-Preview

GLM-Zero-Preview是智谱首个基于扩展强化学习技术训练的推理模型，专注于增强AI推理能力，擅长处理数理逻辑、代码和需要深度推理的复杂问题。...
DeepScaleR-1.5B-Preview

DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型，专注于提升数学问题解决能力。该模型通过分布式强化学习算法，显著提...
Light-R1-14B-DS

Light-R1-14B-DS 是由北京奇虎科技有限公司开发的开源数学模型。该模型基于 DeepSeek-R1-Distill-Qwen-14B 进行...
混元T1

混元T1 是腾讯推出的超大规模推理模型，基于强化学习技术，通过大量后训练显著提升推理能力。它在长文处理和上下文捕捉上表现突出，同时优化了计算资源的消耗...
NotaGen

NotaGen 是一款创新的符号音乐生成模型，通过预训练、微调和强化学习三个阶段提升音乐生成质量。它利用大语言模型技术，能够生成高质量的古典乐谱，为音...
O1-CODER

O1-CODER是一个旨在复现OpenAI的O1模型的项目，专注于编程任务。该项目结合了强化学习(RL)和蒙特卡洛树搜索(MCTS)技术，以增强模型的...
GLM-Zero-Preview

GLM-Zero-Preview是智谱首个基于扩展强化学习技术训练的推理模型，专注于增强AI推理能力，擅长处理数理逻辑、代码和需要深度推理的复杂问题。...
Eurus-2-7B-PRIME

PRIME-RL/Eurus-2-7B-PRIME是一个基于PRIME方法训练的7B参数的语言模型，旨在通过在线强化学习提升语言模型的推理能力。该模型...
RLLoggingBoard

RLLoggingBoard 是一个专注于强化学习人类反馈（RLHF）训练过程可视化的工具。它通过细粒度的指标监控，帮助研究人员和开发者直观理解训练过...
DeepSeek-R1-Zero

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现...
Kimi k1.5

Kimi k1.5 是由 MoonshotAI 开发的多模态语言模型，通过强化学习和长上下文扩展技术，显著提升了模型在复杂推理任务中的表现。该模型在多...
DeepSeek-R1-Distill-Llama-70B

DeepSeek-R1-Distill-Llama-70B 是由 DeepSeek 团队开发的一款大型语言模型，基于 Llama-70B 架构并通过强...

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

隐私策略免责条款服务协议关于我们

AI TOOL