学途智助
首页
分类
标签
关于网站
登录
eeettt
2026-04-11
2
作者编辑
看论文 list
https://nips.cc/virtual/2025/loc/san-diego/poster/119991 https://hjfy.top/arxiv/2502.13542 https://arxiv.org/html/2508.14040?_immersive_translate_auto_translate=1 。MALT [154] 采用异 构多智能体搜索树生成大规模标注轨迹,通过结合监督微调(SFT)和直接偏好优化(DPO),从成功与失 败的推理路径中对智能体进行微调 MMedAgent-RL [438] 提出一种基于强化学习的多智能体医疗视觉问答框架, 动态协调全科医生与专科医生智能体协同推理,采用课程引导学习,显著优于现有医学大视觉语言模型,展 现出更类人的诊断行为。Chain-of-Agents (COA) [439] 是一种端到端范式,单一大模型通过动态编排角色 扮演与工具使用智能体模拟多智能体协作;该方法通过多智能体蒸馏(将先进多智能体系统的轨迹转化为 训练数据)与精心设计奖励函数的智能体强化学习,构建智能体基础模型(AFMs)。SPIRAL [443] 提出一 种完全在线、多轮次、多智能体自对弈强化学习框架,适用于零和博弈中的大模型,采用共享策略结合角 色条件优势估计(RAE)以稳定学习过程,实验证明游戏过程可培养可迁移的推理技能,显著提升数学与通 用推理基准表现。MSRL [448] 引入了具有多粒度奖励的多模态结构化强化 学习,以克服图表到代码生成中的 SFT 瓶颈,在图表理解基准测试中达到了最先进性能
其他
赞
博客信息
作者
eeettt
发布日期
2026-04-11
其他信息 : 其他三字母的人名首字母都是其他同学发布的哦