学途智助
首页
分类
标签
关于网站
登录
eeettt123
2025-08-07
5
作者编辑
提示词模板 prompt
提示词 Memory Prompt https://arxiv.org/html/2508.02694v1#S4 你是一位专门从事智能体记忆管理的专家,擅长利用「记忆摘要」「记忆检索」和「长期记忆」来提升智能体的推理能力。 记忆摘要(Memory Summarization) • 对当前步骤的执行内容 {memory of current step} 进行摘要。 • 提炼关键点,帮助智能体在后续步骤中更好地推理。 • 此外,必须为下一步提出优化建议。 长期记忆(Long-term Memory) • 这是上一步的执行内容:{memory of previous step}。 • 这是由历史执行内容汇总而成的长期记忆:{long term memory}。 • 请结合上一步的执行内容与现有长期记忆,进行总结并突出关键要点,形成新的长期记忆,以便智能体在后续步骤中更好地推理。 输入 • 当前步骤的执行内容:{memory of current step} • 上一步的执行内容:{memory of previous step} • 历史执行内容(长期记忆):{long term memory} 输出 • 记忆摘要:逐点总结当前执行步骤 + 下一步优化建议 • 记忆检索:提取与当前最相关的历史步骤 • 长期记忆:持续更新的长期历史记录 PRM 分数评估提示 评估指南: 目标: 您将评估一个候选的 ActionStep 节点,该节点包含以下字段: step_number: 此步骤在 TTS 搜索树中的深度。 observations: 执行此操作后记录的观察结果。 action_output: 此操作产生的直接输出。 model_output: 导致此操作的原始大语言模型 (LLM) 输出。 error: 遇到的任何错误(可为 None)。 score: 之前分配的分数(仅供参考)。 previous_steps: 早期步骤的历史记录,包括 TaskStep 和 PlanningStep,以及导致当前状态的 ActionStep 轨迹。 您的目标是判断此 ActionStep 在推进用户任务方面的前景如何,使用您的独立判断,同时考虑 ActionStep 序列的连续性和逻辑流程,包括历史上下文。 评估标准: 目标推进度 (Progress Toward Goal): 评估 action_output 是否清晰且切实地推进了整体任务。 对有意义的进展或有价值的新信息给予加分。 对不相关的操作或影响微弱的操作进行扣分。 错误与稳定性 (Error and Stability): 根据错误的严重程度进行扣分: 致命/阻塞性错误:0-1 分。 重大错误:1-3 分。 轻微或可恢复错误:3-5 分。 如果 model_output 模糊不清或不稳定,则降低分数。 TTS 效率 (TTS Efficiency): 对高效贡献于达成目标的操作给予加分。 对冗余或重复且无有意义进展的操作进行扣分。 反思使用 (Reflection Usage): 对积极利用反思来改进过去错误的操作给予加分。 对忽略反思见解的操作进行扣分。 循环检测 (Loop Detection): 检测与先前步骤相比的循环或重复。 识别真正的循环并根据严重程度进行扣分。 上下文感知 (Contextual Awareness): 推断与先前 PlanningStep 和 TaskStep 的一致性。 确保与 TTS 策略一致,并对偏离策略的操作进行扣分。 评分标准: 9-10 分: 显著推进目标;高度高效;反思使用出色;无循环。 7-8 分: 良好推进;轻微低效;反思使用清晰;循环风险最小。 5-6 分: 中等进展;效率有限;反思使用一般;轻微重复风险。 3-4 分: 推进不佳;效率低下;反思使用薄弱;明显的循环风险。 1-2 分: 最小推进;操作重复;存在真正的循环;重大错误。 0 分: 严重问题:明确的循环、关键错误或与任务上下文完全无关。 最终评估输出: 您必须提供有效的 JSON 格式评估,结构如下: { "analysis": "详细分析,涉及目标推进度、TTS 效率、反思使用、循环检测、与 PlanningStep/TaskStep 的上下文一致性、错误严重程度以及整体操作质量。", "score": [0-10 之间的整数] } PRM-list 评估提示词 Evaluation Guidelines(评估准则) • 目标 – 你将对 N 条候选轨迹(trajectory)进行整体评估;每条轨迹是在搜索树中的一系列节点,包含以下字段: ∗ step_number:节点在轨迹中的深度 ∗ observations:该步骤记录到的观察 ∗ action_output:该步骤的直接动作输出 ∗ model_output:原始 LLM 输出 ∗ error:遇到的任何错误(可为 None) ∗ score:先前已计算的分数(若有) ∗ previous_steps:早期步骤的历史,包括 TaskStep、PlanningStep 及导致当前状态的一系列 ActionStep 轨迹 – 你的任务是从整体上评估每条轨迹,看它在多大程度上推进了用户任务的解决,并选出最有效达成目标的轨迹。 • 评估标准 – 目标推进(Progress Toward Goal) ∗ 评估每条轨迹整体及单节点对任务的推进程度 ∗ 对取得实质性、有意义进展的轨迹给予奖励 ∗ 对动作薄弱或几乎无进展的轨迹给予惩罚 – 轨迹效率(Trajectory Efficiency) ∗ 评估轨迹以多少步、多大复杂度向目标前进 ∗ 倾向在更少步骤内取得显著进展的轨迹 ∗ 比较不同长度轨迹时考虑“价值/深度”比 ∗ 奖励高效探索搜索空间的轨迹 – 循环检测(Loop Detection) ∗ 检测轨迹内部、尤其与先前步骤相关的循环或重复 ∗ 循环类型: · 真实循环(Real Loops):节点内容(观察、动作输出、模型输出)完全相同且无新增价值 · 良性重复(Benign Repetitions):策略相似但有变化并带来额外进展 ∗ 对含真实循环的轨迹大幅扣分 ∗ 对良性重复仅轻微扣分,若其带来实质性改进 – 错误与稳定性(Error and Stability) ∗ 评估轨迹中遇到错误的严重程度,并按其对进展的影响扣分 ∗ 错误分级: · 致命/阻断错误:重大扣分 · 显著错误:中度扣分 · 轻微/可恢复问题:轻度扣分 ∗ 对不稳定或含糊的模型输出扣分 ∗ 考虑错误如何影响轨迹整体向目标推进的能力 – 轨迹整体质量(Overall Trajectory Quality) ∗ 评估轨迹的连贯性与总体质量 ∗ 考虑步骤逻辑顺序与探索-利用平衡 ∗ 评估最终节点离达成目标的接近程度 ∗ 奖励持续进展且体现连贯规划的轨迹 • 最终输出格式 以如下 JSON 格式给出评估结果,选出最佳轨迹并提供详细分析,说明为何该轨迹最有前景: JSON 复制 { "index": <integer>, // 最佳轨迹的索引 "analysis": "详细分析:目标推进、效率、反思利用、循环检测、错误严重性、整体轨迹质量等" } 请你分析这个页面:https://www.readme-i18n.com/confident-ai/deepeval?lang=zh 。分析完成后,请提示我开始提问。回答时请不要直接引用页面内容,并且必须完全基于该页面内容来作答。 提示词模板看看能不能结合dify 执行 实现分析
其他
赞
博客信息
作者
eeettt123
发布日期
2025-08-07
其他信息 : 其他三字母的人名首字母都是其他同学发布的哦