提示词模板 prompt

2025-08-07

5

作者编辑

提示词 Memory Prompt
https://arxiv.org/html/2508.02694v1#S4
你是一位专门从事智能体记忆管理的专家，擅长利用「记忆摘要」「记忆检索」和「长期记忆」来提升智能体的推理能力。
记忆摘要（Memory Summarization）
• 对当前步骤的执行内容 {memory of current step} 进行摘要。
• 提炼关键点，帮助智能体在后续步骤中更好地推理。
• 此外，必须为下一步提出优化建议。
长期记忆（Long-term Memory）
• 这是上一步的执行内容：{memory of previous step}。
• 这是由历史执行内容汇总而成的长期记忆：{long term memory}。
• 请结合上一步的执行内容与现有长期记忆，进行总结并突出关键要点，形成新的长期记忆，以便智能体在后续步骤中更好地推理。
输入
• 当前步骤的执行内容：{memory of current step}
• 上一步的执行内容：{memory of previous step}
• 历史执行内容（长期记忆）：{long term memory}
输出
• 记忆摘要：逐点总结当前执行步骤 + 下一步优化建议
• 记忆检索：提取与当前最相关的历史步骤
• 长期记忆：持续更新的长期历史记录

PRM 分数评估提示

评估指南：

目标：
您将评估一个候选的 ActionStep 节点，该节点包含以下字段：
step_number: 此步骤在 TTS 搜索树中的深度。
observations: 执行此操作后记录的观察结果。
action_output: 此操作产生的直接输出。
model_output: 导致此操作的原始大语言模型 (LLM) 输出。
error: 遇到的任何错误（可为 None）。
score: 之前分配的分数（仅供参考）。
previous_steps: 早期步骤的历史记录，包括 TaskStep 和 PlanningStep，以及导致当前状态的 ActionStep 轨迹。
您的目标是判断此 ActionStep 在推进用户任务方面的前景如何，使用您的独立判断，同时考虑 ActionStep 序列的连续性和逻辑流程，包括历史上下文。
评估标准：
目标推进度 (Progress Toward Goal):
评估 action_output 是否清晰且切实地推进了整体任务。
对有意义的进展或有价值的新信息给予加分。
对不相关的操作或影响微弱的操作进行扣分。
错误与稳定性 (Error and Stability):
根据错误的严重程度进行扣分：
致命/阻塞性错误：0-1 分。
重大错误：1-3 分。
轻微或可恢复错误：3-5 分。
如果 model_output 模糊不清或不稳定，则降低分数。
TTS 效率 (TTS Efficiency):
对高效贡献于达成目标的操作给予加分。
对冗余或重复且无有意义进展的操作进行扣分。
反思使用 (Reflection Usage):
对积极利用反思来改进过去错误的操作给予加分。
对忽略反思见解的操作进行扣分。
循环检测 (Loop Detection):
检测与先前步骤相比的循环或重复。
识别真正的循环并根据严重程度进行扣分。
上下文感知 (Contextual Awareness):
推断与先前 PlanningStep 和 TaskStep 的一致性。
确保与 TTS 策略一致，并对偏离策略的操作进行扣分。
评分标准：
9-10 分： 显著推进目标；高度高效；反思使用出色；无循环。
7-8 分： 良好推进；轻微低效；反思使用清晰；循环风险最小。
5-6 分： 中等进展；效率有限；反思使用一般；轻微重复风险。
3-4 分： 推进不佳；效率低下；反思使用薄弱；明显的循环风险。
1-2 分： 最小推进；操作重复；存在真正的循环；重大错误。
0 分： 严重问题：明确的循环、关键错误或与任务上下文完全无关。
最终评估输出： 您必须提供有效的 JSON 格式评估，结构如下：

{
      "analysis": "详细分析，涉及目标推进度、TTS 效率、反思使用、循环检测、与 PlanningStep/TaskStep 的上下文一致性、错误严重程度以及整体操作质量。",
      "score": [0-10 之间的整数]
    }

PRM-list 评估提示词
Evaluation Guidelines（评估准则）
• 目标
– 你将对 N 条候选轨迹（trajectory）进行整体评估；每条轨迹是在搜索树中的一系列节点，包含以下字段：
∗ step_number：节点在轨迹中的深度
∗ observations：该步骤记录到的观察
∗ action_output：该步骤的直接动作输出
∗ model_output：原始 LLM 输出
∗ error：遇到的任何错误（可为 None）
∗ score：先前已计算的分数（若有）
∗ previous_steps：早期步骤的历史，包括 TaskStep、PlanningStep 及导致当前状态的一系列 ActionStep 轨迹
– 你的任务是从整体上评估每条轨迹，看它在多大程度上推进了用户任务的解决，并选出最有效达成目标的轨迹。
• 评估标准
– 目标推进（Progress Toward Goal）
∗ 评估每条轨迹整体及单节点对任务的推进程度
∗ 对取得实质性、有意义进展的轨迹给予奖励
∗ 对动作薄弱或几乎无进展的轨迹给予惩罚
– 轨迹效率（Trajectory Efficiency）
∗ 评估轨迹以多少步、多大复杂度向目标前进
∗ 倾向在更少步骤内取得显著进展的轨迹
∗ 比较不同长度轨迹时考虑“价值/深度”比
∗ 奖励高效探索搜索空间的轨迹
– 循环检测（Loop Detection）
∗ 检测轨迹内部、尤其与先前步骤相关的循环或重复
∗ 循环类型：
· 真实循环（Real Loops）：节点内容（观察、动作输出、模型输出）完全相同且无新增价值
· 良性重复（Benign Repetitions）：策略相似但有变化并带来额外进展
∗ 对含真实循环的轨迹大幅扣分
∗ 对良性重复仅轻微扣分，若其带来实质性改进
– 错误与稳定性（Error and Stability）
∗ 评估轨迹中遇到错误的严重程度，并按其对进展的影响扣分
∗ 错误分级：
· 致命/阻断错误：重大扣分
· 显著错误：中度扣分
· 轻微/可恢复问题：轻度扣分
∗ 对不稳定或含糊的模型输出扣分
∗ 考虑错误如何影响轨迹整体向目标推进的能力
– 轨迹整体质量（Overall Trajectory Quality）
∗ 评估轨迹的连贯性与总体质量
∗ 考虑步骤逻辑顺序与探索-利用平衡
∗ 评估最终节点离达成目标的接近程度
∗ 奖励持续进展且体现连贯规划的轨迹
• 最终输出格式
以如下 JSON 格式给出评估结果，选出最佳轨迹并提供详细分析，说明为何该轨迹最有前景：
JSON
复制
{
  "index": <integer>,          // 最佳轨迹的索引
  "analysis": "详细分析：目标推进、效率、反思利用、循环检测、错误严重性、整体轨迹质量等"
}

请你分析这个页面：https://www.readme-i18n.com/confident-ai/deepeval?lang=zh

。分析完成后，请提示我开始提问。回答时请不要直接引用页面内容，并且必须完全基于该页面内容来作答。

提示词模板看看能不能结合dify 执行 实现分析

其他

博客信息

作者 eeettt123

发布日期 2025-08-07

其他信息 : 其他三字母的人名首字母都是其他同学发布的哦