feixiaoxu2022

feixiaoxu2022

@feixiaoxu2022
7 skills 14 total stars

find ~/feixiaoxu2022/ -name "*.skill"

编写Agent评测场景的业务规则文档(BusinessRules.md)。当需要为新场景定义Agent行为规范、业务约束和标准回复时使用此技能。适用于:(1)创建新场景的业务规则 (2)优化现有规则文档 (3)检查规则文档质量

实现Agent评测场景的检查器(Checkers)。当需要验证Agent行为是否正确、设计评测检查点时使用此技能。基于独立脚本模式。

执行Agent自动评测。理解BenchKit框架架构,配置和运行评测任务,收集评测结果。这是Step 4的核心执行工作。

对Agent评测失败案例进行根因分析,准确区分Agent能力问题、样本设计问题、用户模拟器问题和系统问题。当需要分析评测失败原因、归因问题类型、提供改进建议时使用此技能。

合成评测样本。基于unified_scenario_design.yaml和业务规则,生成数据池、构建规则原型、实现样本生成器,产出可用于评测的样本文件。这是Step 3.3-3.6的核心工作。

设计Agent评测场景的统一配置文件(unified_scenario_design.yaml)。当需要创建新评测场景、设计需求模板、提升样本难度时使用此技能。这是init阶段最核心的工作,决定了样本质量和难度。

实现Agent评测场景的业务工具(MCP Tools)。当需要为新场景创建工具、理解工具设计原则时使用此技能。基于FastMCP框架。