
距离 Anthropic 推出 Agent Skills 不过半年,AI Skill 生态已经进入快速扩张阶段。据平台可统计口径,国内 Skill 社区 SkillHub 上的 Skill 数量已进入 7 万量级。供给量迅速膨胀的同时,质量评估体系仍相对滞后。对普通用户而言,判断一个Skill 是否值得使用,主要仍依赖下载量、收藏数和星标数等热度指标。
5 月 21日,腾讯科技、 SkillHub与腾讯玄武实验室联合发布TRACE ——国内首个面向Skill真实使用场景的严选评测体系。
作为媒体,腾讯科技将持续推动TRACE框架的行业认知和普及,并将基于该框架,以每月一期、每期 10 个 Skill 的节奏,产出“编辑精选”榜单,为行业提供优秀Skills的案例及实用参考。
作为平台,SkillHub以国内最丰富的技能池为样本来源,充分采纳业界通行的 Agent Skill 构建规范与设计,根据行业生态和技术演进,持续迭代 TRACE 评测体系。
腾讯玄武实验室作为腾讯旗下安全实验室,搭建自动化评估系统,尤其为 TRACE 评分中的 Effectiveness(效果增益)维度,通过对照实验、AI 沙盒环境等创新方式,给出立体评价。
随着 Skill 从个人尝鲜工具进入更复杂的任务场景,用户需要的不只是“更多 Skill”,而是更可信、更稳定、边界更清晰、结果更可验证的 Skill。
01 把好的Skill拆解为五个维度——“TRACE”
TRACE 由五个英文字母构成,对应五个评测维度。五个维度不是简单并列,而是一条从安全红线到使用过程,再到结果增益的判断路径。
T(Trust,安全可信)
衡量 Skill 在安全、合规和可控性方面是否可信,是整个评估体系中的红线维度。
该维度重点关注 Skill 是否可能引入依赖来源不明、系统命令滥用、外部通信与数据泄露、越权文件访问、指令干扰与提示词攻击、远程内容执行、代码混淆或隐藏逻辑等风险,并关注其他可能影响用户数据、系统环境或执行安全的潜在隐患。
R(Reliability,运行可靠)
衡量 Skill 在评测运行中的稳定性、可复现性和交付可靠性。
该维度重点关注 Skill 是否能在标准评测环境中正常加载和运行,运行过程是否稳定,输出是否完整,交付物是否可收集、可打开、可进入后续评审;同时关注是否存在超时、异常退出、工具失败、依赖缺失、产物缺失、路径错误或日志解析失败等影响评测有效性的问题。
A(Adaptability,场景适用)
衡量 Skill 是否适合其声明的使用场景,以及在真实候选环境中是否容易被正确识别和调用。
该维度重点关注:当用户请求落入某个 Skill 的适用范围时,agent 是否能够自然识别并加载目标 Skill;Skill 的名称、description 和触发描述是否足够清晰;当目标 Skill 与相近、边界、无关或通用兜底 Skill 同时可见时,是否仍能被正确选择。
C(Convention,结构规范)
衡量 Skill 是否具备清晰、可维护、可复用的结构基础。
该维度重点关注:SKILL.md 是否清楚说明用途、适用范围和触发条件;frontmatter 中的 name、description、requires 等元信息是否完整准确;脚本、依赖、附件、资源文件和目录结构是否组织合理;运行前置条件是否清楚;最终产物和中间文件是否有明确边界,避免把调试文件、过程文件或无关内容混入交付物。
规范性不是判断 Skill “写得是否漂亮”,而是判断它是否具备被理解、被运行、被评测、被复用和持续维护的基础。
E(Effectiveness,效果增益)
衡量 Skill 是否真正提升任务结果,以及这种提升是否值得付出相应代价。
该维度首先关注一条效果底线:启用Skill 后,结果必须明显优于no-skill参照组。如果装上 Skill 后与裸模型表现接近,甚至引入更多错误、复杂度或体验下降,则不具备推荐价值。
在此基础上,E 维度重点关注:任务是否真正完成用户需求;输出内容、推理、数据、引用、计算或操作结果是否正确可靠;交付物是否清晰、完整、格式合适,并能被用户直接使用;相较 no-skill 参照组,Skill 是否在完成度、正确性、效率、格式、稳定性或用户体验上产生实质改善;观察到的改善是否可以合理归因于 Skill,而不是模型本身能力、随机性、提示差异或外部因素。
同时,E 维度也关注这种改善是否值得付出代价,包括上下文占用、token 消耗、执行耗时、工具调用频率和使用复杂度。如果结果提升有限,但代价明显升高,也不应被视为高质量 Skill。
03 每月推荐10个“Trace严选Skill”
在评测路线选择上,TRACE 并未采用对所有 Skill 进行全量评分、再生成综合榜单的方式,而是选择每月一期、每期10个 Skill 的编辑精选模式。
这一取舍主要基于两个现实限制。首先,Skill 评测并不是简单的静态打分。真正判断一个 Skill 是否值得推荐,需要经过安全扫描、no-skill 对照实验、证据审计、客观评估和专家成对评审,单个 Skill 的评估成本并不低,全量评分在工程上难以长期持续。其次,如果榜单完全按照综合得分或热度排序,早期发布的头部 Skill 容易长期占据优势,新发布但质量较高的 Skill 反而难以被发现。
因此,TRACE 采用“热度信号 + 时间切片 + 系统评测 + 编辑精选”的方式形成候选池。初筛阶段主要参考 SkillHub 上的收藏、点赞、下载等站内数据,同时结合产业热度信号,再按照时间维度切片,避免榜单长期被少数头部 Skill 垄断。
TRACE 不是一套一成不变的标准。随着 Skill 形态、用户需求和 Agent 底层能力持续变化,评测维度、证据标准和测试方式也会继续迭代。后续榜单也将引入用户反馈回路,将实际使用数据与评测结果进行对照,以持续校准框架的有效性。TRACE框架会重点关注技术的迭代及生态的演进,也会积极吸纳开发者的建议,在Skill供给快速膨胀的阶段,帮助用户更高效地识别高质量 Skill。
(本文来源:日照新闻网。本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。对文章事实有疑问,请与有关方核实或与本网联系。文章观点非本网观点,仅供读者参考。)

距离 Anthropic 推出 Agent Skills 不过半年,AI Skill 生态已经进入快速扩张阶段。据平台可统计口径,国内 Skill 社区 SkillHub 上的 Skill 数量已进入 7 万量级。供给量迅速膨胀的同时,质量评估体系仍相对滞后。对普通用户而言,判断一个Skill 是否值得使用,主要仍依赖下载量、收藏数和星标数等热度指标。
5 月 21日,腾讯科技、 SkillHub与腾讯玄武实验室联合发布TRACE ——国内首个面向Skill真实使用场景的严选评测体系。
作为媒体,腾讯科技将持续推动TRACE框架的行业认知和普及,并将基于该框架,以每月一期、每期 10 个 Skill 的节奏,产出“编辑精选”榜单,为行业提供优秀Skills的案例及实用参考。
作为平台,SkillHub以国内最丰富的技能池为样本来源,充分采纳业界通行的 Agent Skill 构建规范与设计,根据行业生态和技术演进,持续迭代 TRACE 评测体系。
腾讯玄武实验室作为腾讯旗下安全实验室,搭建自动化评估系统,尤其为 TRACE 评分中的 Effectiveness(效果增益)维度,通过对照实验、AI 沙盒环境等创新方式,给出立体评价。
随着 Skill 从个人尝鲜工具进入更复杂的任务场景,用户需要的不只是“更多 Skill”,而是更可信、更稳定、边界更清晰、结果更可验证的 Skill。
01 把好的Skill拆解为五个维度——“TRACE”
TRACE 由五个英文字母构成,对应五个评测维度。五个维度不是简单并列,而是一条从安全红线到使用过程,再到结果增益的判断路径。
T(Trust,安全可信)
衡量 Skill 在安全、合规和可控性方面是否可信,是整个评估体系中的红线维度。
该维度重点关注 Skill 是否可能引入依赖来源不明、系统命令滥用、外部通信与数据泄露、越权文件访问、指令干扰与提示词攻击、远程内容执行、代码混淆或隐藏逻辑等风险,并关注其他可能影响用户数据、系统环境或执行安全的潜在隐患。
R(Reliability,运行可靠)
衡量 Skill 在评测运行中的稳定性、可复现性和交付可靠性。
该维度重点关注 Skill 是否能在标准评测环境中正常加载和运行,运行过程是否稳定,输出是否完整,交付物是否可收集、可打开、可进入后续评审;同时关注是否存在超时、异常退出、工具失败、依赖缺失、产物缺失、路径错误或日志解析失败等影响评测有效性的问题。
A(Adaptability,场景适用)
衡量 Skill 是否适合其声明的使用场景,以及在真实候选环境中是否容易被正确识别和调用。
该维度重点关注:当用户请求落入某个 Skill 的适用范围时,agent 是否能够自然识别并加载目标 Skill;Skill 的名称、description 和触发描述是否足够清晰;当目标 Skill 与相近、边界、无关或通用兜底 Skill 同时可见时,是否仍能被正确选择。
C(Convention,结构规范)
衡量 Skill 是否具备清晰、可维护、可复用的结构基础。
该维度重点关注:SKILL.md 是否清楚说明用途、适用范围和触发条件;frontmatter 中的 name、description、requires 等元信息是否完整准确;脚本、依赖、附件、资源文件和目录结构是否组织合理;运行前置条件是否清楚;最终产物和中间文件是否有明确边界,避免把调试文件、过程文件或无关内容混入交付物。
规范性不是判断 Skill “写得是否漂亮”,而是判断它是否具备被理解、被运行、被评测、被复用和持续维护的基础。
E(Effectiveness,效果增益)
衡量 Skill 是否真正提升任务结果,以及这种提升是否值得付出相应代价。
该维度首先关注一条效果底线:启用Skill 后,结果必须明显优于no-skill参照组。如果装上 Skill 后与裸模型表现接近,甚至引入更多错误、复杂度或体验下降,则不具备推荐价值。
在此基础上,E 维度重点关注:任务是否真正完成用户需求;输出内容、推理、数据、引用、计算或操作结果是否正确可靠;交付物是否清晰、完整、格式合适,并能被用户直接使用;相较 no-skill 参照组,Skill 是否在完成度、正确性、效率、格式、稳定性或用户体验上产生实质改善;观察到的改善是否可以合理归因于 Skill,而不是模型本身能力、随机性、提示差异或外部因素。
同时,E 维度也关注这种改善是否值得付出代价,包括上下文占用、token 消耗、执行耗时、工具调用频率和使用复杂度。如果结果提升有限,但代价明显升高,也不应被视为高质量 Skill。
03 每月推荐10个“Trace严选Skill”
在评测路线选择上,TRACE 并未采用对所有 Skill 进行全量评分、再生成综合榜单的方式,而是选择每月一期、每期10个 Skill 的编辑精选模式。
这一取舍主要基于两个现实限制。首先,Skill 评测并不是简单的静态打分。真正判断一个 Skill 是否值得推荐,需要经过安全扫描、no-skill 对照实验、证据审计、客观评估和专家成对评审,单个 Skill 的评估成本并不低,全量评分在工程上难以长期持续。其次,如果榜单完全按照综合得分或热度排序,早期发布的头部 Skill 容易长期占据优势,新发布但质量较高的 Skill 反而难以被发现。
因此,TRACE 采用“热度信号 + 时间切片 + 系统评测 + 编辑精选”的方式形成候选池。初筛阶段主要参考 SkillHub 上的收藏、点赞、下载等站内数据,同时结合产业热度信号,再按照时间维度切片,避免榜单长期被少数头部 Skill 垄断。
TRACE 不是一套一成不变的标准。随着 Skill 形态、用户需求和 Agent 底层能力持续变化,评测维度、证据标准和测试方式也会继续迭代。后续榜单也将引入用户反馈回路,将实际使用数据与评测结果进行对照,以持续校准框架的有效性。TRACE框架会重点关注技术的迭代及生态的演进,也会积极吸纳开发者的建议,在Skill供给快速膨胀的阶段,帮助用户更高效地识别高质量 Skill。
(本文来源:日照新闻网。本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。对文章事实有疑问,请与有关方核实或与本网联系。文章观点非本网观点,仅供读者参考。)