Agent建设助手

创建评测任务

1.登陆HiAgent

2.进入目标工作空间,在评测与对比下选择评测任务,点击创建评测任务

3.填写评测任务,评测类型有3类:模型、提示词、智能体

4.创建完成后,可以在评测集管理的页面列表中,看到该评测任务

Tips:您可以将对某一个(组)确定对象的评测定义为一个任务,在其中可以创建若干子任务进行评测。

填写评测任务表单:

配置项

说明

评测任务名称

•必填

•评测任务名称进行命名,用于标识该评测任务

•由中文、字母、数字、连接符(-、_)组成

•不能以连接符(-、_)开头或结尾

•字符限制:【2,128】字符

•工作空间内名称唯一

评测类型

•必填

•可选项包含:

○模型:针对不同模型进行对比评测

○提示词:针对不同提示词进行对比评测

▪支持选择已发布的提示词模板使用

○智能体:针对某一智能体进行评测

评测方式

•必填

•可选项包含:

○手动:手动操作评测任务的运行

○自动:自动进行评测任务的执行

5.单击评测任务右侧的运行,创建评测子任务,在子任务中选择手动或自动的评测方式。在自动方式中,选择评测集,评测规则,以及定义模型参数、变量等。

模型评测任务

评测方式选择自动:

•创建评测类型为模型的评测任务时,手动模式直接跳转到手动评测页面,自动评测需要填写知识库、评测集、提示词、评测规则等内容

•点击确定后,即可创建成功

配置项

说明

知识库

•非必填

•可添加当前空间下的知识库

评测集

•必填

•可选择当前空间下已发布的评测集进行对比测试

提示词

•必填

•输入当前评测时的提示词,评测时可对比,不同的提示词是否导致智能体输出的内容不一致

•支持添加四个评测模型,支持对模型的参数配置

配置项

说明

随机性temperature

•采样温度,控制输出的随机性,值越大会使输出更随机,更具创造性;值越小,输出会更加稳定或确定

核采样top_p

•控制输出的多样性,值越大输出包括更多单词选项;值越小,输出内容更集中在高概率单词上,即输出更确定但缺少多样性。一般temperature和top_p只设置一个

单次回复max_tokens

•单次输出内容最大token数

对话轮数保留

•带入模型上下文的对话历史轮数。数值越大,多轮对话内容的相关性越高,但消耗token数也更高

RAG范围

•开关:打开时携带历史对话的问题和答案,关闭则表示只包含问题

•知识库检索场景带入向量检索的历史对话轮数(只包括问题)。数值越大,多轮对话内容的相关性越高,但消耗token数也更高

评测方式选择手动:

•点击确定后,即可创建成功,此时进入模型评测的手动配置页面

•条件配置:可配置知识库和提示词

配置项

说明

条件配置

•非必填

•可配置知识库和提示词等条件

知识库

•非必填

•可添加当前空间下的知识库

提示词

•必填

•输入当前评测时的提示词,评测时可对比,不同的提示词是否导致智能体输出的内容不一致

•支持将当前的提示词保存为模板

•模型配置:可添加不同的模型,针对同一内容,不同模型的输出结果进行对比

配置项

说明

模型

•下拉选项

•可选择HiAgent支持的大语言模型

随机性temperature

•采样温度,控制输出的随机性,值越大会使输出更随机,更具创造性;值越小,输出会更加稳定或确定

核采样top_p

•控制输出的多样性,值越大输出包括更多单词选项;值越小,输出内容更集中在高概率单词上,即输出更确定但缺少多样性。一般temperature和top_p只设置一个

单次回复max_tokens

•单次输出内容最大token数

对话轮数保留

•带入模型上下文的对话历史轮数。数值越大,多轮对话内容的相关性越高,但消耗token数也更高

RAG范围

•开关:打开时携带历史对话的问题和答案,关闭则表示只包含问题

•知识库检索场景带入向量检索的历史对话轮数(只包括问题)。数值越大,多轮对话内容的相关性越高,但消耗token数也更高

•添加对比:可添加至多4个对比分区,针对同一内容不同模型的输出结果进行对比,可点击重新开始,重新对比

•支持对召回内容的复制、删除单轮对话操作

•支持模型评测中选择提示词模板,通过不同的模型进行召回内容对比

提示词评测任务

评测方式选择自动:

•创建评测类型为提示词的评测任务时,填写需要评测的模型、知识库、评测集、提示词等内容

•点击确定后,即可创建成功

配置项

说明

模型

•必填

•可选择需要评测的模型,至多可添加4个不同的模型

•且支持对模型配置参数

知识库

•非必填

•可添加当前空间下的知识库

评测集

•必填

•可选择当前空间下已发布的评测集进行对比测试

•支持对模型的参数配置

配置项

说明

随机性temperature

•采样温度,控制输出的随机性,值越大会使输出更随机,更具创造性;值越小,输出会更加稳定或确定

核采样top_p

•控制输出的多样性,值越大输出包括更多单词选项;值越小,输出内容更集中在高概率单词上,即输出更确定但缺少多样性。一般temperature和top_p只设置一个

单次回复max_tokens

•单次输出内容最大token数

对话轮数保留

•带入模型上下文的对话历史轮数。数值越大,多轮对话内容的相关性越高,但消耗token数也更高

RAG范围

•开关:打开时携带历史对话的问题和答案,关闭则表示只包含问题

•知识库检索场景带入向量检索的历史对话轮数(只包括问题)。数值越大,多轮对话内容的相关性越高,但消耗token数也更高

评测方式选择手动:

•创建评测类型为提示词的评测任务时,填写需要评测的模型、知识库、提示词等内容

•条件配置:可配置知识库和模型

•可增加对比,并添加不同的提示词模板进行对比

配置项

说明

条件配置

•非必填

•可配置模型和知识库等条件

模型

•必填

•可选择需要评测的模型

知识库

•非必填

•可添加当前空间下的知识库

提示词

•非必填

•输入当前评测时的提示词,评测时可对比,不同的提示词是否导致智能体输出的内容不一致

•支持将当前的提示词保存为模板

从模板选择

•非必填

•可选择不同的且已发布的提示词模板进行对比

•提示词编辑:可添加不同的提示词,针对同一内容,不同提示词的输出结果进行对比

•添加对比:可添加至多4个对比分区,针对同一内容不同模型的输出结果进行对比,可点击重新开始,重新对比

智能体评测任务

评测方式选择自动:

•创建评测类型为智能体的评测任务时,填写需要评测的智能体、评测集内容

•点击确定后,即可创建成功

智能体评测任务,评测方式仅支持自动评测

配置项

说明

智能体

•必填

•可添加当前空间下的智能体

评测集

•必填

•可添加当前空间下的评测集

管理评测任务

•支持对评测任务的运行、编辑、删除等操作

•支持通过关键词模糊搜索,支持按评测模型中的模型、提示词、智能体筛选

运行

1.评测方式为自动时,可直接点击运行,发起对评测任务的自动执行

运行完成后,可点击该评测任务,进入详情页,可点击查看结果。可查看当前评测任务执行的结果信息,包含输入的值和期望输出的值,与输入的提示词和智能体输出的结果进行对比。并展示评测结果、耗时与Tokens

2.评测方式为手动时,点击运行,将进入评测效果页,进行手动配置

提示词配置页:条件配置可配置模型和知识库,可添加提示词,针对不同提示词对比同一内容,不同的输出结果,择优选择提示词和召回内容最符合预期的一项

•模型配置页:条件配置可配置知识库和提示词,针对同一提示词不同模型对比同一输入内容,不同的输出结果,择优选择最符合预期的一个模型进行使用

编辑

1.智能体的评测为自动时:点击编辑,可重新更改智能体和评测集

2.提示词的评测为自动时:点击编辑,可重新更改模型和修改模型配置,可重新更改知识库、评测集、提示词(提示词至多可添加4个)

3.模型的评测为自动时:点击编辑,可重新更改模型和修改模型配置,至多可添加4个模型。可重新更改知识库、评测集、提示词

删除

•点击删除icon,跳出弹窗,填写任务名称,确认后即可删除


地址:陕西省西安市咸宁西路28号 邮编:710049 

版权所有:西安交通大学

站点建设与维护:网络信息中心   陕ICP备06008037号-5     陕公网安备61010302001223