1.登陆HiAgent
2.进入目标工作空间,在评测与对比下选择评测任务,点击创建评测任务
3.填写评测任务,评测类型有3类:模型、提示词、智能体
4.创建完成后,可以在评测集管理的页面列表中,看到该评测任务
Tips:您可以将对某一个(组)确定对象的评测定义为一个任务,在其中可以创建若干子任务进行评测。
填写评测任务表单:
配置项 |
说明 |
评测任务名称 |
•必填 •评测任务名称进行命名,用于标识该评测任务 •由中文、字母、数字、连接符(-、_)组成 •不能以连接符(-、_)开头或结尾 •字符限制:【2,128】字符 •工作空间内名称唯一 |
评测类型 |
•必填 •可选项包含: ○模型:针对不同模型进行对比评测 ○提示词:针对不同提示词进行对比评测 ▪支持选择已发布的提示词模板使用 ○智能体:针对某一智能体进行评测 |
评测方式 |
•必填 •可选项包含: ○手动:手动操作评测任务的运行 ○自动:自动进行评测任务的执行 |
5.单击评测任务右侧的运行,创建评测子任务,在子任务中选择手动或自动的评测方式。在自动方式中,选择评测集,评测规则,以及定义模型参数、变量等。
模型评测任务
评测方式选择自动:
•创建评测类型为模型的评测任务时,手动模式直接跳转到手动评测页面,自动评测需要填写知识库、评测集、提示词、评测规则等内容
•点击确定后,即可创建成功
配置项 |
说明 |
知识库 |
•非必填 •可添加当前空间下的知识库 |
评测集 |
•必填 •可选择当前空间下已发布的评测集进行对比测试 |
提示词 |
•必填 •输入当前评测时的提示词,评测时可对比,不同的提示词是否导致智能体输出的内容不一致 |
•支持添加四个评测模型,支持对模型的参数配置
配置项 |
说明 |
随机性temperature |
•采样温度,控制输出的随机性,值越大会使输出更随机,更具创造性;值越小,输出会更加稳定或确定 |
核采样top_p |
•控制输出的多样性,值越大输出包括更多单词选项;值越小,输出内容更集中在高概率单词上,即输出更确定但缺少多样性。一般temperature和top_p只设置一个 |
单次回复max_tokens |
•单次输出内容最大token数 |
对话轮数保留 |
•带入模型上下文的对话历史轮数。数值越大,多轮对话内容的相关性越高,但消耗token数也更高 |
RAG范围 |
•开关:打开时携带历史对话的问题和答案,关闭则表示只包含问题 •知识库检索场景带入向量检索的历史对话轮数(只包括问题)。数值越大,多轮对话内容的相关性越高,但消耗token数也更高 |
评测方式选择手动:
•点击确定后,即可创建成功,此时进入模型评测的手动配置页面
•条件配置:可配置知识库和提示词
配置项 |
说明 |
条件配置 |
•非必填 •可配置知识库和提示词等条件 |
知识库 |
•非必填 •可添加当前空间下的知识库 |
提示词 |
•必填 •输入当前评测时的提示词,评测时可对比,不同的提示词是否导致智能体输出的内容不一致 •支持将当前的提示词保存为模板 |
•模型配置:可添加不同的模型,针对同一内容,不同模型的输出结果进行对比
配置项 |
说明 |
模型 |
•下拉选项 •可选择HiAgent支持的大语言模型 |
随机性temperature |
•采样温度,控制输出的随机性,值越大会使输出更随机,更具创造性;值越小,输出会更加稳定或确定 |
核采样top_p |
•控制输出的多样性,值越大输出包括更多单词选项;值越小,输出内容更集中在高概率单词上,即输出更确定但缺少多样性。一般temperature和top_p只设置一个 |
单次回复max_tokens |
•单次输出内容最大token数 |
对话轮数保留 |
•带入模型上下文的对话历史轮数。数值越大,多轮对话内容的相关性越高,但消耗token数也更高 |
RAG范围 |
•开关:打开时携带历史对话的问题和答案,关闭则表示只包含问题 •知识库检索场景带入向量检索的历史对话轮数(只包括问题)。数值越大,多轮对话内容的相关性越高,但消耗token数也更高 |
•添加对比:可添加至多4个对比分区,针对同一内容不同模型的输出结果进行对比,可点击重新开始,重新对比
•支持对召回内容的复制、删除单轮对话操作
•支持模型评测中选择提示词模板,通过不同的模型进行召回内容对比
提示词评测任务
评测方式选择自动:
•创建评测类型为提示词的评测任务时,填写需要评测的模型、知识库、评测集、提示词等内容
•点击确定后,即可创建成功
配置项 |
说明 |
模型 |
•必填 •可选择需要评测的模型,至多可添加4个不同的模型 •且支持对模型配置参数 |
知识库 |
•非必填 •可添加当前空间下的知识库 |
评测集 |
•必填 •可选择当前空间下已发布的评测集进行对比测试 |
•支持对模型的参数配置
配置项 |
说明 |
随机性temperature |
•采样温度,控制输出的随机性,值越大会使输出更随机,更具创造性;值越小,输出会更加稳定或确定 |
核采样top_p |
•控制输出的多样性,值越大输出包括更多单词选项;值越小,输出内容更集中在高概率单词上,即输出更确定但缺少多样性。一般temperature和top_p只设置一个 |
单次回复max_tokens |
•单次输出内容最大token数 |
对话轮数保留 |
•带入模型上下文的对话历史轮数。数值越大,多轮对话内容的相关性越高,但消耗token数也更高 |
RAG范围 |
•开关:打开时携带历史对话的问题和答案,关闭则表示只包含问题 •知识库检索场景带入向量检索的历史对话轮数(只包括问题)。数值越大,多轮对话内容的相关性越高,但消耗token数也更高 |
评测方式选择手动:
•创建评测类型为提示词的评测任务时,填写需要评测的模型、知识库、提示词等内容
•条件配置:可配置知识库和模型
•可增加对比,并添加不同的提示词模板进行对比
配置项 |
说明 |
条件配置 |
•非必填 •可配置模型和知识库等条件 |
模型 |
•必填 •可选择需要评测的模型 |
知识库 |
•非必填 •可添加当前空间下的知识库 |
提示词 |
•非必填 •输入当前评测时的提示词,评测时可对比,不同的提示词是否导致智能体输出的内容不一致 •支持将当前的提示词保存为模板 |
从模板选择 |
•非必填 •可选择不同的且已发布的提示词模板进行对比 |
•提示词编辑:可添加不同的提示词,针对同一内容,不同提示词的输出结果进行对比
•添加对比:可添加至多4个对比分区,针对同一内容不同模型的输出结果进行对比,可点击重新开始,重新对比
智能体评测任务
评测方式选择自动:
•创建评测类型为智能体的评测任务时,填写需要评测的智能体、评测集内容
•点击确定后,即可创建成功
智能体评测任务,评测方式仅支持自动评测 |
配置项 |
说明 |
智能体 |
•必填 •可添加当前空间下的智能体 |
评测集 |
•必填 •可添加当前空间下的评测集 |
管理评测任务
•支持对评测任务的运行、编辑、删除等操作
•支持通过关键词模糊搜索,支持按评测模型中的模型、提示词、智能体筛选
运行
1.评测方式为自动时,可直接点击运行,发起对评测任务的自动执行
运行完成后,可点击该评测任务,进入详情页,可点击查看结果。可查看当前评测任务执行的结果信息,包含输入的值和期望输出的值,与输入的提示词和智能体输出的结果进行对比。并展示评测结果、耗时与Tokens
2.评测方式为手动时,点击运行,将进入评测效果页,进行手动配置
•提示词配置页:条件配置可配置模型和知识库,可添加提示词,针对不同提示词对比同一内容,不同的输出结果,择优选择提示词和召回内容最符合预期的一项
•模型配置页:条件配置可配置知识库和提示词,针对同一提示词不同模型对比同一输入内容,不同的输出结果,择优选择最符合预期的一个模型进行使用
编辑
1.智能体的评测为自动时:点击编辑,可重新更改智能体和评测集
2.提示词的评测为自动时:点击编辑,可重新更改模型和修改模型配置,可重新更改知识库、评测集、提示词(提示词至多可添加4个)
3.模型的评测为自动时:点击编辑,可重新更改模型和修改模型配置,至多可添加4个模型。可重新更改知识库、评测集、提示词
删除
•点击删除icon,跳出弹窗,填写任务名称,确认后即可删除
地址:陕西省西安市咸宁西路28号 邮编:710049
版权所有:西安交通大学
站点建设与维护:网络信息中心 陕ICP备06008037号-5 陕公网安备61010302001223