创建评测任务-交晓智Agent管理平台

退出登录

网络服务

首页 / 智能体建设 / 评测与对比 / 创建评测任务

1.登陆HiAgent

2.进入目标工作空间，在评测与对比下选择评测任务，点击创建评测任务

3.填写评测任务，评测类型有3类：模型、提示词、智能体

4.创建完成后，可以在评测集管理的页面列表中，看到该评测任务

Tips：您可以将对某一个（组）确定对象的评测定义为一个任务，在其中可以创建若干子任务进行评测。

填写评测任务表单：

配置项	说明
评测任务名称	•必填 •评测任务名称进行命名，用于标识该评测任务 •由中文、字母、数字、连接符（-、_）组成 •不能以连接符（-、_）开头或结尾 •字符限制：【2，128】字符 •工作空间内名称唯一
评测类型	•必填 •可选项包含：￮模型：针对不同模型进行对比评测￮提示词：针对不同提示词进行对比评测 ▪支持选择已发布的提示词模板使用￮智能体：针对某一智能体进行评测
评测方式	•必填 •可选项包含：￮手动：手动操作评测任务的运行￮自动：自动进行评测任务的执行

5.单击评测任务右侧的运行，创建评测子任务，在子任务中选择手动或自动的评测方式。在自动方式中，选择评测集，评测规则，以及定义模型参数、变量等。

评测方式选择自动：

•创建评测类型为模型的评测任务时，手动模式直接跳转到手动评测页面，自动评测需要填写知识库、评测集、提示词、评测规则等内容

•点击确定后，即可创建成功

配置项	说明
知识库	•非必填 •可添加当前空间下的知识库
评测集	•必填 •可选择当前空间下已发布的评测集进行对比测试
提示词	•必填 •输入当前评测时的提示词，评测时可对比，不同的提示词是否导致智能体输出的内容不一致

•支持添加四个评测模型，支持对模型的参数配置

配置项	说明
随机性temperature	•采样温度，控制输出的随机性，值越大会使输出更随机，更具创造性；值越小，输出会更加稳定或确定
核采样top_p	•控制输出的多样性,值越大输出包括更多单词选项；值越小，输出内容更集中在高概率单词上，即输出更确定但缺少多样性。一般temperature和top_p只设置一个
单次回复max_tokens	•单次输出内容最大token数
对话轮数保留	•带入模型上下文的对话历史轮数。数值越大，多轮对话内容的相关性越高，但消耗token数也更高
RAG范围	•开关：打开时携带历史对话的问题和答案，关闭则表示只包含问题 •知识库检索场景带入向量检索的历史对话轮数（只包括问题）。数值越大，多轮对话内容的相关性越高，但消耗token数也更高

评测方式选择手动：

•点击确定后，即可创建成功，此时进入模型评测的手动配置页面

•条件配置：可配置知识库和提示词

配置项	说明
条件配置	•非必填 •可配置知识库和提示词等条件
知识库	•非必填 •可添加当前空间下的知识库
提示词	•必填 •输入当前评测时的提示词，评测时可对比，不同的提示词是否导致智能体输出的内容不一致 •支持将当前的提示词保存为模板

•模型配置：可添加不同的模型，针对同一内容，不同模型的输出结果进行对比

配置项	说明
模型	•下拉选项 •可选择HiAgent支持的大语言模型
随机性temperature	•采样温度，控制输出的随机性，值越大会使输出更随机，更具创造性；值越小，输出会更加稳定或确定
核采样top_p	•控制输出的多样性,值越大输出包括更多单词选项；值越小，输出内容更集中在高概率单词上，即输出更确定但缺少多样性。一般temperature和top_p只设置一个
单次回复max_tokens	•单次输出内容最大token数
对话轮数保留	•带入模型上下文的对话历史轮数。数值越大，多轮对话内容的相关性越高，但消耗token数也更高
RAG范围	•开关：打开时携带历史对话的问题和答案，关闭则表示只包含问题 •知识库检索场景带入向量检索的历史对话轮数（只包括问题）。数值越大，多轮对话内容的相关性越高，但消耗token数也更高

•添加对比：可添加至多4个对比分区，针对同一内容不同模型的输出结果进行对比，可点击重新开始，重新对比

•支持对召回内容的复制、删除单轮对话操作

•支持模型评测中选择提示词模板，通过不同的模型进行召回内容对比

评测方式选择自动：

•创建评测类型为提示词的评测任务时，填写需要评测的模型、知识库、评测集、提示词等内容

•点击确定后，即可创建成功

配置项	说明
模型	•必填 •可选择需要评测的模型，至多可添加4个不同的模型 •且支持对模型配置参数
知识库	•非必填 •可添加当前空间下的知识库
评测集	•必填 •可选择当前空间下已发布的评测集进行对比测试

•支持对模型的参数配置

配置项	说明
随机性temperature	•采样温度，控制输出的随机性，值越大会使输出更随机，更具创造性；值越小，输出会更加稳定或确定
核采样top_p	•控制输出的多样性,值越大输出包括更多单词选项；值越小，输出内容更集中在高概率单词上，即输出更确定但缺少多样性。一般temperature和top_p只设置一个
单次回复max_tokens	•单次输出内容最大token数
对话轮数保留	•带入模型上下文的对话历史轮数。数值越大，多轮对话内容的相关性越高，但消耗token数也更高
RAG范围	•开关：打开时携带历史对话的问题和答案，关闭则表示只包含问题 •知识库检索场景带入向量检索的历史对话轮数（只包括问题）。数值越大，多轮对话内容的相关性越高，但消耗token数也更高

评测方式选择手动：

•创建评测类型为提示词的评测任务时，填写需要评测的模型、知识库、提示词等内容

•条件配置：可配置知识库和模型

•可增加对比，并添加不同的提示词模板进行对比

配置项	说明
条件配置	•非必填 •可配置模型和知识库等条件
模型	•必填 •可选择需要评测的模型
知识库	•非必填 •可添加当前空间下的知识库
提示词	•非必填 •输入当前评测时的提示词，评测时可对比，不同的提示词是否导致智能体输出的内容不一致 •支持将当前的提示词保存为模板
从模板选择	•非必填 •可选择不同的且已发布的提示词模板进行对比