1.知识库概述
“交小智”中的知识库是一个存储和管理知识的系统。它可以包含各种类型的知识,如文本、图像、音频等。知识库的目的是为了方便用户查询和使用知识,提高工作效率和质量。通过简单易用的方式来存储和管理外部数据,让智能体可以与制定的数据进行交互,将数据上传到知识库之后,系统将使用您选择的分段方式将文档分割成一个一个的内容片段进行存储,并通过您选择的检索方式来检索最相关的内容来回答用户的问题
l支持将产品介绍文档导入知识库,可以创建该产品专属的智能体。
l支持常关注的网站或在线论文导入知识库,通过知识库的自动更新能力,智能体可以收集最新的数据并更新。
l知识库中的内容由大到小可分为:
l知识库:一整套领域知识,是智能体加载的最小单位。
l文档:知识库的一部分,可上传的最小内容可以是一个文件或一个网页。
l分段:一个单元切分成多个分段,模型查询的最小单位,分段内容的完整度和准确性会影响模型回答的准确性。
2.知识库管理
2.1.创建知识库
(1)登录“交小智”。
(2)进入目标工作空间,选择知识库,点击创建知识库。
(3)填写知识库的基本信息表单。
(4)创建完成后,可以在知识库管理的页面列表中,看到该知识库。
(5)一般选择标准标准类型配置。
2.2.导入文件
(1)知识库创建完成后,需要在知识库中添加文件,完善当前知识库的内容。
(2)点击导入文件,可添加通用类型、表格类型、论文类型、JSON类型文件。
2.3.文件分段
支持对导入的文件进行分段设置,可自动分割或自定义分割文档内容段落,配置将完整文件分割成分段的规则,知识库分段是一条独立的信息或特定的内容块。上传到知识库中的内容会被自动分割成多段,然后召回最相关的片段,帮助模型提高回答的准确性。
分段一般分为以下几种方式
(1)通用方式
此方法将对文件进行简单的分段:
默认会将内容按照分段标识符进行分割,再合并成一个不超过分段最大字符数的分块。内容中的表格和图片也会保存,如果要识别图片中的文字,需在自定义规则中启用OCR。
(2)表格类型
此方法将表格文件按行进行分段:支持Map字典(以键值对存储列名和对应单元格内容)和Markdown两种分段格式。更适用于以文字内容为主的表格处理。
(3)论文类型
此方法将文件内容按照版面布局识别和解析,按章节段落进行分段,例如摘要、1.1、1.2等。会删除文件中可能干扰召回的内容,例如页眉、页脚、参考资料列表等。
(4)JSON类型
此方法将JSON内容按照数组字段进行分段,分段前需要选择字段:如果选中字段对应的是数组,则会将数组里的每一项数据分别分割出一个对应的分段,选中的其他字段保留。如果选中字段对应的非数组,则会向上查找到最近的数组字段,然后执行上述的分割流程。
2.4.API接口类型配置
2.4.1.填写API接口类型表单
•将知识库类型选择为API接口,并填写知识库的基本信息和API接口参数设置后,点击确定后即可创建成功
配置项 |
说明 |
API接口参数设置 |
•当类型选择为API接口类型时,有该配置项 |
数据源 |
•必填 •可添加当前空间内已创建完成的数据源,不同的数据源会导致内部参数名不同 |
请求体参数映射 |
•必填 •调用API接口时携带参数处理,内部参数为平台接口参数字段,外部参数为目标API接口参数字段 •可添加多个请求体参数映射 |
内部参数名 |
•必填 •可选项包含:必填Query、TopK、Score、UserId(不同的数据源会导致内部参数名不同) •每个参数仅可选择一个,不允许重复 |
外部参数名 |
•必填 •可填写外部参数名 |
返回值参数映射 |
•调用API接口后返回值处理,内部参数为平台接口返回值字段,外部参数为目标API接口返回值字段 •可添加多个返回值参数映射 |
内部参数名 |
•必填 •可选项包含:必填Content、Score(不同的数据源会导致内部参数名不同) •每个参数仅可选择一个,不允许重复 |
外部参数名 |
•必填 •可填写外部参数名 |
3.使用知识库
3.1.智能体使用知识库
1.登录“交小智”。
2.在目标工作空间内,点击目标智能体进入。
3.在编排页面中间的技能添加区域,找到知识库进行添加知识库。
4.配置知识库召回设置,使AI能通过知识库检索答复用户,并使召回的内容符合预期。
3.2.工作流使用知识库
1.登录“交小智”。
2.进入目标工作空间,选择工作流,点击目标工作流进入工作流画布编辑页面。
3.在左侧的技能添加区域,找到知识库进行添加知识库。
4.在选定的知识中,根据设置的召回分段数数量和要求的相似度设置值来召回最匹配的分段信息,并以List形式返回。
4.管理知识库
4.1.知识库列表页管理
(1)登录“交小智”。
(2)进入目标工作空间,选择知识库,进入知识库列表页。
(3)可通过关键词模糊搜索知识库,可创建API接口或标准类型的知识库。
(4)支持对知识库的编辑和删除。
编辑:点击编辑,可编辑当前知识库的基本信息和对应的设置
4.2.知识库详情页管理
4.2.1.标准知识库详情页管理
4.2.2.文件列表
•标准类型知识库,点击后进入文件列表详情页
•支持对当前知识库的编辑信息和删除当前知识库
•可输入文件拓展名,文件名称查询文件
•支持拷贝文件,导入文件
•支持文件的启用和禁用,已被禁用的数据不会被智能体召回
•支持查看文件的有效期
•支持操作:查看原文件、编辑分段参数,下载原文件,删除文件
•支持批量启用、批量禁用、批量下载、批量删除、批量修改有效期
4.2.3.命中测试
•标准类型知识库,点击后进入命中测试详情页
•输入关键词,点击查询,可查询输入的关键词,是否命中数据源对应的分段内容
•可查看关键词查询的近20条历史记录
•支持对关键词的参数配置
4.2.4.设置详情
•标准类型知识库,点击后选择进入设置详情字段页
•可查看当前标准类型知识库的基本信息、Embedding模型信息
4.2.5.API接口知识库详情页管理
4.2.6.命中测试
•API接口类型知识库,点击后进入命中测试详情页
•输入关键词,点击查询,可查询输入的关键词,是否命中API接口对应的分段内容
•可查看关键词查询的近20条历史记录
•支持对关键词的参数配置
4.2.7.设置详情
•API接口的知识库,点击后选择进入设置详情字段页
•可查看当前API接口知识库的基本信息、数据源信息,请求体参数映射,返回值参数映射字段信息