从知识库获取数据集块
检索从知识库中特定数据集提取的所有文本块。这对于预览您的内容是如何被处理和分块的很有用。端点
路径参数
包含数据集的知识库的唯一标识符
要从中检索块的数据集的唯一标识符
请求头
您的项目API密钥用于身份验证
响应
返回从指定数据集提取的文本块数组。块的唯一标识符
块的文本内容
块内容的字符长度
块是否启用搜索(可以禁用以从结果中排除)
错误响应
状态码 | 描述 |
---|---|
400 | 缺少知识库ID或数据集ID |
401 | 无效的API密钥 |
403 | 数据集不属于指定的知识库 |
404 | 知识库、数据集或块未找到 |
500 | 内部服务器错误 |
理解块
分块过程
- 文档自动分割为较小的、可搜索的片段
- 块大小由知识库配置决定
- 块之间的重叠确保上下文连续性
- 处理过程保留跨块边界的语义意义
块属性
- 内容: 从文档中提取的实际文本
- 长度: 字符计数有助于理解块大小
- 状态: 启用的块参与搜索,禁用的不参与
搜索集成
- 每个块在语义搜索中成为可搜索的单元
- 块转换为嵌入向量用于相似性匹配
- 搜索查询返回所有数据集中最相关的块
用例
内容审查
- 预览您的文档是如何被处理的
- 验证重要信息是否被正确提取
- 检查任何处理错误或格式问题
搜索优化
- 理解内容如何为搜索而结构化
- 识别可能需要更好上下文的块
- 优化文档结构以获得更好的分块
故障排除
- 调试为什么某些内容没有出现在搜索结果中
- 验证块内容是否符合预期
- 检查块是否正确启用
使用说明
- 仅返回指定数据集的块
- 结果按在原始文档中的位置排序
- 大数据集可能返回许多块
- 块内容反映处理和清理后的文本,而不是原始文件内容
从旧端点迁移
如果您正在从已弃用的/api/datasets/{filename}/chunks
端点迁移:
- 使用获取知识库获取您的知识库ID
- 从获取知识库中的数据集获取数据集ID
- 更新您的API调用以在URL路径中使用两个ID
- 响应格式保持不变