GET
/
api
/
knowledgebases
/
{knowledgebaseId}
/
datasets
/
{datasetId}
/
chunks
从知识库获取数据集块
curl --request GET \
  --url https://app.pathors.com/api/knowledgebases/{knowledgebaseId}/datasets/{datasetId}/chunks \
  --header 'x-api-key: <x-api-key>'
{
  "id": "<string>",
  "content": "<string>",
  "contentLength": 123,
  "isEnabled": true
}

从知识库获取数据集块

检索从知识库中特定数据集提取的所有文本块。这对于预览您的内容是如何被处理和分块的很有用。

端点

GET /api/knowledgebases/{knowledgebaseId}/datasets/{datasetId}/chunks

路径参数

knowledgebaseId
string
required
包含数据集的知识库的唯一标识符
datasetId
string
required
要从中检索块的数据集的唯一标识符

请求头

x-api-key
string
required
您的项目API密钥用于身份验证
请求示例:
curl -X GET \
  -H "x-api-key: your_api_key" \
  https://your-domain.com/api/knowledgebases/kb_abc123/datasets/dataset_xyz789/chunks

响应

返回从指定数据集提取的文本块数组。
id
string
块的唯一标识符
content
string
块的文本内容
contentLength
number
块内容的字符长度
isEnabled
boolean
块是否启用搜索(可以禁用以从结果中排除)
响应示例:
[
  {
    "id": "chunk_abc123",
    "content": "这是从文档中提取的第一个文本块。它包含了关于公司使命和价值观的信息。",
    "contentLength": 52,
    "isEnabled": true
  },
  {
    "id": "chunk_def456",
    "content": "第二个块讨论了我们的产品提供以及它们如何解决市场中的客户问题。",
    "contentLength": 38,
    "isEnabled": true
  }
]

错误响应

状态码描述
400缺少知识库ID或数据集ID
401无效的API密钥
403数据集不属于指定的知识库
404知识库、数据集或块未找到
500内部服务器错误

理解块

分块过程

  • 文档自动分割为较小的、可搜索的片段
  • 块大小由知识库配置决定
  • 块之间的重叠确保上下文连续性
  • 处理过程保留跨块边界的语义意义

块属性

  • 内容: 从文档中提取的实际文本
  • 长度: 字符计数有助于理解块大小
  • 状态: 启用的块参与搜索,禁用的不参与

搜索集成

  • 每个块在语义搜索中成为可搜索的单元
  • 块转换为嵌入向量用于相似性匹配
  • 搜索查询返回所有数据集中最相关的块

用例

内容审查

  • 预览您的文档是如何被处理的
  • 验证重要信息是否被正确提取
  • 检查任何处理错误或格式问题

搜索优化

  • 理解内容如何为搜索而结构化
  • 识别可能需要更好上下文的块
  • 优化文档结构以获得更好的分块

故障排除

  • 调试为什么某些内容没有出现在搜索结果中
  • 验证块内容是否符合预期
  • 检查块是否正确启用

使用说明

  • 仅返回指定数据集的块
  • 结果按在原始文档中的位置排序
  • 大数据集可能返回许多块
  • 块内容反映处理和清理后的文本,而不是原始文件内容

从旧端点迁移

如果您正在从已弃用的 /api/datasets/{filename}/chunks 端点迁移:
  1. 使用获取知识库获取您的知识库ID
  2. 获取知识库中的数据集获取数据集ID
  3. 更新您的API调用以在URL路径中使用两个ID
  4. 响应格式保持不变

相关端点