POST
/
api
/
knowledgebases
/
{knowledgebaseId}
/
datasets
创建数据集
curl --request POST \
  --url https://app.pathors.com/api/knowledgebases/{knowledgebaseId}/datasets \
  --header 'Content-Type: <content-type>' \
  --header 'x-api-key: <x-api-key>' \
  --data '{}'
{
  "message": "<string>",
  "success": true
}

创建数据集

在指定的知识库中上传和创建新的数据集。数据集将被处理并嵌入以供语义搜索使用。

端点

POST /api/knowledgebases/{knowledgebaseId}/datasets

路径参数

knowledgebaseId
string
required
将创建数据集的知识库的唯一标识符

请求头

x-api-key
string
required
您的项目API密钥用于身份验证
Content-Type
string
required
必须是 multipart/form-data

请求体

dataset
file
required
要上传的数据集文件。支持的格式:PDF、TXT、DOCX和其他基于文本的格式
请求示例:
curl -X POST \
  -H "x-api-key: your_api_key" \
  -F "dataset=@/path/to/your/file.pdf" \
  https://your-domain.com/api/knowledgebases/kb_abc123/datasets

响应

返回成功消息,表示数据集已上传并正在处理中。
message
string
描述上传状态的成功消息
success
boolean
指示上传是否成功
响应示例:
{
  "message": "Dataset Uploaded successfully, currently embedding in the background",
  "success": true
}

错误响应

状态码描述
400无效请求(缺少文件、无效格式或知识库ID)
401无效的API密钥
404知识库未找到或访问被拒绝
500内部服务器错误

处理流程

  1. 上传验证: 验证文件格式和大小
  2. 知识库验证: 确保知识库存在并属于您的项目
  3. 文件存储: 数据集存储在系统中
  4. 后台处理: 数据集异步处理和嵌入
  5. 分块: 内容被分割成可搜索的块
  6. 嵌入: 块转换为向量嵌入用于语义搜索

支持的文件格式

  • PDF文档
  • 纯文本文件 (.txt)
  • Microsoft Word文档 (.docx)
  • 其他基于文本的格式

使用说明

  • 处理在上传后异步进行
  • 大文件可能需要几分钟来处理
  • 您可以通过数据集列表端点检查处理状态
  • 知识库必须存在并属于您的项目
  • 适用文件大小限制(检查您的计划限制)

从旧端点迁移

如果您正在从已弃用的 /api/datasets 端点迁移:
  1. 首先,使用获取知识库获取您的知识库ID
  2. 更新您的API调用以在URL路径中包含知识库ID
  3. 请求体格式保持不变

相关端点