GET
/
api
/
knowledgebases
/
{knowledgebaseId}
/
datasets
/
{datasetId}
/
chunks
從知識庫取得資料集塊
curl --request GET \
  --url https://app.pathors.com/api/knowledgebases/{knowledgebaseId}/datasets/{datasetId}/chunks \
  --header 'x-api-key: <x-api-key>'
{
  "id": "<string>",
  "content": "<string>",
  "contentLength": 123,
  "isEnabled": true
}

從知識庫取得資料集塊

檢索從知識庫中特定資料集提取的所有文字塊。這對於預覽您的內容是如何被處理和分塊的很有用。

端點

GET /api/knowledgebases/{knowledgebaseId}/datasets/{datasetId}/chunks

路徑參數

knowledgebaseId
string
required
包含資料集的知識庫的唯一標識符
datasetId
string
required
要從中檢索塊的資料集的唯一標識符

請求標頭

x-api-key
string
required
您的專案API金鑰用於身份驗證
請求範例:
curl -X GET \
  -H "x-api-key: your_api_key" \
  https://your-domain.com/api/knowledgebases/kb_abc123/datasets/dataset_xyz789/chunks

回應

返回從指定資料集提取的文字塊陣列。
id
string
塊的唯一標識符
content
string
塊的文字內容
contentLength
number
塊內容的字元長度
isEnabled
boolean
塊是否啟用搜尋(可以停用以從結果中排除)
回應範例:
[
  {
    "id": "chunk_abc123",
    "content": "這是從文檔中提取的第一個文字塊。它包含了關於公司使命和價值觀的資訊。",
    "contentLength": 52,
    "isEnabled": true
  },
  {
    "id": "chunk_def456",
    "content": "第二個塊討論了我們的產品提供以及它們如何解決市場中的客戶問題。",
    "contentLength": 38,
    "isEnabled": true
  }
]

錯誤回應

狀態碼描述
400缺少知識庫ID或資料集ID
401無效的API金鑰
403資料集不屬於指定的知識庫
404知識庫、資料集或塊未找到
500內部伺服器錯誤

理解塊

分塊過程

  • 文檔自動分割為較小的、可搜尋的片段
  • 塊大小由知識庫設定決定
  • 塊之間的重疊確保上下文連續性
  • 處理過程保留跨塊邊界的語義意義

塊屬性

  • 內容: 從文檔中提取的實際文字
  • 長度: 字元計數有助於理解塊大小
  • 狀態: 啟用的塊參與搜尋,停用的不參與

搜尋整合

  • 每個塊在語義搜尋中成為可搜尋的單元
  • 塊轉換為嵌入向量用於相似性匹配
  • 搜尋查詢返回所有資料集中最相關的塊

用例

內容審查

  • 預覽您的文檔是如何被處理的
  • 驗證重要資訊是否被正確提取
  • 檢查任何處理錯誤或格式問題

搜尋優化

  • 理解內容如何為搜尋而結構化
  • 識別可能需要更好上下文的塊
  • 優化文檔結構以獲得更好的分塊

故障排除

  • 偵錯為什麼某些內容沒有出現在搜尋結果中
  • 驗證塊內容是否符合預期
  • 檢查塊是否正確啟用

使用說明

  • 僅返回指定資料集的塊
  • 結果按在原始文檔中的位置排序
  • 大資料集可能返回許多塊
  • 塊內容反映處理和清理後的文字,而不是原始檔案內容

從舊端點遷移

如果您正在從已棄用的 /api/datasets/{filename}/chunks 端點遷移:
  1. 使用取得知識庫取得您的知識庫ID
  2. 取得知識庫中的資料集取得資料集ID
  3. 更新您的API呼叫以在URL路徑中使用兩個ID
  4. 回應格式保持不變

相關端點