從知識庫取得資料集塊
檢索從知識庫中特定資料集提取的所有文字塊。這對於預覽您的內容是如何被處理和分塊的很有用。端點
路徑參數
包含資料集的知識庫的唯一標識符
要從中檢索塊的資料集的唯一標識符
請求標頭
您的專案API金鑰用於身份驗證
回應
返回從指定資料集提取的文字塊陣列。塊的唯一標識符
塊的文字內容
塊內容的字元長度
塊是否啟用搜尋(可以停用以從結果中排除)
錯誤回應
狀態碼 | 描述 |
---|---|
400 | 缺少知識庫ID或資料集ID |
401 | 無效的API金鑰 |
403 | 資料集不屬於指定的知識庫 |
404 | 知識庫、資料集或塊未找到 |
500 | 內部伺服器錯誤 |
理解塊
分塊過程
- 文檔自動分割為較小的、可搜尋的片段
- 塊大小由知識庫設定決定
- 塊之間的重疊確保上下文連續性
- 處理過程保留跨塊邊界的語義意義
塊屬性
- 內容: 從文檔中提取的實際文字
- 長度: 字元計數有助於理解塊大小
- 狀態: 啟用的塊參與搜尋,停用的不參與
搜尋整合
- 每個塊在語義搜尋中成為可搜尋的單元
- 塊轉換為嵌入向量用於相似性匹配
- 搜尋查詢返回所有資料集中最相關的塊
用例
內容審查
- 預覽您的文檔是如何被處理的
- 驗證重要資訊是否被正確提取
- 檢查任何處理錯誤或格式問題
搜尋優化
- 理解內容如何為搜尋而結構化
- 識別可能需要更好上下文的塊
- 優化文檔結構以獲得更好的分塊
故障排除
- 偵錯為什麼某些內容沒有出現在搜尋結果中
- 驗證塊內容是否符合預期
- 檢查塊是否正確啟用
使用說明
- 僅返回指定資料集的塊
- 結果按在原始文檔中的位置排序
- 大資料集可能返回許多塊
- 塊內容反映處理和清理後的文字,而不是原始檔案內容
從舊端點遷移
如果您正在從已棄用的/api/datasets/{filename}/chunks
端點遷移:
- 使用取得知識庫取得您的知識庫ID
- 從取得知識庫中的資料集取得資料集ID
- 更新您的API呼叫以在URL路徑中使用兩個ID
- 回應格式保持不變