触发异步数据采集 API
了解如何使用 Scrapers 触发数据采集,支持 discovery 和 PDP 两种采集方式。可自定义请求、设置交付选项,并高效获取数据。
Documentation Index
Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt
Use this file to discover all available pages before exploring further.
工作原理
默认情况下,抓取请求会以异步方式处理。提交请求后,系统会在后台开始处理任务,并立即返回一个快照 ID。任务完成后,你可以使用该快照 ID 通过 API 下载数据,从而在任意时间获取结果。你也可以将请求配置为自动将结果交付到外部存储(如 S3 或 Azure Blob Storage)。这种方式非常适合处理大规模任务或集成自动化数据管道。Body
提供给 scraper 使用的输入。可作为 JSON 或 CSV 文件提交:
Example: [{"url":"https://www.airbnb.com/rooms/50122531"}]
一个 CSV 文件,通过字段
data 传入
Example (curl): data=@path/to/your/file.csv
Web Scraper 类型
不同 scraper 可能需要不同的输入。主要有两类:1. PDP
这些 scraper 需要 URL 作为输入。PDP scraper 会从网页提取产品详情,如规格、价格和功能信息。2. Discovery
Discovery scrapers 允许通过搜索、分类、关键词等方式探索并发现新的实体或产品。
请求示例
PDP URL 输入示例
PDP 的输入格式始终是指向待抓取页面的 URL。
基于 discovery 方法的 Discovery 输入示例
discovery 的输入格式可能因具体 scraper 而异。示例如下:
Authorizations
在 Authorization 头中使用您的 Bright Data API Key 作为 Bearer token。
认证方法:
- 从 Bright Data 账户设置获取您的 API Key: https://brightdata.com/cp/setting/users
- 在请求的 Authorization 头中包含 API Key
- 格式:
Authorization: Bearer YOUR_API_KEY
示例:
Authorization: Bearer b5648e1096c6442f60a6c4bbbe73f8d2234d3d8324554bd6a7ec8f3f251f07df了解如何获取 Bright Data API Key: https://docs.brightdata.com/cn/api-reference/authentication#如何生成新的-api-key?
Query Parameters
触发数据采集的数据集 ID。
"gd_l1vikfnt1wgvvqz95w"
输出列列表,用 | 分隔 (例如 url|about.updated_on)。过滤响应,仅包含指定字段。
"url|about.updated_on"
设置为 "discover_new" 以触发包含发现阶段的数据采集。
discover_new 指定使用哪种发现方法。可选项包括: "keyword"、"best_sellers_url"、"category_url"、"location" 等(根据具体 API)。仅对包含发现阶段的采集相关。
在结果中包含错误报告。
每个输入的结果数量限制。仅对包含发现阶段的采集相关。
x >= 1限制总结果数量。
x >= 1当采集完成时,通知将发送到此 URL,包含 snapshot_id 和状态。
数据将被传送到的 webhook URL。
指定传送到 webhook 的数据格式。
json, ndjson, jsonl, csv 发送通知到 notify URL 或通过 webhook 传输数据时使用的授权头。
默认情况下,数据会被压缩发送到 webhook。传 true 可不压缩发送。
Body
- 仅输入 · object[]
- 交付配置和输入 · object
Response
采集任务成功启动
可在后续 API 中使用的请求 ID
"s_m4x7enmven8djfqak"