要为数据集设置交付首选项,只需点击”交付设置”选项卡:Documentation Index
Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt
Use this file to discover all available pages before exploring further.
-
选择文件格式:
- JSON
- NDJSON
- CSV
- JSON lines
- 选择接收数据的方式:
- Amazon S3 (AWS S3 用户角色权限)
- Google Cloud Storage (如何找到您的 Google Cloud 私钥)
- Google Cloud PubSub
- Microsoft Azure Storage
- SFTP/FTP
-
Snowflake (Snowflake 交付配置指南)
流式交付功能(流式传输结果) - 对于大型快照,您可以选择以最小批次 10 的形式立即获得结果。需要一种交付方法(存储或 webhook - 与 API 下载不兼容)。要在 WSAPI 中触发,请添加
&stream_max_lines=10 /或打开切换栏。- 10 是最小值
-
100k 是最大值

&download_fields= 来检索文件以及提取的数据。
可用选项:
htmlwarc(不总是可用)screenshot(不总是可用)
AWS S3 用户角色权限

创建角色
转到 IAM 控制台中的”角色”部分
创建一个新角色,并在”权限策略”部分中指定在步骤 1 中创建的策略。记下角色的 ARN,该 ARN 将用于交付凭证。(ARN 看起来像

arn:aws:iam::<ROLE_ID>:role/<ROLE_NAME>)用户角色示例:如何找到您的 Google Cloud 私钥
- 转到 Google Cloud Platform 控制台主页 - https://console.cloud.google.com/
- 展开 Google Cloud Platform 菜单,并点击”IAM 和管理”。
- 点击服务账户。

- 从列表中选择现有服务账户或创建一个新的。


- 在创建服务账户过程中通过输入名称、ID 和描述来创建服务账户。然后授予访问权限并创建账户。

- 点击服务账户的电子邮件。

- 要访问密钥,点击”KEYS”选项��。点击”添加密钥”下拉菜单,然后选择”创建新密钥”。

- 选择 JSON 作为密钥类型。

- 服务账户密钥 JSON 文件会自动下载到您的本地计算机。
- 从下载的 JSON 文件中复制
private_key并将其粘贴到数据收集器交付设置中。

Snowflake 交付配置指南
Snowflake 配置可用于”数据集”交付,不适用于数据收集器(Web 爬虫)
创建 BrightData 用户
接下来,为将用于直接上传数据到 Snowflake 的 BrightData 创建新用户。命令如下:将
<user_name>、<password> 和 <login> 替换为您选择的用户名、密码和登录名。允许列表 IP
如果您在 Snowflake 账户中应用了活跃的网络策略,您需要将以下 IP 添加到允许列表:将
<policy_name> 替换为您的网络策略名称。将 <existing_whiltelisted_ips> 替换为现有允许列表 IP 的列表。就这样!您现在已配置了 Snowflake 环境以从我们的平台接收数据。webhook 允许列表 IP
下面列出的所有 IP 地址都是合法的 Bright Data webhook 源,用于我们的基础设施(爬虫、AI 爬虫、SERP API 等)。这适用于来自 Bright Data 服务的所有异步 webhook 交付。为了确保您接收所有 webhook 通知而不出现问题,请允许列表(白名单)以下 IP:如果您有任何问题或需要进一步的帮助,请联系我们的支持团队。如果您想了解更多关于数据加载性能和仓库大小考虑的信息,请点击这里。
