安全的智能网页抓取技能,节省 50-80% Token。替代内置 web_fetch,自动使用 Jina Reader 清洗服务获取干净 Markdown。内置 URL 白名单验证、SSL 强制验证、敏感数据检测,防止 SSRF 和数据泄露。
安全的智能网页内容获取技能。保留原版的核心功能(Token 节省 50-80%),但增加多层安全防护。
# 获取清洗后的 Markdown
python3 {baseDir}/scripts/safe_fetch.py "https://example.com/article"
# JSON 格式输出(包含元信息)
python3 {baseDir}/scripts/safe_fetch.py "https://example.com/article" --json
# 查看安全配置
python3 {baseDir}/scripts/safe_fetch.py --show-config
当用户需要获取网页内容时:
用户: "帮我查一下 https://example.com/article 的内容"
Agent 应该:
1. 运行: python3 ~/.openclaw/skills/safe-web-fetch/scripts/safe_fetch.py "https://example.com/article"
2. 获得清洗后的 Markdown 内容
阻止以下危险 URL:
发送前检测页面内容,拒绝发送包含:
api_key=, apikey=, key=)access_token=, token=)Bearer , Authorization: )AKIA, aws_)-----BEGIN.*PRIVATE KEY-----)不会禁用 SSL 证书验证,确保:
在 config.json 中配置:
{
"allowed_domains": ["example.com", "docs.example.com"],
"blocked_domains": ["ads.example.com"],
"max_content_size": 10485760,
"timeout": 30
}
{
"success": true,
"url": "https://r.jina.ai/http://example.com/article",
"original_url": "https://example.com/article",
"content": "# Article Title\n\nClean markdown content here...",
"source": "jina",
"content_length": 1234,
"error": null
}
| 特性 | 原版 smart-web-fetch | 本技能 safe-web-fetch |
|---|---|---|
| SSL 验证 | ❌ 禁用 | ✅ 强制 |
| URL 白名单 | ❌ 无 | ✅ 有 |
| 敏感数据检测 | ❌ 无 | ✅ 有 |
| SSRF 防护 | ❌ 无 | ✅ 有 |
| 修改 Agent 配置 | ⚠️ 会修改 | ❌ 不修改 |
| Token 节省 | 50-80% | 50-80% |
创建 config.json 进行自定义配置:
{
"allowed_domains": [],
"blocked_domains": [],
"max_content_size": 10485760,
"timeout": 30,
"user_agent": "SafeWebFetch/1.0"
}
安全提示: 此技能不会修改 Agent 配置,不会自动接管 web_fetch。如需优先使用本技能,请手动在任务中调用。
ZIP package — ready to use