Scrapling

Scrapling 是开源网页抓取框架,内置 MCP Server,可让 Claude Desktop、Claude Code 和其他 MCP 客户端调用抓取、动态渲染、截图和会话工具。

GitHub D4Vinci/Scrapling

先看结论

值得试用 依据:文档确认

适合把网页抓取能力接进 AI 工作流,尤其是需要 CSS 选择器、动态页面和截图的任务。

主要风险:它会访问外部网页并可能启动浏览器;采集登录态页面或业务页面前要确认权限和合规边界。

当前依据官方文档、GitHub 元数据和 MCP 周榜记录,尚未做本站实测。

适合场景
  • 网页内容抓取
  • 动态页面提取
  • Agent 读网页前的结构化采集
不建议用于
  • 绕过网站条款的批量采集
  • 高敏账号页面
  • 不允许本地执行浏览器的环境

判断依据

先看安装、能力、权限和数据边界;这些决定它能不能接进真实工作流。

接入可行性
pip / 5 个客户端

根据官方安装命令、配置片段、运行依赖和客户端兼容性判断。

能力边界
10 个工具

根据暴露的工具、资源、提示词和操作范围判断。当前操作范围:读取 / 执行 / 生成内容。

风险边界
公开数据 / 账号数据 / 业务数据

根据认证方式、数据敏感度、隐私风险和人工复核点判断。

资料可信度
活跃 / 3 个来源

根据官方资料、GitHub 信息、许可证和最后核对时间判断。

接入要点

这里解释接入前要判断的事实:连什么系统、拿什么权限、会碰到哪些数据、配置难不难。

连接对象
目标网页 / 本地浏览器 / MCP 客户端
能做什么
读取 / 执行 / 生成内容
认证方式
无需认证
配置难度
中,需要改配置或准备密钥
涉及数据
公开数据 / 账号数据 / 业务数据
Token 成本
中风险
检查命令

                scrapling mcp
              
人工复核
  • 目标网站是否允许抓取
  • 是否访问了登录态页面或业务后台
  • 返回内容是否包含隐藏提示或无关正文

安装方式

安装命令和配置片段优先来自官方文档或仓库 README;执行前仍要按你的客户端和本地环境复核。

安装方式:pip
pip install "scrapling[ai]"
scrapling install
scrapling mcp
配置示例

                {
  "mcpServers": {
    "ScraplingServer": {
      "command": "scrapling",
      "args": ["mcp"]
    }
  }
}
              

使用 Streamable HTTP 时运行 scrapling mcp --http;默认监听 0.0.0.0:8000,可改 host 和 port。

运行依赖: Python Chromium/Chrome 浏览器依赖 MCP 客户端

提供的能力

MCP 的能力来自它暴露给客户端的工具、资源和提示词;这里讲客户端能调用什么。

工具
  • get

    使用 HTTP 请求抓取页面内容,适合简单网页。

    参数:URL、格式、重试、CSS 选择器等参数以官方 MCP API 为准。

  • bulk_get

    并发抓取多个简单网页。

  • fetch

    使用 Chromium/Chrome 抓取动态页面。

  • bulk_fetch

    并发抓取多个动态页面。

  • stealthy_fetch

    使用 Stealthy browser 处理反爬和动态保护页面。

  • bulk_stealthy_fetch

    并发执行 stealth 抓取任务。

  • screenshot

    对网页截图,并以模型可看的图片内容返回。

  • open_session

    创建可复用浏览器会话。

  • close_session

    关闭浏览器会话并释放资源。

  • list_sessions

    查看当前打开的浏览器会话。

可用客户端

这些是官方资料或社区资料中确认过的可接入客户端;不同客户端的配置格式可能不同。

Claude Desktop Claude Code Cursor Windsurf 自定义客户端

基本信息

这一组是使用前的基础事实,包括中文、国内访问、开源、商用许可和隐私风险。

中文支持
部分
国内访问
未知
是否需要注册
是否开源
隐私风险
中风险
商用许可
允许商用

费用

费用和免费额度优先按官方定价、账号页或 README 记录;未确认时不做乐观假设。

项目本身免费;代理、目标网站账号、模型 token 和本地浏览器资源另算。

GitHub

GitHub 数据用于判断开源项目的维护状态,只代表抓取时点,不等同于最终质量结论。

D4Vinci/Scrapling
★ 54524 最近提交 2026-05-27 快照 2026-05-27

许可证

许可证决定能不能改、能不能商用、要不要署名;不清楚时应按“上线前复核”处理。

BSD-3-Clause

BSD-3-Clause,通常允许商用、修改和分发,需保留版权和许可声明。

https://raw.githubusercontent.com/D4Vinci/Scrapling/main/LICENSE

资料状态

这里记录资料最近一次核对时间和审核阶段;MCP 项目更新快,安装命令和客户端兼容性尤其需要复查。

审核阶段
待复核
最后核对
2026-05-27

参考来源

优先列官方文档、GitHub 和公开发布资料;本站的接入判断会和来源事实分开呈现。

页面结论

先用公开网页试 get,再试一个动态页面的 fetch。如果你的任务需要登录态页面、批量抓取或代理,先把合规和账号范围写清楚。

项目是什么

Scrapling 是 Python 网页抓取框架。MCP Server 把它的抓取、动态渲染、截图、会话管理能力暴露给支持 MCP 的 AI 客户端。

适合任务

  • 抓取公开网页正文并转 Markdown。
  • 从页面指定 CSS 选择器提取字段。
  • 让 Agent 在写分析前读取网页内容。

快速开始

pip install "scrapling[ai]"
scrapling install
scrapling mcp

Claude Desktop 配置:

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "scrapling",
      "args": ["mcp"]
    }
  }
}

适用边界

它适合“给 Agent 提供网页资料”。抓取策略、访问频率、目标网站条款、账号权限仍由使用者负责。