Day 1: Clawdbot 爆火背后的真相:我们终于不再写 Selenium 了

Day 1: Clawdbot 爆火背后的真相:我们终于不再写 Selenium 了

标题备选

  1. Clawdbot 爆火:为什么我把 Selenium 脚本全删了?
  2. 你的爬虫还在改 CSS 选择器?Clawdbot 已经学会"看"网页了
  3. 从"找元素"到"懂意图":自动化领域的 iPhone 时刻

正文内容

最近 GitHub 和 X 上全是关于 Clawdbot 的讨论。如果你还没关注,可能正在错过点什么。

很多人说它是爬虫工程师的 Copilot。我觉得不对。Copilot 帮你写代码,Clawdbot 是帮你扔掉代码

我被 Selenium 折磨的日子

回想一下我们以前是怎么写自动化的。

上周二,我正在调试一个亚马逊价格监控脚本。网站改版了,原来的 <div class="price-block"> 变成了 <span id="new-price-wrapper">。 脚本崩了。我不得不打开浏览器开发者工具 (F12),盯着那堆乱七八糟的 HTML,像个考古学家一样寻找新的规律。 找到后,修改代码,提交,部署。

三天后,它又挂了。 这次是因为那个 div 被移到了 iframe 里。

这就是传统自动化的死穴:它极其脆弱,依赖于具体的"结构",而不是"意图"。 只要前端工程师手一抖,你的脚本就得重写。

降维打击:基于"意图"的交互

Clawdbot(以及类似的 Claude-based Agent)的核心逻辑完全变了。

它根本不关心那个按钮的 ID 是 #btn-submit 还是 #submit-final,它关心的是这个按钮长得像不像"提交"

看看这个对比:

传统脚本 (Python + Selenium):

# 极其脆弱:只要 class 变了,代码就废了
try:
    titles = driver.find_elements(By.CSS_SELECTOR, ".news-list > li > h3")
    for title in titles:
        print(title.text)
except NoSuchElementException:
    print("报错:找不到元素,又要加班修脚本了")

Clawdbot 模式:

"浏览当前页面,找到所有新闻标题。它们通常是加粗的黑色字体,就在图片的右边。提取文本并整理成 JSON。"

这背后的技术支撑是多模态大模型(Multimodal LLM)的能力。Claude 能够像人类一样"看懂"网页的视觉布局。

即使网站把布局从列表改成了网格,只要标题还是标题,Clawdbot 依然能准确识别。它自己规划路径(Plan),自己决定点击哪里(Action)。

实战演示:它是怎么"看"的?

我在一个测试环境里试了一下。我故意把"登录"按钮的 ID 随机化,每次刷新都不一样。

  • Selenium 脚本: 当场去世。
  • Clawdbot: 它扫描了页面,发现右上角有一个蓝色的矩形,里面写着"Login"。它移动鼠标,点击。成功。

这时候你才会明白,为什么我说它是"降维打击"。

别高兴得太早

听起来很美好?但我必须泼盆冷水。

Clawdbot 目前还处在"Demo 神器"阶段。当你真正把它部署到生产环境,你会发现:它虽然不会因为 CSS 变了而报错,但它会因为"幻觉"而给你编造数据。

  • 它可能卡在一个无关紧要的弹窗面前,发呆 5 分钟。
  • 它可能因为 Token 超限,突然罢工。
  • 它可能自信地告诉你"抓取成功",实际上返回了一堆空数据。

"能跑"和"稳定运行",中间隔着巨大的鸿沟。

接下来的几天,我不想聊虚的。我会拆解如何把 Clawdbot 从一个好玩的玩具,改造成一个真正能用的生产力工具。我们会聊架构、聊容错、聊日志——这些才是工程化的核心。

明日预告:《警惕 Clawdbot 的"Demo 陷阱":跑通一次不叫工程化》。


标签:#Clawdbot #AI自动化 #Claude #爬虫 #技术趋势

← 返回博客列表