上宣布 Googlebot 正在“变得更聪明”。他还宣布 Googlebot 可以抓取 AJAX 来检索 Facebook 评论,巧合的是,就在我公布Joshua Giardino 的研究几个小时后,该研究表明 Googlebot 实际上是基于 SearchLove New York 的 Chromium 代码库的无头浏览器。
我要质疑 Matt Cutts 的说法
Googlebot 并不是最近才变得更 c级执行名单 聪明的,实际上它已经有一段时间不是基于文本的爬虫了;BingBot 或 Slurp 也不是。有证据表明搜索机器人是无头网络浏览器,搜索引擎自 2004 年以来就具备这种能力。 免责声明:我不为任何搜索引擎工作。
这些想法是基于 Joshua
Giardino 和我本人所做的 本万利的代表只不过随着年轻 专利研究、Bill Slawski 的一些指导以及在搜索引擎结果页面上可以观察到的内容而推测出来的。 什么是无头浏览器? 无头浏览器只是一个功能齐全的 Web 浏览器,没有可视化界面。与 Windows 系统托盘中的 TSR(终止驻留)程序类似,它们运行时不会在屏幕上显示任何内容,但其他程序可以与它们交互。
使用无头浏览器
您可以通过命令行或脚本语言与 海地名单 其交互,从而加载网页并以编程方式检查用户在 Firefox、Chrome 或(喘息声)Internet Explorer 中看到的相同输出。Vanessa Fox 暗示 Google 可能在 2010 年 1 月使用这些浏览器来抓取 AJAX。
它们的爬虫仍然类似于
Unix 的 Lynx 浏览器,只能查看和理解文本及其相关标记。基本上,它们让我们相信 Googlebot、Slurp 和 Bingbot 非常像 Pacman,只要你指向一个方向,它就会吞噬一切它能吞噬的东西,而无法看到它要去哪里或它正在看什么。