13.3. robotparser — robots.txt 的解析器

Note

robotparser模块在 Python 3 中已重命名为urllib.robotparser。在将源转换为 Python 3 时,2to3工具将自动适应导入。

该模块提供一个单一类RobotFileParser,该类回答有关特定用户代理是否可以在发布robots.txt文件的网站上获取 URL 的问题。有关robots.txt文件结构的更多详细信息,请参见http://www.robotstxt.org/orig.html

以下示例演示了 RobotFileParser 类的基本用法。

>>> import robotparser
>>> rp = robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True
首页