100天精通Python（爬虫篇）——第113天：‌爬虫基础模块之urllib详细教程大全

文章目录

1. urllib概述2. urllib.request模块1. urllib.request.urlopen()2. urllib.request.urlretrieve()3. urllib.request.Request()4. urllib.request.install_opener()5. urllib.request.build_opener()6. urllib.request.AbstractBasicAuthHandler7. urllib.request.HTTPBasicAuthHandler8. urllib.request.HTTPDigestAuthHandler9. urllib.request.ProxyHandler10. urllib.request.HTTPSHandler11. urllib.request.HTTPCookieProcessor 3. urllib.parse模块1. urllib.parse.urlparse()2. urllib.parse.urlunparse()3. urllib.parse.urlsplit()4. urllib.parse.urlunsplit()5. urllib.parse.urljoin()6. urllib.parse.urlencode()7. urllib.parse.urldecode()8. urllib.parse.quote()9. urllib.parse.unquote()10. urllib.parse.quote_plus()11. urllib.parse.unquote_plus() 3. urllib.error模块1. urllib.error.URLError()2. urllib.error.HTTPError()3. urllib.error.ContentTooShortError()) 4. urllib.robotparser模块1. urllib.robotparser.RobotFileParser() 5. 实战案例1. 万能图片下载2. 爬取豆瓣电影Top250

1. urllib概述

urllib 是 Python 内置的一个标准库（无需安装），专门用于处理与 URL 相关的各种操作，包括网页请求、数据解析等。它提供了较为底层和灵活的接口，允许开发者进行各种类型的网络请求和数据传输。urllib 最初是 Python 2 中的一个模块，在 Python 3 中被拆分成了几个子模块，以便更好地组织功能。

urllib 的主要子模块包括：

urllib.request：用于打开和读取 URL。它提供了类似于浏览器请求的功能，可以发送 GET 和 POST 请求，并处理 HTTP 和 HTTPS 协议。该模块还允许设置请求头、处理 Cookies 以及使用自定义的处理器。urllib.parse：用于解析和构建 URL。它提供了一系列函数，用于将 URL 字符串解析成各个组成部分（如协议、主机名、路径、查询参数等），以及将各个组件重新组合成完整的 URL 字符串。urllib.error：用于处理 urllib.request 引发的异常。它定义了一系列异常类，如 URLError（表示底层的 URL 错误）和 HTTPError（表示 HTTP 请求中的错误）。urllib.robotparser：用于解析 robots.txt 文件。robots.txt 文件是网站用来告诉搜索引擎爬虫哪些页面可以抓取，哪些页面不能抓取的。这个模块允许开发者检查一个 URL 是否允许被爬虫访问。

虽然很多人更喜欢使用requests库，但是urllib作为Python爬虫起源库，了解和掌握它还是很有必要的，并且在一些特殊情况下urllib可能会更有优势。

2. urllib.request模块

urllib.request是Python标准库中的核心模块，用于打开和读取url。它提供了一系列函数和类，用于发送HTTP和HTTPS请求，以及处理服务器响应。下面将详细介绍urllib.request模块中的所有函数及其用法。

1. urllib.request.urlopen()

urllib.request.urlopen()是最常用的函数之一，用于打开一个URL并读取其内容。它接受一个URL作为参数，并返回一个类文件对象，该对象可用于读取响应内容。

import urllib.request# 1、输出需要请求网页链接url = 'http://www.baidu.com'# 2、模拟浏览器向服务器发送请求response = urllib.request.urlopen(url)# 3、获取响应数据中的页面源码（注意：read() 返回的是字节形式的二进制数据，返回数据会被 b'xxx' 进行包裹）content = response.read()# 4、打印二进制数据# print(content)# 输出结果：b'<!DOCTYPE html><!--STATUS OK--><html> 中间省略。。。。。。</html># 5、将二进制数据转成字符串，这里需要网页对应的编码格式（例如：<meta http-equiv="Content-Type" content="text/html;charset=utf-8">），charset= 的就是编码格式 utf-8html_str = content.decode('utf-8')# 6、输出字符串print(html_str)

该函数还可以接受一个可选的data参数，用于发送POST请求。如果提供了data参数，则请求方法将自动设置为POST。

data = b'param1=value1&param2=value2'  # 注意数据必须是字节类型response = urllib.request.urlopen(url, data=data)

此外，urlopen()还支持超时设置、SSL证书验证等高级功能。

2. urllib.request.urlretrieve()

urllib.request.urlretrieve()函数用于将URL指向的内容下载到本地文件。它接受两个参数：URL和本地文件名。该函数将URL的内容保存到指定的本地文件中，并返回一个包含两个元素的元组：本地文件名和HTTP消息头。

import urllib.requesturl = 'http://www.example.com/image.jpg'filename = 'image.jpg'urllib.request.urlretrieve(url, filename)

3. urllib.request.Request()

urllib.request.Request()类用于构造一个HTTP请求对象。通过创建Request对象，可以设置请求的URL、方法（GET、POST等）、头部信息、数据等。然后，可以使用urlopen()函数发送该请求。

import urllib.requesturl = 'http://www.example.com'headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}request = urllib.request.Request(url, headers=headers)response = urllib.request.urlopen(request)content = response.read().decode('utf-8')print(content)

4. urllib.request.install_opener()

urllib.request.install_opener()函数用于全局设置用于打开URLs的opener对象。opener对象是一个实现了BaseHandler或OpenerDirector接口的类实例。通过安装自定义的opener，可以更改URL打开方式，例如添加代理、处理cookies等。

import urllib.requestfrom urllib.request import HTTPHandler, build_opener# 创建一个HTTPHandler对象http_handler = HTTPHandler()# 使用HTTPHandler创建一个opener对象opener = build_opener(http_handler)# 安装openerurllib.request.install_opener(opener)# 现在，所有的urlopen调用都会使用自定义的openerresponse = urllib.request.urlopen('http://www.example.com')

5. urllib.request.build_opener()

urllib.request.build_opener()函数用于构建一个opener对象。该函数接受一个或多个BaseHandler子类的实例作为参数，并返回一个OpenerDirector对象。通过构建自定义的opener，可以灵活地处理各种HTTP请求。

# 示例同上，不再赘述

6. urllib.request.AbstractBasicAuthHandler

urllib.request.AbstractBasicAuthHandler是一个抽象基类，用于处理基本的HTTP认证。它不能直接实例化，但可以作为自定义认证处理器的基类。

7. urllib.request.HTTPBasicAuthHandler

urllib.request.HTTPBasicAuthHandler是AbstractBasicAuthHandler的一个子类，用于处理HTTP基本认证。通过创建该类的实例，并设置用户名和密码，可以自动处理需要基本认证的HTTP请求。

import urllib.requestfrom urllib.request import HTTPBasicAuthHandler, build_opener# 创建一个HTTPBasicAuthHandler对象，并设置用户名和密码auth_handler = HTTPBasicAuthHandler()auth_handler.add_password('realm', 'http://www.example.com', 'username', 'password')# 使用HTTPBasicAuthHandler创建一个opener对象opener = build_opener(auth_handler)# 安装openerurllib.request.install_opener(opener)# 现在，所有的urlopen调用都会自动处理基本认证response = urllib.request.urlopen('http://www.example.com')

8. urllib.request.HTTPDigestAuthHandler

urllib.request.HTTPDigestAuthHandler类用于处理HTTP摘要认证。与HTTPBasicAuthHandler类似，通过创建该类的实例并设置用户名和密码，可以自动处理需要摘要认证的HTTP请求。

9. urllib.request.ProxyHandler

urllib.request.ProxyHandler类用于处理代理服务器。通过创建该类的实例，并设置代理服务器的地址和端口，可以自动处理通过代理服务器发送的HTTP请求。

import urllib.requestfrom urllib.request import ProxyHandler, build_opener# 创建一个ProxyHandler对象，并设置代理服务器的地址和端口proxy_handler = ProxyHandler({    'http': 'http://proxy.example.com:8080',    'https': 'http://proxy.example.com:8080'})# 使用ProxyHandler创建一个opener对象opener = build_opener(proxy_handler)# 安装openerurllib.request.install_opener(opener)# 现在，所有的urlopen调用都会通过代理服务器发送请求response = urllib.request.urlopen('http://www.example.com')

10. urllib.request.HTTPSHandler

urllib.request.HTTPSHandler类用于处理HTTPS请求。通过创建该类的实例，并可能设置SSL上下文，可以处理加密的HTTPS请求。

11. urllib.request.HTTPCookieProcessor

urllib.request.HTTPCookieProcessor类用于处理HTTP cookies。通过创建该类的实例，并传入一个cookiejar.CookieJar对象，可以自动处理HTTP请求和响应中的cookies。

import urllib.requestfrom urllib.request import HTTPCookieProcessor, build_openerfrom http.cookiejar import CookieJar# 创建一个CookieJar对象cookie_jar = CookieJar()# 创建一个HTTPCookieProcessor对象，并传入CookieJar对象cookie_processor = HTTPCookieProcessor(cookie_jar)# 使用HTTPCookieProcessor创建一个opener对象opener = build_opener(cookie_processor)# 安装openerurllib.request.install_opener(opener)# 现在，所有的urlopen调用都会自动处理cookiesresponse = urllib.request.urlopen('http://www.example.com')

3. urllib.parse模块

urllib.parse是Python标准库中的一个模块，专门用于URL解析和构建。它提供了一系列函数，用于解析URL的不同部分、编码和解码URL组件、以及构建新的URL。下面将详细介绍urllib.parse模块中的所有函数及其用法。

1. urllib.parse.urlparse()

urlparse()函数用于将URL解析为六个组件：协议、网络位置、路径、参数、查询字符串和片段。

from urllib.parse import urlparseurl = 'http://www.example.com:80/path?query=string#fragment'parsed_url = urlparse(url)print(parsed_url.scheme)   # 输出协议，如httpprint(parsed_url.netloc)   # 输出网络位置，如www.example.com:80print(parsed_url.path)     # 输出路径，如/pathprint(parsed_url.params)   # 输出参数（已废弃，现代URL中不常见）print(parsed_url.query)    # 输出查询字符串，如query=stringprint(parsed_url.fragment) # 输出片段，如fragment

注意：params部分在现代URL中并不常见，因此urlparse()返回的params属性通常为空。

2. urllib.parse.urlunparse()

urlunparse()函数是urlparse()的逆操作，它将六个组件重新组合成一个URL。

from urllib.parse import urlunparsecomponents = ('http', 'www.example.com:80', '/path', '', 'query=string', 'fragment')url = urlunparse(components)print(url)  # 输出: http://www.example.com:80/path?query=string#fragment

3. urllib.parse.urlsplit()

urlsplit()函数与urlparse()类似，但它不解析参数部分，而是将参数和查询字符串一起作为查询部分返回。

from urllib.parse import urlspliturl = 'http://www.example.com:80/path;param?query=string#fragment'split_url = urlsplit(url)print(split_url.scheme)    # 输出协议print(split_url.netloc)    # 输出网络位置print(split_url.path)      # 输出路径（包括参数）print(split_url.query)     # 输出查询字符串print(split_url.fragment)  # 输出片段

4. urllib.parse.urlunsplit()

urlunsplit()函数是urlsplit()的逆操作，它将五个组件重新组合成一个URL。

from urllib.parse import urlunsplitcomponents = ('http', 'www.example.com:80', '/path;param', 'query=string', 'fragment')url = urlunsplit(components)print(url)  # 输出: http://www.example.com:80/path;param?query=string#fragment

5. urllib.parse.urljoin()

urljoin()函数用于将基本URL与相对URL组合成一个绝对URL。

from urllib.parse import urljoinbase_url = 'http://www.example.com/path/'relative_url = 'subpath/page.html'absolute_url = urljoin(base_url, relative_url)print(absolute_url)  # 输出: http://www.example.com/path/subpath/page.html

如果相对URL以/开头，则它会替换基本URL的路径部分；如果以#或?开头，则它会替换基本URL的片段或查询部分。

6. urllib.parse.urlencode()

urlencode()函数用于将字典或两个元组的序列编码为查询字符串。

from urllib.parse import urlencodeparams = {'param1': 'value1', 'param2': 'value2'}query_string = urlencode(params)print(query_string)  # 输出: param1=value1&param2=value2

也可以传递一个元组的序列来指定键值对：

params = [('param1', 'value1'), ('param2', 'value2')]query_string = urlencode(params)print(query_string)  # 输出同上

7. urllib.parse.urldecode()

注意：实际上，urllib.parse模块中并没有直接名为urldecode()的函数，但有一个parse_qs()和一个parse_qsl()函数，它们用于解码查询字符串。

parse_qs()：将查询字符串解析为一个字典，其中键是参数名，值是参数值的列表（因为查询字符串中可能有多个同名参数）。

from urllib.parse import parse_qsquery_string = 'param1=value1&param2=value2&param2=value3'params = parse_qs(query_string)print(params)  # 输出: {'param1': ['value1'], 'param2': ['value2', 'value3']}

parse_qsl()：与parse_qs()类似，但返回的是一个元组的序列，每个元组包含一个参数名和对应的参数值。

from urllib.parse import parse_qslquery_string = 'param1=value1&param2=value2'params = parse_qsl(query_string)print(params)  # 输出: [('param1', 'value1'), ('param2', 'value2')]

8. urllib.parse.quote()

quote()函数用于将字符串中的特殊字符转义为URL编码的字符。

from urllib.parse import quotestring = 'Hello World! 你好，世界！'encoded_string = quote(string)print(encoded_string)  # 输出: Hello%20World%21%20%E4%BD%A0%E5%A5%BD%EF%BC%8C%E4%B8%96%E7%95%8C%EF%BC%81

9. urllib.parse.unquote()

unquote()函数是quote()的逆操作，它将URL编码的字符转换回原始字符串。

from urllib.parse import unquoteencoded_string = 'Hello%20World%21%20%E4%BD%A0%E5%A5%BD%EF%BC%8C%E4%B8%96%E7%95%8C%EF%BC%81'decoded_string = unquote(encoded_string)print(decoded_string)  # 输出: Hello World! 你好，世界！

10. urllib.parse.quote_plus()

quote_plus()函数与quote()类似，但它会将空格编码为加号（+）而不是百分号加20（%20）。

from urllib.parse import quote_plusstring = 'Hello World! 你好，世界！'encoded_string = quote_plus(string)print(encoded_string)  # 输出: Hello+World%21+%E4%BD%A0%E5%A5%BD%EF%BC%8C%E4%B8%96%E7%95%8C%EF%BC%81

11. urllib.parse.unquote_plus()

unquote_plus()函数是quote_plus()的逆操作，它将加号（+）转换回空格。

from urllib.parse import unquote_plusencoded_string = 'Hello+World%21+%E4%BD%A0%E5%A5%BD%EF%BC%8C%E4%B8%96%E7%95%8C%EF%BC%81'decoded_string = unquote_plus(encoded_string)print(decoded_string)  # 输出: Hello World! 你好，世界！

3. urllib.error模块

urllib.error是Python标准库urllib中的一个模块，专门用于处理在使用urllib进行URL操作时可能遇到的错误。它包含了一系列异常类，这些异常类可以帮助你捕获和处理不同类型的错误情况。本文将详细介绍urllib.error模块中的所有异常类及其用法。

1. urllib.error.URLError()

URLError是urllib.error模块中所有URL错误的基础类。当你遇到与URL相关的错误时，通常会首先捕获到这个异常。

from urllib.error import URLErrortry:    # 尝试打开一个URL（这里只是一个示例，实际代码可能涉及更复杂的操作）    with urllib.request.urlopen('http://example.com/nonexistent') as response:        # 处理响应        passexcept URLError as e:    print(f"URLError: {e.reason}")  # 输出错误的具体原因

URLError有一个reason属性，它包含了错误的详细信息。这个属性通常是一个字符串或者是一个异常对象，具体取决于引发错误的底层原因。

2. urllib.error.HTTPError()

HTTPError是URLError的一个子类，它专门用于处理HTTP协议相关的错误。当你尝试打开一个HTTP URL，并且服务器返回了一个错误状态码（如404表示未找到）时，就会引发这个异常。

from urllib.error import HTTPErrortry:    # 尝试打开一个不存在的HTTP URL    with urllib.request.urlopen('http://example.com/nonexistent') as response:        # 处理响应（这里不会执行到，因为会引发HTTPError）        passexcept HTTPError as e:    print(f"HTTPError: {e.code} {e.reason}")  # 输出HTTP状态码和错误原因    print(f"Headers: {e.headers}")  # 输出响应头（如果有的话）    # 你可以在这里进一步处理错误，比如重试请求或者记录日志

HTTPError有几个重要的属性：

code：HTTP状态码（如404, 500等）。reason：错误原因的简短描述（如"Not Found"）。headers：包含响应头的HTTPMessage对象（如果有的话）。fp：一个文件对象，包含了服务器返回的错误页面的内容（如果有的话，通常用于调试）。

3. urllib.error.ContentTooShortError())

ContentTooShortError是urllib.error模块中的一个异常类，它会在下载的内容长度小于预期时引发。这通常意味着连接在内容完全传输之前就被关闭了。

from urllib.error import ContentTooShortErrortry:    # 尝试下载一个文件（这里只是一个示例，实际代码可能涉及更复杂的操作）    with urllib.request.urlopen('http://example.com/largefile') as response, open('file.dat', 'wb') as f:        f.write(response.read())except ContentTooShortError as e:    print(f"ContentTooShortError: The content was shorter than expected.")    # 你可以在这里处理错误，比如重试下载或者记录日志

注意说明:

在实际的Python环境中，urllib.request和urllib.error通常是同时使用的。urllib.request模块用于发起URL请求，而urllib.error模块则用于处理这些请求可能引发的错误。urllib.error模块中可能还有其他一些异常类，但URLError和HTTPError是最常见和最重要的。其他异常类通常是更具体的情况或者更低级别的错误，它们的使用频率相对较低。在处理URL相关的错误时，最好能够捕获到具体的异常类（如HTTPError），以便能够针对不同类型的错误采取不同的处理措施。如果只需要捕获所有URL相关的错误，可以捕获URLError基类。

4. urllib.robotparser模块

urllib.robotparser模块是Python标准库中的一个重要组成部分，它专门用于解析和遵守网站的robots.txt文件。robots.txt文件是一个文本文件，通常放在网站的根目录下，用于告诉搜索引擎爬虫哪些页面可以抓取，哪些页面不可以抓取。urllib.robotparser模块提供了一个RobotFileParser类，通过这个类，我们可以方便地判断某个URL是否可以被特定的爬虫抓取。

1. urllib.robotparser.RobotFileParser()

RobotFileParser类是urllib.robotparser模块中的核心类，它提供了多个方法来解析robots.txt文件并判断URL的抓取权限。

1. 构造函数

urllib.robotparser.RobotFileParser(url='')

url：可选参数，指定robots.txt文件的URL。如果不提供，可以在后续使用set_url()方法设置。

2. set_url(url)

设置robots.txt文件的URL。

url：robots.txt文件的URL。

3. read()

读取并解析robots.txt文件。这个方法不会返回任何内容，但必须对文件进行读取操作，否则后续的can_fetch()方法判断将始终为False。

4. parse(lines)

解析robots.txt文件的内容。这个方法的参数lines应该是robots.txt文件中的某些行内容，通常是通过读取文件并拆分得到的。这个方法也可以用于直接解析字符串形式的robots.txt内容。

lines：robots.txt文件中的行内容列表。

5. can_fetch(user_agent, url)

判断指定的user_agent是否有权限抓取指定的url。

user_agent：爬虫的名称或标识符。url：要抓取的URL。返回值：如果user_agent有权限抓取url，则返回True；否则返回False。

6. mtime()

返回上次抓取和分析robots.txt文件的时间。这对于长时间运行的爬虫来说很有用，因为它可以帮助爬虫定期检查并更新robots.txt文件的最新内容。

返回值：上次抓取和分析robots.txt文件的时间（以秒为单位的UNIX时间戳）。

7. modified()

将当前时间设置为上次抓取和分析robots.txt文件的时间。这个方法通常用于在爬虫启动或重置时设置初始时间。

以下是一个使用urllib.robotparser模块判断URL抓取权限的示例：

from urllib.robotparser import RobotFileParser# 创建一个RobotFileParser对象robots = RobotFileParser()# 设置robots.txt文件的URLrobots.set_url("http://www.example.com/robots.txt")# 读取并解析robots.txt文件robots.read()# 判断Baiduspider是否有权限抓取http://www.example.com/page1.htmlprint(robots.can_fetch("Baiduspider", "http://www.example.com/page1.html"))# 判断Googlebot是否有权限抓取http://www.example.com/page2.htmlprint(robots.can_fetch("Googlebot", "http://www.example.com/page2.html"))

在这个示例中，我们首先创建了一个RobotFileParser对象，并设置了robots.txt文件的URL。然后，我们调用read()方法读取并解析了robots.txt文件。最后，我们使用can_fetch()方法判断了两个不同的爬虫是否有权限抓取两个不同的URL。

注意事项:

在使用urllib.robotparser模块时，请确保你的爬虫遵守robots.txt文件中的规则。尊重网站的抓取限制是爬虫开发中的一项重要道德和法律义务。urllib.robotparser模块仅提供了基本的robots.txt解析和判断功能。如果你需要更复杂的爬虫管理功能（如动态更新robots.txt文件、处理多个网站的抓取规则等），可能需要自行实现或使用第三方库。

5. 实战案例

1. 万能图片下载

使用urllib库编写一个“万能”图片下载代码需要考虑几个关键点：如何获取图片的URL、如何处理不同网站的图片链接格式、以及如何处理网络错误和文件写入。尽管无法编写一个真正意义上能处理所有情况的“万能”代码（因为每个网站的结构和限制都可能不同），但我们可以编写一个相对通用的图片下载器，它能够处理一些常见的场景。

以下是一个简单的Python脚本，它使用urllib库从给定的图片URL下载图片，并将其保存到本地：

import urllib.requestimport urllib.parseimport osdef download_image(image_url, save_path='images/', filename=None):    """    从给定的图片URL下载图片，并保存到指定的路径。    :param image_url: 图片的URL。    :param save_path: 保存图片的文件夹路径（默认为'images/'）。    :param filename: 保存图片的文件名（如果为None，则使用URL中的文件名）。    :return: 保存的图片文件名。    """    # 确保保存路径存在    if not os.path.exists(save_path):        os.makedirs(save_path)    # 如果未指定文件名，则从URL中提取    if filename is None:        parsed_url = urllib.parse.urlparse(image_url)        filename = os.path.basename(parsed_url.path)    # 构建完整的保存路径    full_path = os.path.join(save_path, filename)    try:        # 打开URL并读取图片数据        with urllib.request.urlopen(image_url) as response, open(full_path, 'wb') as out_file:            # 将图片数据写入文件            data = response.read()            out_file.write(data)        print(f"图片已保存到 {full_path}")    except urllib.error.URLError as e:        print(f"无法下载图片：{e.reason}")    except Exception as e:        print(f"发生错误：{e}")    return full_path# 示例使用if __name__ == "__main__":    image_url = "https://profile-avatar.csdnimg.cn/53a04a4caf1f4dc098a03b5d8840dbdb_yuan2019035055.jpg"  # 替换为实际的图片URL    download_image(image_url)

用代码测试下载我的博客头像成功下载：
在这里插入图片描述

2. 爬取豆瓣电影Top250

使用urllib库来爬取豆瓣电影Top 250的列表需要处理多个分页，解析HTML内容，并提取所需的信息。由于豆瓣电影Top 250是分页显示的，每页显示25部电影，因此你需要循环访问每个分页并解析其内容，将使用BeautifulSoup库来解析HTML。

首先，确保你已经安装了BeautifulSoup和lxml（一个用于解析HTML和XML的库）：

pip install beautifulsoup4 lxml

代码说明：

导入库：除了urllib库外，还导入了BeautifulSoup用于HTML解析。

设置基础URL和请求头：BASE_URL是豆瓣电影Top 250的起始URL，HEADERS包含了一个用户代理字符串，用于模拟浏览器请求，以避免被网站封禁。

定义爬取函数：fetch_top250_movies函数循环访问豆瓣电影Top 250的每个分页，使用urllib.request.Request构建请求对象，并添加请求头。然后，使用urllib.request.urlopen打开URL，读取HTML内容，并通过BeautifulSoup解析内容。

解析电影信息：在函数内部，使用find_all方法找到所有类名为item的div元素，这些元素包含了每部电影的信息。然后，遍历这些元素，提取电影的标题、评分和链接。

示例使用：在__main__块中调用fetch_top250_movies函数，并打印出每部电影的标题、评分和链接。

完整代码如下（免责声明：此代码仅用于学习和研究目的，请勿用于商业用途或违反法律的行为，后果自负）：

import urllib.requestimport urllib.parsefrom urllib.error import URLError, HTTPErrorfrom bs4 import BeautifulSoup# 豆瓣电影Top 250基础URLBASE_URL = "https://movie.douban.com/top250"HEADERS = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}# 定义一个函数来爬取Top 250电影def fetch_top250_movies(start=0):    movies = []    for i in range(10):  # 豆瓣Top 250共10页，每页25部        url = f"{BASE_URL}?start={start}"        try:            request = urllib.request.Request(url, headers=HEADERS)            response = urllib.request.urlopen(request)            html_content = response.read().decode('utf-8')            soup = BeautifulSoup(html_content, 'lxml')                        # 解析每部电影的信息            items = soup.find_all('div', class_='item')            for item in items:                movie = {}                title_tag = item.find('span', class_='title')                rating_tag = item.find('span', class_='rating_num')                link_tag = item.find('a')                                if title_tag and rating_tag and link_tag:                    movie['title'] = title_tag.get_text(strip=True)                    movie['rating'] = rating_tag.get_text(strip=True)                    movie['link'] = link_tag['href']                    movies.append(movie)                        start += 25  # 每页25部电影        except (URLError, HTTPError) as e:            print(f"Error fetching {url}: {e.reason}")            break    return movies# 示例使用if __name__ == "__main__":    top250_movies = fetch_top250_movies()    for movie in top250_movies:        print(f"Title: {movie['title']}, Rating: {movie['rating']}, Link: {movie['link']}")

运行结果展示：
在这里插入图片描述

张士玉小黑屋

当前位置：首页 » 《关注互联网》 » 正文