张士玉小黑屋

一个关注IT技术分享，关注互联网的网站，爱分享网络资源，分享学到的知识，分享生活的乐趣。

当前位置：首页 » 《随便一记》 » 正文

【Python】【爬虫】爬取小说5000章，遇到的爬虫问题与解决思路

11 人参与 2022年10月25日 16:33 分类 : 《随便一记》评论

点击全文阅读

爬虫问题分析

回顾

之前写了一个爬取小说网站的多线程爬虫，操作流程如下：

先爬取小说介绍页，获取所有章节信息(章节名称，章节对应阅读链接)，然后使用多线程的方式(pool = Pool(50))，通过章节的阅读链接爬取章节正文并保存为本地markdown文件。(代码见文末 run01.python)

爬取100章，用了10秒

限制爬取101章，从运行程序到结束程序，用时9秒

Redis+MongoDB，无多线程

最近学了Redis和MongoDB，要求爬取后将章节链接放在redis，然后通过读取redis的章节链接来进行爬取。(代码见文末run02.python)

…不用测试了，一章一章读真的太慢了！

爬取101章用时两分钟！

Redis+MongoDB+多线程

爬取101章，只需8秒！

爬取4012章，用时1分10秒！

问题与解析

懒得打字，我就录成视频发在小破站上面了。(小破站搜：萌狼蓝天)

[爬狼]Python爬虫经验分享第1节：代码文件简单介绍

[爬狼]Python爬虫经验分享第2节：编码问题的处理

[爬狼]Python爬虫经验分享第3节：多线程爬小说的顺序问题解决方案分享

[爬狼]Python爬虫经验分享第4节：爬取过于频繁被拦截的解决方案

其他的去我小破站主页翻

代码20221020

run01.py

# -*- coding: UTF-8 -*-# 开发人员：萌狼蓝天# 博客：Https://mllt.cc# 笔记：Https://cnblogs.com/mllt# 哔哩哔哩/

点击全文阅读

本文链接：http://zhangshiyu.com/post/45678.html

《随便一记》

重回高中！阴暗听障亡夫成我忠犬2025-12-08 13:20
被扫地出门？我反手教冰山老婆做首富2025-12-08 12:20
高考算什么，我的人生刚开局就拿了地狱剧本（林念刘兰）_高考算什么，我的人生刚开局就拿了地狱剧本2025-12-08 12:40
顶罪？我让亲生父亲身败名裂2025-12-08 10:22

评论（0）

赞助本站

search zhannei

最新文章
雪落无声覆白头 死对头的男人，我撩到手就甩 朱砂痣浮光掠影 扶了女总裁后，她竟让我躺平成了她女婿 重回高中！阴暗听障亡夫成我忠犬 我回溯记忆，亡夫的爱意震碎修真界榜单（江灵药修）_我回溯记忆，亡夫的爱意震碎修真界榜单江灵药修 高考算什么，我的人生刚开局就拿了地狱剧本（林念刘兰）_高考算什么，我的人生刚开局就拿了地狱剧本 燃尽生命去爱你 空难没死成，我在霸总订婚宴上讨薪 被扫地出门？我反手教冰山老婆做首富 叫了四十年夫君，今生我只喊他兄长（苏琬萧璟）全书免费_（苏琬萧璟）叫了四十年夫君，今生我只喊他兄长后续（苏琬萧璟） 互绿开局？海后女王把浪子医生追成狗！

关于我们 | 我要投稿 | 免责申明