网站首页 > 文章精选 正文
本文以爬取一部小说为例,因使用的是多线程爬取,所以每个小说章节都是一个txt文件,而这些文件都是乱序的,要阅读的话我们也不可能每阅读一章小说就去翻另一个txt文件,这时就需要合并了.
----------------------------------------
爬取时间2022/8/16
代码如下:
运行结果:
从结果中可以看到,程序从运行到结束,一共花了3秒钟,
三秒内做完了从网站获取url链接,再通过120个url下载了120个txt文件,合并成一个大的txt文件后,再删除之前的120个小txt文件.
----------------------------------------------
代码10-25行>>>
从主页面发起请求,结合bs4和正则获取了小说每个章节的url链接和名字,并将顺序正常的名字写入叫1000.txt的文件. 第22行用unicodedatach处理了文本中的非正常空格(类似 )
代码第28-39行>>>
以每个章节的url为函数参数,获取了小说内容,并写入txt文件,
用章节名 (例如: 第四十九回 琉璃世界白雪红梅 脂粉香娃割腥啖) 作为xxt文件的名字. 因为原本的章节名含有空格以及非正常空格,不利于后续排序处理,就采用正则提取了 "第"和"回"中间的文字作为txt文件名.
代码第69-71行>>>
创建了线程池下载txt文件
代码第41-55行>>>
打开名为1000.txt文件,提取里面的正常顺序的章节名,以此作为已下载的120个txt文件的合并顺序.
代码第57-61行>>>
将之前下载的120个小txt文件删除,保留合并后的大的txt文件,接下来就可以愉快地阅读小说了
注: 将ts文件合并成MP4文件也是通用的,但需要注意的是使用os模块单次合并ts文件数量在650个左右,不到700个.
至于用os模块单次合并txt文件的数量限制是多少,暂时未测试.
----------------------------------------------
最后:源码以及小说txt文件,封面原图链接阿里云盘分享
猜你喜欢
- 2024-12-23 python网络爬虫:批量爬取图片 python批量爬取图片并保存
- 2024-12-23 10w qps缓存数据库——Redis redis缓存数据量多大开始性能下降
- 2024-12-23 Python File(文件) 常用场景 python中file.write
- 2024-12-23 「JS 逆向百例」某网站加速乐 Cookie 混淆逆向详解
- 2024-12-23 「JS 逆向百例」猿人学web比赛第五题:js 混淆 - 乱码增强,详细剖析
- 2024-12-23 Python 操作mysql实现事务处理 python+操作mysql实现事务处理功能
- 2024-12-23 如何使用 PyScript 在 Web 浏览器上轻松运行
- 2024-12-23 Selenium4.0+Python3系列(四) - 常见元素操作(含鼠标键盘事件)
- 2024-12-23 Selenium4+Python3系列(六) - 强制等待、隐式等待、显式等待
- 2024-12-23 Python文件、文件夹删除之os、shutil
- 最近发表
- 标签列表
-
- newcoder (56)
- 字符串的长度是指 (45)
- drawcontours()参数说明 (60)
- unsignedshortint (59)
- postman并发请求 (47)
- python列表删除 (50)
- 左程云什么水平 (56)
- 计算机网络的拓扑结构是指() (45)
- 稳压管的稳压区是工作在什么区 (45)
- 编程题 (64)
- postgresql默认端口 (66)
- 数据库的概念模型独立于 (48)
- 产生系统死锁的原因可能是由于 (51)
- 数据库中只存放视图的 (62)
- 在vi中退出不保存的命令是 (53)
- 哪个命令可以将普通用户转换成超级用户 (49)
- noscript标签的作用 (48)
- 联合利华网申 (49)
- swagger和postman (46)
- 结构化程序设计主要强调 (53)
- 172.1 (57)
- apipostwebsocket (47)
- 唯品会后台 (61)
- 简历助手 (56)
- offshow (61)