[Python] 批量抓取公众号文章导出pdf生成书签

释放双眼,带上耳机,听听看~!

先上代码

from PyPDF2 import  PdfFileReader, PdfFileWriter,PdfFileMerger
file_writer = PdfFileWriter()
merger = PdfFileMerger()
num = 0
for root, dirs, files in os.walk('.'):
    for name in files:
        if name.endswith(".pdf"):
            print(name)
            file_reader = PdfFileReader(f"{name}")
            file_writer.addBookmark(html.unescape(name).replace('.pdf',''), num, parent=None)
            for page in range(file_reader.getNumPages()):
                num += 1
                file_writer.addPage(file_reader.getPage(page))
with open(r"公众号文章合集.pdf",'wb') as f:
    file_writer.write(f)

效果如图,以莫言的公众号为例,点击左侧书签跳转到对应文章:

da91a937578b66c0c75a858703c4424b

2b13a2a198bc43ef2f0b32844423ac55

 

当然也可以将pdf的书签导出到excel,代码:

def bookmark_export(lines):
    bookmark = ''
    for line in lines:
        if isinstance(line, dict):
            bookmark += line['/Title'] + ','+str(line['/Page']+1)+'\n'
        else:
            bookmark_export(line)
    return bookmark
with open('公众号文章合集.pdf', 'rb') as f:
    lines = PdfFileReader(f).getOutlines()
    bookmark = bookmark_export(lines)
with open('公众号文章合集.csv', 'a+', encoding='utf-8-sig') as f:
    f.write(bookmark)

效果如图:

1dd2a3dac1f9cd10473068eec8cf837a

温馨提示:本文最后更新于 2022-12-11 01:41 ,某些文章具有时效性,若有错误或已失效,请在下方留言或联系逆念

给TA打赏
共{{data.count}}人
人已打赏
编程开发

网上搜集一些好玩的代码构图

2022-5-28 1:09:48

编程开发

动态加载JS文件的三种方法

2022-11-13 1:55:23

重要声明

本站资源大多来自网络,如有侵犯你的权益请联系管理员,QQ508044570 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!请在下载24小时内删除!


如果遇到付费才可观看的文章,建议升级终身VIP。全站所有资源任意下免费看”。本站资源少部分采用7z压缩,为防止有人压缩软件不支持7z格式,7z解压,建议下载7-zip,zip、rar解压,建议下载WinRAR

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索