欢迎二次开发,提交PR 🎉
利用python构建爬虫,爬取指定公众号历史文章及内容,同时支持利用关键词筛选文章。
1、前往微信公众平台登录或者注册公众号
(1)公众号历史文章是分页获取的,一般一页有5-10篇文章
(2)公众号历史文章页数越小,时间越新,第0页存储的是最新文章
(3)推荐起始页码从0开始
(4)爬取页数不能为0,否则爬取结果为空
输入正确的文件名,选择文件位置即可
(1)功能:用于根据关键词筛选文章,获取文章标题中包含关键词的文章。如果不填写,则获取所有文章。
(2)格式:关键词1;关键词2;关键词3
用【中文分号】隔开,最后一个关键词后面不加分号
(1)程序会在选择的文件保存位置目录下,生成一个保存文件名_当日日期
的文件夹,并在该文件夹下保存爬取内容
(2)raw
文件夹里的内容,是爬取过程中产生的缓存文件,可以删除