本项目是基于Python语言的爬虫程序,支持对微信公众号文章内容获取
目前支持 Windows / Linux 开箱即用,做的比较粗糙,望见谅!
- 2024.9.12更新
- 优化重要参数的获取方式
- 更新具体功能展示效果图
- 2024.8.29更新
- 绕过微信公众号文章用代码访问时产生的验证提示(反爬虫机制)
- 优化文章列表与内容获取逻辑
- 获取微信公众号文章的网页文本数据
- 获取微信公众号下所有历史文章,以excel文件形式保存
- 获取微信公众号文章的所有信息,如浏览量、点赞数、评论等信息。
👆👆👆以上为本项目文件,直接clone该项目,或下载此链接均可。
建议使用虚拟环境运行项目
requirements.txt中包含所需python包文件名称
使用pip install -r requirements.txt
批量安装python包文件
- 系统环境:Windows 10 ×64
- 程序运行环境:python 3.12
- 涉及应用:微信PC版,当前项目适配的微信版本为3.9.11.25
- 使用工具:fiddler
- 项目主文件为:
main.py
,另外几个文件为功能文件,为主文件服务 项目存储路径为:./data/
(程序会自动创建) - 运行命令:
进入项目目录后运行:python main.py
save_content.py
1.获取文章文本内容 SaveContent
- 完成网页验证
- 获取单个文章的网页文本数据
- 保存单个文章的网页为pdf格式(待实现)
2.获取文章列表 GetList
- 获取公众号下所有历史文章
- 获取公众号下最新的N页历史文章(一页15篇)
- 保存列表到文件
- 保存文章内容到文件
get_detail.py
- 获取文章全部内容 SaveAllDetail
- 获取单个文章的网页文本数据
- 获取该文章的 浏览量,点赞数,评论等信息
实现代理(待实现)
- 使用Python代理电脑,监听微信获取关键字值
- 通过截取到的信息对目标文章进行下载
功能1:
功能2:
功能3:
功能4:
本项目仅供技术研究,请勿用于任何商业用途,请勿用于非法用途!如有任何人凭此做何非法事情,均于作者无关,特此声明。
对于使用本项目产生的额外问题,如账户封禁被盗等,作者不对此负责,请谨慎使用。
如有不当之处,请联系本人,联系方式: