Skip to content

微信公众号内容,批量获取微信文章的内容、点赞量、阅读量,纯Python项目,爬虫初学者可通过此项目练手

Notifications You must be signed in to change notification settings

yeximm/Access_wechat_article

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

微信文章获取(Access_wechat_article)

本项目是基于Python语言的爬虫程序,支持对微信公众号文章内容获取

目前支持 Windows / Linux 开箱即用,做的比较粗糙,望见谅!

更新内容

  1. 2024.9.12更新
    • 优化重要参数的获取方式
    • 更新具体功能展示效果图
  2. 2024.8.29更新
    • 绕过微信公众号文章用代码访问时产生的验证提示(反爬虫机制)
    • 优化文章列表与内容获取逻辑

主要功能介绍

  1. 获取微信公众号文章的网页文本数据
  2. 获取微信公众号下所有历史文章,以excel文件形式保存
  3. 获取微信公众号文章的所有信息,如浏览量、点赞数、评论等信息。

下载 / Download

👆👆👆以上为本项目文件,直接clone该项目,或下载此链接均可。

建议使用虚拟环境运行项目

requirements.txt中包含所需python包文件名称

使用pip install -r requirements.txt批量安装python包文件

项目所需环境及工具

  1. 系统环境:Windows 10 ×64
  2. 程序运行环境:python 3.12
  3. 涉及应用:微信PC版,当前项目适配的微信版本为3.9.11.25
  4. 使用工具:fiddler

运行参数 Windows/Linux

  1. 项目主文件为:main.py,另外几个文件为功能文件,为主文件服务 项目存储路径为:./data/(程序会自动创建)
  2. 运行命令:

​ 进入项目目录后运行:python main.py

功能详情

save_content.py

1.获取文章文本内容 SaveContent

  • 完成网页验证
  • 获取单个文章的网页文本数据
  • 保存单个文章的网页为pdf格式(待实现)

2.获取文章列表 GetList

  • 获取公众号下所有历史文章
  • 获取公众号下最新的N页历史文章(一页15篇)
  • 保存列表到文件
  • 保存文章内容到文件

get_detail.py

  • 获取文章全部内容 SaveAllDetail
  • 获取单个文章的网页文本数据
  • 获取该文章的 浏览量,点赞数,评论等信息

实现代理(待实现)

  • 使用Python代理电脑,监听微信获取关键字值
  • 通过截取到的信息对目标文章进行下载

功能截图

功能1:

1724053373108.png

功能2:

功能3:

功能4:

免责声明

本项目仅供技术研究,请勿用于任何商业用途,请勿用于非法用途!如有任何人凭此做何非法事情,均于作者无关,特此声明。

对于使用本项目产生的额外问题,如账户封禁被盗等,作者不对此负责,请谨慎使用。

如有不当之处,请联系本人,联系方式:

About

微信公众号内容,批量获取微信文章的内容、点赞量、阅读量,纯Python项目,爬虫初学者可通过此项目练手

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages