• 公众号数据采集、抖音视频采集、视频号数据采集

小V公众号文章下载-开源版-详细说明

公众号 kakalong 1年前 (2022-03-19) 15732次浏览 0个评论 扫描二维码

2022.03.19 更新

开源版是完全免费的,但需要你有点耐心有点学习精神。如果你就想快速保存资料,可以试试文末的付费版。

 

详细视频教程,强烈推荐,麻烦给个三连

https://www.bilibili.com/video/BV1jv4y1f7j5/

 

 

批量导出任意微信公众号历史文章,会用 python 写 hello world 就会用这个。

github 地址 https://github.com/LeLe86/vWeChatCrawl

还是尽量参考 github 吧,那里是最新版,多处同步确实有时候不及时。

 

其他需要用到的软件

wkhtmltopdf.exe ,解压后把 wkhtmltopdf.exe 文件放到和 start.py 同一目录下使用

Python3.8.5

Fiddler

若无法转 pdf 可能还需要安装这个vc 插件

 

外源代码编辑器推荐使用notepad++,不要用 windows 自带的记事本。

QQ 交流群 703431832 加群暗号"不止技术流",这是个交流群,不是小白义务答疑群,所以请一定要先自己按教程仔细尝试。

使用步骤:

a.安装 Python

直接 python setupPackage.py 安装本项目需要的库。有朋友反映默认源安装慢,这里我用了豆瓣的源。

b.安装并配置 Fiddler

Fiddler 的官网有时会连不上,可去 pc.qq.com 搜索 Fiddler4 并安装
小 V 公众号文章下载-开源版-详细说明

会弹出几个窗口,都点 Yes

小 V 公众号文章下载-开源版-详细说明

最后是这样的,打了 3 个钩。点 OK 保存即可。

小 V 公众号文章下载-开源版-详细说明

在主窗口右侧按下图所示设置,其中需要填的网址为 mp.weixin.qq.com/mp/profile_ext?action=getmsg

小 V 公众号文章下载-开源版-详细说明

至此配置完成了,点软件左下角的方块,会显示 Capturing ,表示它此时处在可以抓取数据的状态,再点一下会暂停抓取。此处先打开为抓取状态。

本次任务运行完了之后别忘了关掉这个 Capturing
小 V 公众号文章下载-开源版-详细说明

c.打开某个微信公众号的历史文章列表

再次提醒一遍不要用最新版微信,去上面下稍老一点的版本。

小 V 公众号文章下载-开源版-详细说明

如果您看到的界面跟上面的图片不对应,说明用了较新版本的微信,有 3 个方法:

方法 1

点此下载这个软件,用它的免费功能帮你提取出主页,操作方法在这个链接的说明文档中有。如果你是纯小白也可以直接用这个软件完成你的任务,省时省力也不贵,性价比还是挺高的。

方法 2

人工去构造一个类似这样的公众号历史文章网址 https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzA5ODEzMTIxOA== ,注意要把最后部分的“MzA5ODEzMTIxOA==”换成你要下载的公众号的,这个其实是公众号的编号(以两个等号==结尾),至于怎么获得这个编号,可以用“非微信浏览器”比发 chrome 或 360 等打开此号的任意一篇文章,右键,查看源码,然后从源码中搜索 "biz="。把拼接好的网址在微信中发给任意好友,然后从对话窗口中点开链接即可(这段操作确实有点绕,但没有更好的方法)。

小 V 公众号文章下载-开源版-详细说明

方法 3

如果看不明白上面的操作,还是老老实实下载稍早(2021.10 月)点的微信版本吧,安装后要从微信的设置中把自动升级选项取消。

链接:https://pan.baidu.com/s/1e8Xyc0aDx19jg2LxEqxwtA 提取码:dbt7

不管用什么方法,打开公众号历史文章列表之后,在列表中不断下划,使历史文章列表都显示出来,但注意不要划得太快。

 

Fiddler 中显示了我们需要的请求

小 V 公众号文章下载-开源版-详细说明

把这些请求保存下来,基中包含文章 url 列表

小 V 公众号文章下载-开源版-详细说明

小 V 公众号文章下载-开源版-详细说明

小 V 公众号文章下载-开源版-详细说明

d.运行 python 文件

打开本项目的 config.json 文件,设置
- jsonDir:上面在 Fiddler 中保存 json 文件的文件夹
- htmlDir:保存 html 的目录,路径中不能有空格
- pdfDir:保存 pdf 的目录,路径中不能有空格
改完记得保存文件
另外 wkhtmltopdf.exe 文件是 html 转 pdf 用的,要放在跟 start.py 同级的目录中。

运行 python start.py #开始下载 html
运行 python start.py pdf #把下载的 html 转 pdf

补充

如果没时间去逐步研究,可以试试更易操作的付费版  https://www.xiaokuake.com/p/helppage.html ‎

小 V 公众号文章下载-开源版-详细说明

如果有其他公众号相关功能定制的可直达 https://www.xiaokuake.com 或添加作者微信 xiaov0755

本开源项目仅用于技术学习交流,请勿用于非法用途,由此引起的后果本作者概不负责。

主要思路参考这几篇文章
一步步教你打造文章爬虫(1)-综述
一步步教你打造文章爬虫(2)-下载网页

特别要仔细看第 3 篇 一步步教你打造文章爬虫(3)-批量下载

常见问题汇总 一步步教你打造文章爬虫(4)-常见问题解答

 


本文标题:小 V 公众号文章下载-开源版-详细说明
转载请保留页面地址 https://www.xiaokuake.com/p/kaiyuanhelp.html
喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址