• 专业微信公众号数据采集。

小V公众号文章下载-开源版-详细说明

公众号 kakalong 3个月前 (08-08) 704次浏览 0个评论 扫描二维码

vWeChatCrawl-小 V 公众号文章下载(开源版)

批量导出任意微信公众号历史文章,会用 python 写 hello world 就会用这个。

github 上的 wkhtmltopdf.exe 可能会下载缓慢,可点此下载

QQ 交流群 703431832 加群暗号”不止技术流”

使用步骤:

a.安装 Python

直接 python setupPackage.py 安装本项目需要的库。有朋友反映默认源安装慢,这里我用了豆瓣的源。

b.安装并配置 Fiddler

Fiddler 的官网有时会连不上,可去 pc.qq.com 搜索 Fiddler4 并安装
小 V 公众号文章下载-开源版-详细说明

会弹出几个窗口,都点 Yes

小 V 公众号文章下载-开源版-详细说明

最后是这样的,打了 3 个钩。点 OK 保存即可。

小 V 公众号文章下载-开源版-详细说明

在主窗口右侧按下图所示设置,其中需要填的网址为 mp.weixin.qq.com/mp/profile_ext?action=getms

小 V 公众号文章下载-开源版-详细说明

至此配置完成了,点软件左下角的方块,会显示 Capturing ,表示它此时处在可以抓取数据的状态,再点一下会暂停抓取。此处先打开为抓取状态
小 V 公众号文章下载-开源版-详细说明

c.打开某个微信公众号的历史文章列表

小 V 公众号文章下载-开源版-详细说明

不断下划,使历史文章列表都显示出来,但注意不要划得太快。

Fiddler 中显示了我们需要的请求

小 V 公众号文章下载-开源版-详细说明

把这些请求保存下来,基中包含文章 url 列表

小 V 公众号文章下载-开源版-详细说明
小 V 公众号文章下载-开源版-详细说明

d.运行 python 文件

打开本项目的 config.json 文件,设置
– jsonDir:上面在 Fiddler 中保存的文件
– htmlDir:保存 html 的目录,路径中不能有空格
– pdfDir:保存 pdf 的目录,路径中不能有空格
改完记得保存文件
另外 wkhtmltopdf.exe 文件是 html 转 pdf 用的,位置不要动。

运行 python start.py #开始下载 html
运行 python start.py pdf #把下载的 html 转 pdf

补充

企业想直接付费使用全功能版及其他公众号相关功能定制的可直达 https://www.xiaokuake.com 或添加作者微信 kakaLongcn

本开源项目仅用于技术学习交流,请勿用于非法用途,由此引起的后果本作者概不负责。

主要思路参考这几篇文章
一步步教你打造文章爬虫(1)-综述
一步步教你打造文章爬虫(2)-下载网页
特别要仔细看第 3 篇
一步步教你打造文章爬虫(3)-批量下载


本文标题:小 V 公众号文章下载-开源版-详细说明
转载请保留页面地址 https://www.xiaokuake.com/p/kaiyuanhelp.html
喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址