50行Python代码，获取公众号全部文章

50行Python代码，获取公众号全部文章

news/2024/7/3 0:48:22

640?wx_fmt=jpeg

作者 | 胖虎

转载自Python3X（ID: python3xxx ）

爬取公众号的方式常见的有两种：

通过搜狗搜索去获取，缺点是只能获取最新的十条推送文章。
通过微信公众号的素材管理，获取公众号文章。缺点是需要申请自己的公众号。

640?wx_fmt=png

今天介绍一种通过抓包PC端微信的方式去获取公众号文章的方法。相比其他的方法非常方便。

640?wx_fmt=jpeg

640?wx_fmt=png

如上图，通过抓包工具获取微信的网络信息请求，我们发现每次下拉刷新文章的时候都会请求 mp.weixin.qq.com/mp/xxx （公众号不让添加主页链接，xxx表示profile_ext）这个接口。

经过多次测试分析，用到了以下几个参数

__biz : 用户和公众号之间的唯一id，
uin ：用户的私密id
key ：请求的秘钥，一段时候只会就会失效。
offset ：偏移量
count ：每次请求的条数

数据如下：

部分代码如下：

最后打印的list就是公众号的文章信息详情。包括标题(titile)、摘要(digest)、文章地址(content_url)、阅读原文地址(source_url)、封面图(cover)、作者(author)等等...

输出结果如下：

获取数据之后，可以保存到数据库中，也可以将文章保存在PDF中。

1、保存在Mongo中

结果如下：

640?wx_fmt=png

2、导入到PDF文件中

Python3中常用的操作PDF的库有python-pdf和pdfkit。我用了pdfkit这个模块导出pdf文件。

pdfkit是工具包Wkhtmltopdf的封装类，因此需要安装Wkhtmltopdf才能使用。

可以访问 https://wkhtmltopdf.org/downloads.html 下载和操作系统匹配的工具包。

640?wx_fmt=png

实现代码也比较简单，只需要传入导入文件的url即可。

安装pdfkit库：

运行之后成功导出pdf文件：

640?wx_fmt=png

完整代码

（*本文为 AI科技大本营转载文章，转载请联系原作者）

◆

精彩推荐

◆

640?wx_fmt=png

推荐阅读

阿里达摩院刷新纪录，开放域问答成绩比肩人类水平，超微软、Facebook
200行代码实现一个滑动验证码
收藏！本、硕、博、程序员必备神器
三十四载Windows崛起之路：苹果、可视做过微软“铺路石”
苹果首席设计师离职，或因库克对设计没兴趣？
孩子学编程，更要学算法编程！否则你的机械键盘传给谁？
物联网终端五年后将超 270 亿！破竹之势下程序员如何修炼内功？
视频 |「以太坊开发训练营」如何带你安全、高效跑通以太坊开发全流程! 收藏!
百度自动驾驶新突破：获首批T4牌照，升级Apollo 5.0，将进行复杂城市场景路测

640?wx_fmt=png

你点的每个“在看”，我都认真当成了喜欢

http://lihuaxi.xjx100.cn/news/282057.html

相关文章

借助阿里云数加，小小的美甲行业被美甲帮玩出了天价。

借助阿里云数加，小小的美甲行业被美甲帮玩出了天价。

原文链接：http://click.aliyun.com/m/13860/ 免费开通大数据服务：https://www.aliyun.com/product/odps“数加对于创业公司来说是一个非常好的平台，可以在有限的投入下，充分地享受到阿里云已经有的技术和经验，站在巨人…

阅读更多...

Emptyproject分析

Emptyproject分析

Emptyproject分析(SimpleSample)1，InitApp()WinMain中有一个InitApp()，在sample中存在，但是在emptyproject中没有，该函数是用于设定已经声明的一些一般变量的初始值的。比如某些按钮。2，IsDeviceAcceptable()被WinMain…

阅读更多...

oracle9201怎么安装,Solaris10上安装64位Oracle9201

oracle9201怎么安装,Solaris10上安装64位Oracle9201

根据Oracle官方文档的步骤进行安装，首先是对Solaris10上系统需求的检查：# /usr/sbin/prtconf | grep "Memory size"Memory size: 16384 Megabytes# /usr/sbin/swap -lswapfile dev swaplo blocks free/dev/dsk/c1t0d0s1 118,9 16 36877808 368…

阅读更多...

简单介绍python中的单向链表实现

简单介绍python中的单向链表实现

大家好，本篇文章主要讲的是python中的单向链表实现，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下一、单向链表概念单向链表的链接方向是单向的，由结点构成，head指针指向第一个成为head结点，而…

阅读更多...

图像配准的前世今生：从人工设计特征到深度学习

图像配准的前世今生：从人工设计特征到深度学习

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达机器之心编译参与：Nurhachu Null，Geek AI作者：Emma Kamoun作为计算机视觉的重要研究课题，图像配准经历了从传统方法走向深度…

阅读更多...

优秀博士学位论文精华版：基于深度学习的自然场景文字检测与识别方法研究...

优秀博士学位论文精华版：基于深度学习的自然场景文字检测与识别方法研究...

本文选自《中国人工智能学会通讯》 2020年第10卷第2期优秀博士学位论文精华版，CAAI会员中心编辑。该博士论文原作者石葆光2018年毕业于华中科技大学，师从于白翔老师，目前就职于微软雷德蒙德总部。摘要本文基于深度学习框架，构…

阅读更多...

入门必备 | 一文读懂神经架构搜索

入门必备 | 一文读懂神经架构搜索

作者 | Md Ashiqur Rahman编译 | 刘静转载自图灵TOPIA（ID: turingtopia）近期谷歌大脑团队发布了一项新研究：只靠神经网络架构搜索出的网络，不训练，不调参，就能直接执行任务。这样的网络叫做WANN&#xff0c…

阅读更多...

计算机组成原理-输入输出系统(持续更新中)

计算机组成原理-输入输出系统(持续更新中)

I/O系统基本概念基本概念 I/O硬件现代计算机的结构 “I/O”就是"输入/输出" IO设备就是可以将数据输入到计算机，或者可以接收计算机输出数据的外部设备。常见的IO设备主机如何与I/O设备进行交互？ I/O接口：又称I/O控制器&…

阅读更多...

最新文章