50行Python代码,获取公众号全部文章

news/2024/7/3 0:48:22

640?wx_fmt=jpeg

作者 | 胖虎

转载自Python3X(ID: python3xxx )


爬取公众号的方式常见的有两种:

  • 通过搜狗搜索去获取,缺点是只能获取最新的十条推送文章。

  • 通过微信公众号的素材管理,获取公众号文章。缺点是需要申请自己的公众号。


640?wx_fmt=png


今天介绍一种通过抓包PC端微信的方式去获取公众号文章的方法。相比其他的方法非常方便。


640?wx_fmt=jpeg


640?wx_fmt=png


如上图,通过抓包工具获取微信的网络信息请求,我们发现每次下拉刷新文章的时候都会请求 mp.weixin.qq.com/mp/xxx (公众号不让添加主页链接,xxx表示profile_ext) 这个接口。


经过多次测试分析,用到了以下几个参数

  • __biz : 用户和公众号之间的唯一id,

  • uin :用户的私密id

  • key :请求的秘钥,一段时候只会就会失效。

  • offset :偏移量

  • count :每次请求的条数


数据如下:


部分代码如下:



最后打印的list就是公众号的文章信息详情。包括标题(titile)、摘要(digest)、文章地址(content_url)、阅读原文地址(source_url)、封面图(cover)、作者(author)等等...


输出结果如下:



获取数据之后,可以保存到数据库中,也可以将文章保存在PDF中。


1、保存在Mongo中



结果如下:


640?wx_fmt=png


2、导入到PDF文件中


Python3中常用的操作PDF的库有python-pdf和pdfkit。我用了pdfkit这个模块导出pdf文件。

pdfkit是工具包Wkhtmltopdf的封装类,因此需要安装Wkhtmltopdf才能使用。

可以访问 https://wkhtmltopdf.org/downloads.html 下载和操作系统匹配的工具包。


640?wx_fmt=png


实现代码也比较简单,只需要传入导入文件的url即可。


安装pdfkit库:




运行之后成功导出pdf文件:


640?wx_fmt=png


完整代码



(*本文为 AI科技大本营转载文章,转载请联系原作者


精彩推荐


640?wx_fmt=png

推荐阅读

  • 阿里达摩院刷新纪录,开放域问答成绩比肩人类水平,超微软、Facebook

  • 200行代码实现一个滑动验证码

  • 收藏!本、硕、博、程序员必备神器

  • 三十四载Windows崛起之路: 苹果、可视做过微软“铺路石”

  • 苹果首席设计师离职,或因库克对设计没兴趣?

  • 孩子学编程,更要学算法编程!否则你的机械键盘传给谁?

  • 物联网终端五年后将超 270 亿!破竹之势下程序员如修炼内功?

  • 视频 |「以太坊开发训练营」如何带你安全、高效跑通以太坊开发全流程! 收藏!

  • 百度自动驾驶新突破:获首批T4牌照,升级Apollo 5.0,将进行复杂城市场景路测


640?wx_fmt=png你点的每个“在看”,我都认真当成了喜欢

http://lihuaxi.xjx100.cn/news/282057.html

相关文章

借助阿里云数加,小小的美甲行业被美甲帮玩出了天价。

原文链接:http://click.aliyun.com/m/13860/ 免费开通大数据服务:https://www.aliyun.com/product/odps“数加对于创业公司来说是一个非常好的平台,可以在有限的投入下,充分地享受到阿里云已经有的技术和经验,站在巨人…

Emptyproject分析

Emptyproject分析(SimpleSample)1,InitApp()WinMain中有一个InitApp(),在sample中存在,但是在emptyproject中没有,该函数是用于设定已经声明的一些一般变量的初始值的。比如某些按钮。2,IsDeviceAcceptable()被WinMain…

oracle9201怎么安装,Solaris10上安装64位Oracle9201

根据Oracle官方文档的步骤进行安装,首先是对Solaris10上系统需求的检查:# /usr/sbin/prtconf | grep "Memory size"Memory size: 16384 Megabytes# /usr/sbin/swap -lswapfile dev swaplo blocks free/dev/dsk/c1t0d0s1 118,9 16 36877808 368…

简单介绍python中的单向链表实现

大家好,本篇文章主要讲的是python中的单向链表实现,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下 一、单向链表概念 单向链表的链接方向是单向的,由结点构成,head指针指向第一个成为head结点,而…

图像配准的前世今生:从人工设计特征到深度学习

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达机器之心编译参与:Nurhachu Null,Geek AI作者:Emma Kamoun作为计算机视觉的重要研究课题,图像配准经历了从传统方法走向深度…

优秀博士学位论文精华版:基于深度学习的自然场景文字检测与识别方法研究...

本文选自《中国人工智能学会通讯》 2020年 第10卷 第2期 优秀博士学位论文精华版,CAAI会员中心编辑。该博士论文原作者石葆光2018年毕业于华中科技大学,师从于白翔老师,目前就职于微软雷德蒙德总部。摘 要本文基于深度学习框架,构…

入门必备 | 一文读懂神经架构搜索

作者 | Md Ashiqur Rahman编译 | 刘静转载自图灵TOPIA(ID: turingtopia)近期谷歌大脑团队发布了一项新研究:只靠神经网络架构搜索出的网络,不训练,不调参,就能直接执行任务。这样的网络叫做WANN&#xff0c…

计算机组成原理-输入输出系统(持续更新中)

I/O系统基本概念 基本概念 I/O硬件 现代计算机的结构 “I/O”就是"输入/输出" IO设备就是可以将数据输入到计算机,或者可以接收计算机输出数据的外部设备。 常见的IO设备 主机如何与I/O设备进行交互? I/O接口:又称I/O控制器&…