python spider 爬虫 之 urllib系列

news/2024/7/5 9:27:27

python 中 集成了 urllib

urllib

import urllib.request 

# urlopen 方法
url="url"
response =  urllib.request.urlopen(url)

print(type(response ))
print(response.read())
#  解码   字节--->字符串  decode    字符串--》字节  encode
print(response.read().decode("utf-8"))
# readline 读取一行
print(response.readline())
# 一行一行的读取 返回是列表
print(response.readlines())
#  获取状态码  200  400  500等
print(response.getcode())
# 获取headers
print(response.getheads())

# urlretrieve 方法  请求网页、图片、视频   同时下载他们
# 下载网页,下载图片 下载视频
url_page="xx"
# url:代表的下载的路径,filename 下载下来文件存储的文件的名字
urllib.request.urlretrieve(url=url_page,filename="xxx")

UA User Agent
用户代理,简称UA,它是特殊的字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本。
浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等
在这里插入图片描述

#  https  协议 是ssl,  所以需要模拟代理
from urllib import request
heads = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
#  关键字传参
req = request.Request(url="https://www.baidu.com", data=None, headers=heads)
response = request.urlopen(req)
print(response.read().decode('utf-8'))

UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\u6211’ in position 9: ordinal not in range(128)

将汉字转换unicode 统一编码 两种方法

quote 应用场景 单个参数

①urllib.parse.quote(“中文”) 转换成unicode字符

urlencode 应用场景 多个参数的时候

②urllib.parse.urlencode({字典})

POST 请求

在这里插入图片描述

# POST 请求
from urllib import request
from urllib import parse

heads = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
url = 'https://fanyi.baidu.com/sug'
data = {
    'kw': "Ares"
}
#   encode  转换字节  post  请求,要encode编码,get  不需要encode()
new_data = parse.urlencode(data).encode('utf-8')
print(new_data)
#   Request 不需要传参数 method='post'
req = request.Request(url=url, data=new_data, headers=heads)
# 模拟浏览器向服务器发送请求
response = request.urlopen(req)
content = response.read().decode('utf-8')
print(content)
# 上面打印的json字符串,且中文为unicode编码
import json
obj = json.loads(content)
# 打印中文的json对象
print(obj)

Cookie 反爬

在这里插入图片描述

异常 HTTPError URLError

  1. HTTPError类是URLError类的子类
  2. 导入的包urllib.error.HTTPError urllib.error.URLError
  3. http报错:http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页是哪里出了问题
  4. 通过urllib发送请求的时候,有可能会发送失败。这个时候如果想让你的代码更加的健壮,可以通过try: except进行捕获异常。

Cookie 登录

适应场景:数据采集时,需要绕过登录,然后进入到某个页面

个人信息页面是utf-8,但还说报错了编码错误,因为并没有进入到个人信息页面,而是跳转到登录页面了,同时登录页面不是utf-8编码,所以报错

代理

Handler 处理器

在这里插入图片描述

# Handler 访问百度,获取百度源码
from urllib import request

headers = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
url = 'https://www.baidu.com/'

# 创建request请求对象
req = request.Request(url=url,headers=headers)

# handler   build_opener   open

#  获取handler 对象
# handler = request.HTTPHandler()
# ProxyHandler  代理服务器,相当于用别的IP地址访问百度, 
proxies = {
    'http':'xxx.xx.xx.xx:port'
}
handler = request.ProxyHandler(proxies=proxies)
# 获取opener对象
opener = request.build_opener(handler)

# 调用open方法
response = opener.open(req)

content = response.read().decode('UTF-8')

print(content)

代理服务器
在这里插入图片描述
通过random.choice 在代理池中随机选择代理
在这里插入图片描述


http://lihuaxi.xjx100.cn/news/1275458.html

相关文章

正则表达式-捕获组,命名捕获组,非捕获组

正则表达式的作用 测试目标字符串是否符合规则 返回true/false按照规则从目标字符串提取内容 返回匹配的数组 在线测试工具 regex101: build, test, and debug regexRegular expression tester with syntax highlighting, explanation, cheat sheet for PHP/PCRE, Python, …

【Redis】多级缓存之OpenResty:nginx查询Tomcat与Redis以及nginx本地缓存

目录 一、认识OpenResty 二、请求参数处理 三、查询Tomcat 四、Redis缓存预热 五、查询Redis缓存 六、nginx本地缓存 一、认识OpenResty OpenResty是一个基于nginx的高性能Web平台,他用于方便的搭建能够处理高并发、扩展性极高的动态Web应用、Web服务和动态网…

elasticsearch生命周期的阶段

Hot: The index is actively being updated and queried. 可以设置滚动阈值 hot阶段是必须的,其他的阶段是可选的 hot phase有个坑: rollover 这里指的是如果你想让索引在hot阶段待5min,你可以在hot设置rollover时间触发条件为5min,然后warm阶段设置data into为0,正常情况下没…

我心中的TOP1编程语言—JavaScript

作为一名研发工程师(程序员),平时工作中肯定会接触或了解很多编程语言。每个人都会有自己工作中常用的语言,也会有偏爱的一些编程语言。而我心中的最爱,毫无疑问,就是 JavaScript。 个人认为,一…

TIA博途_字符转换为字符串以及截取字符串有效字符的具体方法示例

TIA博途_字符转换为字符串以及截取字符串有效字符的具体方法示例 情景再现: 在做某些通信相关的项目时,可能会遇到通信接收到的字符串是以字节的形式传送过来的字符,此时就需要我们对接收到的这些字符进行处理,从而获取我们实际需要的字符或字符串。 如下图所示,打开博途…

微服务系列文章之 Springboot集成Jersey

​ Springboot支持Jersey1.x和Jersey2.x&#xff0c;我们这里只介绍Springboot对Jersey2.x的支持。springboot对jersey的集成非常简单。 ​ 项目结构&#xff1a; 1、引入Springboot对Jersey的starter包 <dependencies><dependency><groupId>org.springfram…

CODESYS 数组类型变量(ARRAY)使用介绍

博途PLC数组类型变量使用介绍请参看下面文章博客: 博途1200/1500PLC上升沿下降沿指令编程应用技巧(bool数组)_博途上升沿指令_RXXW_Dor的博客-CSDN博客博途PLC的下降沿和上升沿指令,在控制系统编程时经常会使用。和SMARTS7-200有所不同,遵循IEC-6113标准提供的上升沿下降沿…

java适配达梦数据库

目录 一、数据库安装 二、数据库可视化工具 三、数据迁移 四、工程适配 新增maven依赖 配置文件修改 基于flyway的数据库版本管理 五、注意事项 一、数据库安装 官方文档&#xff1a;安装前准备 | 达梦技术文档 这里有一个点需要注意&#xff0c;如果你之前的数据库或…