Python爬虫之基础知识

news/2024/7/8 1:38:58

爬虫基础知识

一、爬虫的概念

模拟浏览器,发送请求,获取响应

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

  • 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做
  • 爬虫也只能获取客户端(浏览器)所展示出来的数据

二、爬虫的作用

爬虫在互联网世界中有很多的作用,比如:

  1. 数据采集
    1. 抓取微博评论(机器学习舆情监控)
    2. 抓取招聘网站的招聘信息(数据分析、挖掘)
    3. 新浪滚动新闻
    4. 百度新闻网站
  2. 软件测试
    1. 爬虫之自动化测试
    2. 虫师
  3. 12306抢票
  4. 网站上的投票
    1. 投票网
  5. 网络安全
    1. 短信轰炸
      1. 注册页面1
      2. 注册页面2
      3. 注册页面3
    2. web漏洞扫描

三、爬虫的分类

1、根据被爬取网站的数量不同,可以分为:

  • 通用爬虫,如 搜索引擎
  • 聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据

2、根据是否以获取数据为目的,可以分为:

  • 功能性爬虫,给你喜欢的明星投票、点赞
  • 数据增量爬虫,比如招聘信息

3、根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:

  • 基于url地址变化、内容也随之变化的数据增量爬虫
  • url地址不变、内容变化的数据增量爬虫

爬虫分类四、爬虫的流程

爬虫的基本流程如图所示

爬虫的工作流程

  1. 获取一个url
  2. 向url发送请求,并获取响应(需要http协议)
  3. 如果从响应中提取url,则继续发送请求获取响应
  4. 如果从响应中提取数据,则将数据进行保存

http://lihuaxi.xjx100.cn/news/1242990.html

相关文章

IMX6ULL裸机篇之SPI实验-SPI主控代码实现

一. SPI 实验 SPI实验:学习如何使用 I.MX6U 的 SPI 接口来驱动 ICM-20608,读取 ICM-20608 的六轴数据。 本文学习 SPI主控芯片的代码编写。其中,包括SPI工作模式设置,主从模式设置,时钟配置等实现。 二. SPI 主控芯…

Servlet+jsp+Layui图书管理系统

项目介绍 介绍 使用到了jsp,servlet,Mysql,Java,layui。 大致功能 关于用户: 登录,申请注册,查看搜索图书,查看有关用户的借阅记录,丢失记录,预借记录。对…

华为OD机试 JavaScript 实现【扑克牌大小】【牛客练习题 HJ88】,附详细解题思路

一、题目描述 扑克牌游戏大家应该都比较熟悉了,一副牌由54张组成,含3~A、2各4张,小王1张,大王1张。牌面从小到大用如下字符和字符串表示(其中,小写joker表示小王,大写JOKER表示大王&#xff09…

有趣的图(三)(57)

小朋友们好,大朋友们好! 我是猫妹,一名爱上Python编程的小学生。 和猫妹学Python,一起趣味学编程。 今日主题 咱们之前分别学习了图的基本概念,和图的深度优先遍历算法dfs。 你学会了吗? 咱们今天要学…

计算机视觉研究院重新开启知识星球(前期我们免费加入)

点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID|计算机视觉研究院 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 Column of Computer Vision Institute 满足广大兴趣关注者,最近我们平台重启了”知识星球“&…

【华为OD机试真题 C语言】47、 We Are A Team | 机试真题+思路参考+代码解析

文章目录 一、题目🎃题目描述🎃输入输出🎃样例1🎃样例2 二、思路参考三、代码参考 作者:KJ.JK 🍂个人博客首页: KJ.JK 🍂专栏介绍: 华为OD机试真题汇总,定期…

slambook2+ubuntu20.04(第九章-第十二章)

例程代码编译与效果展示 slambook2 ch9 cmakelists.txt set(CMAKE_BUILD_TYPE "Release") set(CMAKE_CXX_FLAGS "-O3 -stdc11") 修改为 set(CMAKE_BUILD_TYPE "Debug") set(CMAKE_CXX_FLAGS "-O3 -stdc17") bundle_adjustment_cere…

线程同步(三)

目录 条件变量 条件变量操作函数函数原型: 线程阻塞函数: 唤醒阻塞线程: 生产者和消费者模型 信号量函数 生产者和消费者模型 总结 条件变量 条件变量是一种线程间同步的机制,用于协调线程之间的操作。当一个线程正在等待某…