基于 Spring Cloud 开发的分布式系统,遇到爬虫、接口盗刷怎么办?

news/2024/7/3 2:27:58

点击上方“方志朋”,选择“设为星标”

回复”666“获取新整理的面试文章

来源 | oschina.net/p/kk-anti-reptile

kk-anti-reptile是,适用于基于spring-boot开发的分布式系统的反爬虫组件。

系统要求

  • 基于spring-boot开发(spring-boot1.x, spring-boot2.x均可)

  • 需要使用redis

工作流程

kk-anti-reptile使用基于Servlet规范的的Filter对请求进行过滤,在其内部通过spring-boot的扩展点机制,实例化一个Filter,并注入到Spring容器FilterRegistrationBean中,通过Spring注入到Servlet容器中,从而实现对请求的过滤

在kk-anti-reptile的过滤Filter内部,又通过责任链模式,将各种不同的过滤规则织入,并提供抽象接口,可由调用方进行规则扩展

Filter调用则链进行请求过滤,如过滤不通过,则拦截请求,返回状态码509,并输出验证码输入页面,输出验证码正确后,调用过滤规则链对规则进行重置

目前规则链中有如下两个规则

ip-rule

ip-rule通过时间窗口统计当前时间窗口内请求数,小于规定的最大请求数则可通过,否则不通过。时间窗口、最大请求数、ip白名单等均可配置

ua-rule

ua-rule通过判断请求携带的User-Agent,得到操作系统、设备信息、浏览器信息等,可配置各种维度对请求进行过滤

命中规则后

命中爬虫和防盗刷规则后,会阻断请求,并生成接除阻断的验证码,验证码有多种组合方式,如果客户端可以正确输入验证码,则可以继续访问

验证码有中文、英文字母+数字、简单算术三种形式,每种形式又有静态图片和GIF动图两种图片格式,即目前共有如下六种,所有类型的验证码会随机出现,目前技术手段识别难度极高,可有效阻止防止爬虫大规模爬取数据

接入使用

后端接入非常简单,只需要引用kk-anti-reptile的maven依赖,并配置启用kk-anti-reptile即可 加入maven依赖

<dependency><groupId>cn.keking.project</groupId><artifactId>kk-anti-reptile</artifactId><version>1.0.0-SNAPSHOT</version>
</dependency>

配置启用 kk-anti-reptile

anti.reptile.manager.enabled=true

前端需要在统一发送请求的ajax处加入拦截,拦截到请求返回状态码509后弹出一个新页面,并把响应内容转出到页面中,然后向页面中传入后端接口baseUrl参数即可,以使用axios请求为例:

import axios from 'axios';
import {baseUrl} from './config';axios.interceptors.response.use(data => {return data;},error => {if (error.response.status === 509) {let html = error.response.data;let verifyWindow = window.open("","_blank","height=400,width=560");verifyWindow.document.write(html);verifyWindow.document.getElementById("baseUrl").value = baseUrl;}}
);export default axios;


注意

1、apollo-client需启用bootstrap

使用apollo配置中心的用户,由于组件内部用到@ConditionalOnProperty,要在application.properties/bootstrap.properties中加入如下样例配置,(apollo-client需要0.10.0及以上版本)详见apollo bootstrap说明

apollo.bootstrap.enabled = true

2、需要有Redisson连接

如果项目中有用到Redisson,kk-anti-reptile会自动获取RedissonClient实例对象; 如果没用到,需要在配置文件加入如下Redisson连接相关配置

spring.redisson.address=redis://192.168.1.204:6379
spring.redisson.password=xxx

配置一览表

在spring-boot中,所有配置在配置文件都会有自动提示和说明,如下图 : 

所有配置都以anti.reptile.manager为前缀,如下为所有配置项及说明

NAME描述默认值示例
enabled是否启用反爬虫插件truetrue
include-urls需要反爬的接口列表,以'/'开头,以','分隔/client,/user
ip-rule.enabled是否启用IP Ruletruetrue
ip-rule.expiration-time时间窗口长度(ms)50005000
ip-rule.request-max-size单个时间窗口内,最大请求数2020
ip-rule.ignore-ipIP白名单,支持后缀'*'通配,以','分隔192.168.*,127.0.0.1
ua-rule.enabled是否启用User-Agent Ruletruetrue
ua-rule.allowed-linux是否允许Linux系统访问falsefalse
ua-rule.allowed-mobile是否允许移动端设备访问truetrue
ua-rule.allowed-pc是否允许移PC设备访问truetrue
ua-rule.allowed-iot是否允许物联网设备访问falsefalse
ua-rule.allowed-proxy是否允许代理访问falsefalse

热门内容:半吊子架构师,一来就想干掉RabbitMQ ...
前、后端分离权限控制设计和实现思路Java 生鲜电商平台 - API 接口设计之 token、timestamp、sign 具体架构与实现面试官:我把数据库部署在Docker容器内,你觉得如何?
炫酷,SpringBoot+Echarts实现用户访问地图可视化(附源码)最近面试BAT,整理一份面试资料《Java面试BAT通关手册》,覆盖了Java核心技术、JVM、Java并发、SSM、微服务、数据库、数据结构等等。获取方式:点“在看”,关注公众号并回复 666 领取,更多内容陆续奉上。
明天见(。・ω・。)ノ♡

http://lihuaxi.xjx100.cn/news/272540.html

相关文章

smarty 模板引擎

http://blog.csdn.net/zuiaituantuan/article/details/5951242 http://wenku.baidu.com/link?url-UHlSnTXOOAjFG1KjX6T9sEG6V4hNAMfRDpMuRRnc_FKbFAxiE5Ntk4lzxSm-7Z531uWdfvgYx81sdC61SgTZm7q8FdUt3gSs7ZlC0JR1SW转载于:https://www.cnblogs.com/hxjbc/p/4441879.html

国内高校硕博补贴大公开!(某校博士在读已经年薪 25w 了)

点击上方“视学算法”&#xff0c;选择加"星标"或“置顶”重磅干货&#xff0c;第一时间送达转自 | 中国农业大学论坛&#xff0c;论文项目硕博招聘仅作学术分享&#xff0c;不代表本公众号立场&#xff0c;侵权联系删除之前有消息称&#xff0c;中科大为吸引优质的博…

听说过代码洁癖,Bug洁癖怎么解?

来源 | Python编程时光&#xff08;ID: Cool-Python&#xff09;当我们写的一个脚本或程序发生各种不可预知的异常时&#xff0c;如果我们没有进行捕获处理的时候&#xff0c;通常都会致使程序崩溃退出&#xff0c;并且会在终端打印出一堆 密密麻麻 的 traceback 堆栈信息来告诉…

VS code 插件配置手册

点击上方“小白学视觉”&#xff0c;选择加"星标"或“置顶”重磅干货&#xff0c;第一时间送达VS code 插件配置手册C/C Tools插件---C/C支持安装库文件的配置GDB本地调试配置GDB远程调试配置Remote VSCode插件---远程编辑文件安装环境配置在本地端的配置在远程端的配…

Python 哪种方式循环最快,或许颠覆你的认知

众所周知&#xff0c;Python 不是一种执行效率较高的语言。此外在任何语言中&#xff0c;循环都是一种非常消耗时间的操作。假如任意一种简单的单步操作耗费的时间为 1 个单位&#xff0c;将此操作重复执行上万次&#xff0c;最终耗费的时间也将增长上万倍。 和是 Python 中常…

拥抱并行流,提高程序执行速度

点击上方“方志朋”&#xff0c;选择“设为星标”回复”666“获取新整理的面试文章作者&#xff1a;后青春期的Keatscnblogs.com/keatsCoder/p/12934394.html前言 在 Java7 之前&#xff0c;如果想要并行处理一个集合&#xff0c;我们需要以下几步 1. 手动分成几部分 2. 为每部…

命令行的全文搜索工具--ack

想必大家在命令行环境下工作时候&#xff0c;一定有想要查找当前目录下的源代码文件中的某些字符的需求&#xff0c;这时候如果使用传统方案&#xff0c;你可能需要输入一长串的命令&#xff0c;比如这样&#xff1a; 1. grep -R string dir/ 或者 grep -r -e string direct…

通用权限管理组件使用说明书V3.0 错误校正 感谢自由软件职业者Helper(767870484)...

有时候&#xff0c;真想做个像样的东西出来&#xff0c;但是往往各方面的能力都不够&#xff0c;这么多人&#xff0c;Helper&#xff08;767870484&#xff09;仔细认真的阅读了这个帮助手册、并给给于了指正&#xff0c;在这里非常感谢&#xff0c;你的劳动成果已经被通用权限…