Python 正则表达式

news/2024/9/9 12:44:38

最近研究Python爬虫,很多地方用到了正则表达式,但是没好好研究,每次都得现查文档。今天就专门看看Python正则表达式。本文参考了官方文档 re模块。

模式

首先正则表达式的语法我就不说了,这玩意倒是不算难,用的时候现查就行了——正则表达式_百度百科。

在很多编程语言中,由于有转义字符这么一种东西的存在,导致正则表达式需要使用两个斜杠来处理。如果编程语言支持原始字符串,那么就不需要两个斜杠了。在Python中,字符串前面添加字母r即可把字符串变成原始字符串。

下面是一个正则表达式最简单的使用例子。我们查找所有以字母F开头的单词,不论大小写。这个例子使用了正则表达式模块的re.findall函数,它会返回所有符合模式的列表。

import retext = 'fuck shit it make she forest'results = re.findall(r'\b[Ff]\w+', text)
print(results)

如果某一个模式需要经常使用,我们可以把它编译为模式对象。然后从模式对象上调用各种正则查询方法。这样做的优点是:由于模式已经编译了,所以后续的查询速度会更快。

pattern = re.compile(r'\b[Ff]\w+')
print(pattern.findall(text))

查询标志

大部分查询方法还可以接受一个查询标志参数。查询标志让正则表达式具有不同的行为。下面一一说明。

标志作用
re.A、re.ASCII以ASCII模式查询,默认是Unicode模式
re.DEBUG显示编译表达式的调试信息
re.I、re.IGNORECASE忽略字母的大小写
re.L、re.LOCALE以区域敏感方式查询匹配
re.M、re.MULTILINE开启多行模式,开启之后行边界符^$会匹配每行的开始和结束,而不是整个字符串的开始和结束
re.S、re.DOTALL使用此标志,会让点符号匹配所有字符,默认情况下点符号会匹配换行符以外的符号
re.X、re.VERBOSE开启啰嗦模式,可以在写正则表达式的时候添加注释

下面是啰嗦模式的例子,来自Python官方文档。

a = re.compile(r"""\d +  # the integral part\.    # the decimal point\d *  # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")

查询方法

查询方法有两种形式,第一种是re模块的函数,这些函数需要接受一个模式字符串。第二种就是从编译好的模式对象上调用,这样不需要模式字符串了。基本上大部分方法都有这两种形式,所以这里只需要介绍一种形式。

  • re.search(pattern, string, flags=0)方法查询字符串,返回第一个结果的匹配对象。不管有多少个满足条件的字符串,这个方法之返回第一个。如果查询不到,就返回None。

  • re.match(pattern, string, flags=0)查询字符串,当字符串的前面一部分和模式匹配的时候,会返回相应的匹配对象。如果不匹配,那么返回None。需要注意即使开启了多行模式,这个方法也只查询字符串最前面的一部分,不会查询每行的前面。

  • re.fullmatch(pattern, string, flags=0),如果整个字符串和模式匹配,返回相应的匹配对象。否则返回None。

  • re.split(pattern, string, maxsplit=0, flags=0),按给定正则表达式分割字符串。

  • re.findall(pattern, string, flags=0),最常用的方法,返回一个列表,包含所有匹配模式的字符串。

  • re.finditer(pattern, string, flags=0),和findall方法类似,不过返回的是一个迭代器。

  • re.sub(pattern, repl, string, count=0, flags=0),将字符串中匹配模式的部分使用repl替换,返回替换后的字符串。

  • re.subn(pattern, repl, string, count=0, flags=0),和sub方法类似,不过返回元组(新字符串,替换的数量)

  • re.purge(),清除正则表达式缓存。

在已编译好的正则表达式对象上还有以下几个属性。

  • flags,正则表达式的所有标志,包括flags参数设置的,compile方法编译传入的,以及正则表达式中本身的标志。

  • groups,正则表达式中捕获组的数量。

  • pattern,返回模式字符串。

  • groupindex,返回(?P<id>)形式的命名组和组编号键值对组成的字典。

匹配对象

上面提到的很多方法都返回匹配对象。匹配对象包含了一些方法和属性,方便我们进行查询。

最常用的就是group函数,它会返回指定组对应的字符串。下面的例子就查询了给定数据中的数据量和每页的条数。第0组返回整个匹配,第1组返回第一个匹配,以此类推……也可以采用命名组的方式。

text = '总共20条数据 每页5条'
pattern = re.compile(r'总共(?P<total>\d+)条数据\s+每页(?P<per>\d+)条')match = pattern.match(text)
print(match.group(0))

另一个比较常用的函数就是groups(default=None),它返回所有组组成的元组。如果有的组没有匹配到字符串,就会显示为None,这时候可以使用default参数指定默认值。

text = '总共20条数据 每页5条'
pattern = re.compile(r'总共(?P<total>\d+)条数据\s+每页(?P<per>\d+)条')match = pattern.match(text)print(match.groups())# 结果
# ('20', '5')

groupdict(default=None)返回组名和字符串组成的字典。还是上面的例子。

print(match.groupdict())
# {'total': '20', 'per': '5'}

startend函数返回给定组的在字符串的起始和结束索引,如果对应的组没有任何匹配,则返回-1。下面的例子来自Python官方文档,从电子邮件地址中去除remove_this。

>>> email = "tony@tiremove_thisger.net"
>>> m = re.search("remove_this", email)
>>> email[:m.start()] + email[m.end():]
'tony@tiger.net'

match.span([group])返回给定组的起始索引和结束索引组成的元组。

以上就是Python正则表达式的大部分内容了,灵活使用这些知识,可以获得强大的功能。关于如何巧用,就看大家的智慧了。


http://lihuaxi.xjx100.cn/news/281837.html

相关文章

都在抢论文第一作者,怎么解决?

点击上方“小白学视觉”&#xff0c;选择加"星标"或“置顶” 重磅干货&#xff0c;第一时间送达来源&#xff1a;光明日报编辑&#xff1a;考博圈&#xff08;学长&#xff09;转自&#xff1a;CVer近日&#xff0c;中国覆盖面最广的数学学术性组织中国数学会发布了一…

BigBiGAN问世,“GAN父”都说酷的无监督表示学习模型有多优秀?

作者 | Jeff Donahue、Karen Simonyan 译者 | Lucy、一一出品 | AI开发者大本营&#xff08;ID:rgznai100&#xff09;众所周知&#xff0c;对抗训练生成模型&#xff08;GAN&#xff09;在图像生成领域获得了不凡的效果。尽管基于GAN的无监督学习方法取得了初步成果&#xff0…

神童、数学家、抑郁症患者,控制论之父诺伯特·维纳的一生

选自medium作者&#xff1a;jorgenveisdal机器之心编译参与&#xff1a;魔王、张倩、蛋酱他是「控制论」之父&#xff0c;是 9 岁就读高中的神童&#xff0c;可以一手解一个方程。他先后涉足哲学、数学、物理学、工程学、生物学&#xff0c;但与此同时&#xff0c;他不记得自己…

Linux Ubuntu从零开始部署web环境及项目 -----tomcat+jdk+mysql (二)

上一篇介绍如何在linux系统下搭建ssh环境 这篇开始将如何搭建web服务器 1&#xff0c;下载文件 在官网下载好 tomcat、jdk、mysql的linux压缩包 后缀名为.tar.gz 并通过xftp上传到服务器 或者直接通过linux命令 下在wget文件的下载地址 例如: wget http://apache.fayea.com/to…

XML DOM – 属性和方法概述

属性和方法向 XML DOM 定义了编程接口。编程接口 DOM 把 XML 模拟为一系列节点对象。可通过 JavaScript 或其他编程语言来访问节点。在本教程中&#xff0c;我们使用 JavaScript。 对 DOM 的编程接口是通过一套标准的属性和方法来定义的。 属性经常按照"某事物是什么&q…

wp10 android,WP10能在Android机正常用不?

背景在WP8桌面中并非一成不变&#xff0c;我们完全可以根据自己的意愿对壁纸进行修改。当然在设置背景前你需要做以下两步&#xff0c;一是将“背景风格”改为“壁纸”&#xff0c;二是从”壁纸”列表中挑选一张适合的壁纸即可。正如你所见到的&#xff0c;WP8桌面提供的壁纸数…

(翻译)LearnVSXNow! #6 - 创建我们第一个工具集 - 序幕

在前面的文章中,我们在向导的帮助下创建了一些小的VSPackages。在第五讲中我们整理了VSX的一些思路和概念&#xff0c;深入VSPackages 了解了packages如何工作以及服务的机制。在这篇文章中我们继续向前。 本文我们开始创建一个工具集来帮助我们创建容易编写和理解的代码。我计…

使用OpenCV实现人脸图像卡通化

点击上方“小白学视觉”&#xff0c;选择加"星标"或“置顶” 重磅干货&#xff0c;第一时间送达引言通过前面的文章我们已经了解到OpenCV 是一个用于计算机视觉和机器学习的开源 python 库。它主要针对实时计算机视觉和图像处理。它用于对图像执行不同的操作&#xf…