Python 正则表达式快速查询

正则表达式元字符和语法

正则表达式使用 Python 的 raw 字符串表示；在字符串前加个 “r” 反斜杠就不会被任何特殊方式处理。

字符

语法	说明	表达式实例	完整匹配
一般字符	匹配自身	abc	abc
.	匹配任意除换行符 \n 外的字符	a.c	abc
\	转义字符	a.c	a.c
[…]	① 字符逐个列出 ② 也可以给出范围 ③ 第一个字符^表示取反	a[bcd]e a[b-d]e [^abc]	abe ace ade

预定义字符集（写在[…]中）

语法	说明	表达式实例	完整匹配
\d	数字：[0-9]	a\dc	a2c
\D	非数字：[^\d]	a\Dc	abc
\s	空白字符	a\sc	a c
\S	非空白字符[^\s]	a\Sc	abc
\w	单词字符：[A-Za-z0-9]	a\wc	abc
\W	非单词字符	a\Wc	a c

数量词

语法	说明	表达式实例	完整匹配
*	匹配前一个字符>=0次	abc*	ab abcccc
+	匹配前一个字符>=1次	abc+	abc abcccc
?	匹配前一个字符0次或1次	abc?	ab abc
{m}	匹配前一个字符m次	ab{2}c	abbc
{m,n}	匹配前一个字符m至n次	ab{1,2}c	abc abbc

边界匹配

语法	说明	表达式实例	完整匹配
^	匹配字符串开头在多行模式中匹配每一行的开头	^abc	abc
$	匹配字符串末尾在多行模式中匹配每一行的末尾	abc$	abc
\A	仅匹配字符串开头	\Aabc	abc
\Z	仅匹配字符串末尾	abc\Z	abc
\b	匹配任何以’the’开始的字符串	`\b the`	thesame
\B	匹配任意包含’the’但不以’the’开头的单词	`\B the`	other

逻辑、分组

语法	说明	表达式实例	完整匹配
l	① l代表左右表达式任意匹配一个 ② 左边匹配成功则跳过右边 ③ 如果l没有在（）里面，则它的范围是整个表达式	abcldef	abc def
(…)	被括起来的表达式将作为分组	(abc){2} a(123l456)c	abcabc a456c
(?P…)	分组，除了原有的编号外再指定一个别名	(?Pabc){2}	abcabc
\	引用编号为的分组匹配到的字符串	(\d)abc\1	1abc1 5abc5
(?P=name)	引用别名为的分组匹配到的字符串	(?P\d)abc(?P=id)	1abc1 5abc5

特殊构造（不作为分组）

语法	说明	表达式实例	完整匹配
(?:…)	??	??	??
(?iLmsux)	iLmsux的每个字符代表一个匹配模式，只能用在正则表达式的的开头，能多选	(?i)abc	ABC
(?#…)	#后的内容将作为注释被忽略	abc(?#comment)123	abc123
(?=…)	之后的字符串内容需要匹配表达式才能匹配成功	a(?=\d)	后面是数字的a
(?!…)	之后的字符串内容需要不匹配表达式才能匹配成功	a(?!\d)	后面不是数字的a
(?<=…)	之前的字符串内容需要匹配表达式才能匹配成功	(?<=\d)a	前面是数字的a
(?<!…)	之前的字符串内容需要不匹配表达式才能匹配成功	(?<!\d)a	前面不是数字的a
(?(id/name)ye-patternlno-pattern)	如果编号为id/别名为name的组匹配到字符，则需要匹配yes-pattern，否则需要匹配no-pattern。	??	??

贪婪or非贪婪模式

贪婪模式：尽可能大的匹配。
非贪婪模式：.?是一个固定的搭配，. 和代表可以匹配任意无限多个字符，加上 ? 表示使用非贪婪模式进行匹配，也就是我们会尽可能短地做匹配，以后我们还会大量用到 .*? 的搭配。

例如：正则表达式”ab“如果用于查找”abbbc”，将找到”abbb”。
而如果使用非贪婪的数量词”ab?”，将找到”a”。

re模块

Python通过 re模块 提供对正则表达式的支持。使用re的一般步骤是先使用re.compile()函数，将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作。

re.compile(pattern[, flags])

这个方法是Pattern类的工厂方法，用于将字符串形式的正则表达式编译为Pattern对象。第二个参数flag是匹配模式，取值可以使用按位或运算符’|’表示同时生效，比如re.I | re.M。

模式	定义
re.I(re.IGNORECASE)	忽略大小写
re.S(DOTALL)	不包括换行符内的所有字符
re.L(LOCALE)	使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
re.M(MULTILINE)	匹配多行字符串
re.X(VERBOSE)	正则表达式为多行
re.U(UNICODE)	使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性

re提供了众多模块方法用于完成正则表达式的功能。这些方法可以使用Pattern实例的相应方法替代，唯一的好处是少写一行re.compile()代码，但同时也无法复用编译后的Pattern对象。这些方法将在Pattern类的实例方法部分一起介绍。如上面这个例子可以简写为：

1 2	m = re.match(r'hello', 'hello world!') print m.group()

Match

举例

re.S的用法（匹配\n，\t换行符）

import re
str="abc\noooass"
res="\w{3}.\w{6}"
a=re.compile(res,re.S)
print a.findall(str)

re.M的用法（字符串多行）

import re
str="""
abc oo
abc ooo
ooo abc
sia abc
"""
res='^abc'
a=re.compile(res,re.M)
print a.findall(str)

re.X的用法（正则写多行）

import re
str="010-12345678"
res="""
\d{3,4}
-?
\d{8}
"""
a=re.compile(res,re.X)
print a.findall(str)

re.search()

#一般用来查询文件中是否有我们想要的字符串，group()输出
import re
str="Daming is a handsome boy, he is cool"
m=re.search(r"(\w+)\s",str)
if m:
print m.group(0),'\n',m.group(1)
else:
print 'not match'

re.sub()：替换

1
2
3

import re
r=r'c..t'
print re.sub(r,'python','csvt csst csft')

re.split()：切割

import re
str='101+123-123*12233/123'
res=r'[-+\*/]'
print re.split(res,str)