正则表达式的常见用法
以下是Python正则表达式的元字符和函数的详细示例:
元字符
.
:匹配除换行符以外的任意字符。
import re print(re.findall('.', 'abc')) # 输出:['a', 'b', 'c']
^
:匹配字符串的开头。
print(re.findall('^a', 'abc')) # 输出:['a']
$
:匹配字符串的结尾。
print(re.findall('c$', 'abc')) # 输出:['c']
*
:对它前面的正则式匹配0到任意次重复。
print(re.findall('a*', 'aaabc')) # 输出:['aaa', '', '', '', '']
+
:对它前面的正则式匹配1到任意次重复。
print(re.findall('a+', 'aaabc')) # 输出:['aaa']
?
:对它前面的正则式匹配0到1次重复。
print(re.findall('a?', 'aaabc')) # 输出:['a', 'a', 'a', '', '', '', '']
{m}
:对其之前的正则式指定匹配 m 个重复。
print(re.findall('a{2}', 'aaabc')) # 输出:['aa']
{m,n}
:对正则式进行 m 到 n 次匹配,在 m 和 n 之间取尽量多。
print(re.findall('a{1,2}', 'aaabc')) # 输出:['aa']
\\
:转义特殊字符或表示特殊序列。
print(re.findall('\\$', 'a$bc')) # 输出:['$']
[]
:用于指定一个字符类,你希望匹配的字符的一个集合。
print(re.findall('[abc]', 'abcdef')) # 输出:['a', 'b', 'c']
|
:表示或,匹配前面的或后面的表达式。
print(re.findall('a|b', 'abcdef')) # 输出:['a', 'b']
()
:标记一个子表达式的开始和结束位置。
print(re.findall('(ab)', 'abcdef')) # 输出:['ab']
特殊序列
\\d
:匹配任何十进制数字,等价于字符类 [0-9]。
print(re.findall('\\d', 'abc123')) # 输出:['1', '2', '3']
\\D
:匹配任何非数字字符,等价于字符类 [^0-9]。
print(re.findall('\\D', 'abc123')) # 输出:['a', 'b', 'c']
\\s
:匹配任何空白字符,等价于字符类 [ \t\n\r\f\v]。
print(re.findall('\\s', 'a b\nc')) # 输出:[' ', '\n']
\\S
:匹配任何非空白字符,等价于字符类 [^ \t\n\r\f\v]。
print(re.findall('\\S', 'a b\nc')) # 输出:['a', 'b', 'c']
\\w
:匹配任何字母与数字字符,等价于字符类 [a-zA-Z0-9_]。
print(re.findall('\\w', 'abc_123')) # 输出:['a', 'b', 'c', '_', '1', '2', '3']
\\W
:匹配任何非字母与数字字符,等价于字符类 [^a-zA-Z0-9_]。
print(re.findall('\\W', 'abc_123.!')) # 输出:['.', '!']
函数
re.match(pattern, string)
:确定是否匹配字符串的开始部分。如果匹配则返回表示匹配的对象,如果不匹配则返回 None。# match().span()返回匹配的字符串范围
print(re.match('a', 'abc')) # 输出:<re.Match object; span=(0, 1), match='a'>
re.search(pattern, string)
:搜索字符串中第一次出现的正则表达式的匹配项。如果匹配则返回表示匹配的对象,如果不匹配则返回 None。
print(re.search('b', 'abc')) # 输出:<re.Match object; span=(1, 2), match='b'>
re.findall(pattern, string)
:在字符串中查找与模式匹配的所有子字符串,并以列表形式返回。
print(re.findall('a', 'abc')) # 输出:['a']
re.finditer(pattern, string)
:在字符串中查找与模式匹配的所有子字符串,并返回一个迭代器。
for match in re.finditer('a', 'abc'): print(match) # 输出:<re.Match object; span=(0, 1), match='a'>
re.split(pattern, string, maxsplit=0)
:根据模式的匹配项来分割字符串,如果在模式中使用括号,则模式中的所有组的文本也将作为结果列表的一部分。如果maxsplit非零,最多进行 maxsplit 次分割,并返回剩余的字符串。
print(re.split(',', 'a,b,c')) # 输出:['a', 'b', 'c']
re.sub(pattern, repl, string, count=0)
:使用 repl 替换在字符串中找到的正则表达式的所有匹配项。如果模式中没有找到匹配项,则字符串将保持不变。如果count非零,最多替换 count 次。
print(re.sub('a', 'b', 'abc')) # 输出:'bbc'