python学习：正则表达式re模块的使用

1.常用常量

1.1 re.I（re.IGNORECASE）

执行不区分大小写的匹配；类似的表达式也[A-Z]将匹配小写字母。

re.findall(r"[a-z]", "ah667GHD67DYT78")
# Return:['a', 'h']
 
re.findall(r"[a-z]", "ah667GHD67DYT78",flags=re.IGNORECASE)
# Return:['a', 'h', 'G', 'H', 'D', 'D', 'Y', 'T']

1.2 re.S（re.DOTALL）

使'.'特殊字符与任何字符都匹配，包括换行符；没有此标志，'.'将匹配除换行符以外的任何内容。

s = '''first line
second line
third line'''

re.findall(r".+", s)
# Return:['first line', 'second line', 'third line']

re.findall(r".+", s, flags=re.DOTALL)
# Return:['first line\nsecond line\nthird line']

2.常用方法

2.1 re.match（pattern，string，flags = 0 ）

对字符串从开头进行正则匹配 (匹配零个或者一个对象)
如果字符串与模式匹配，则返回相应的匹配对象。

re.match('a','abcade') 
# Return:<re.Match object; span=(0, 1), match='a'>
re.match('\w+','abc123de')
# Return:<re.Match object; span=(0, 8), match='abc123de'>

如果字符串与模式不匹配，则返回None；

re.match('z','abcade')
# Return:None

可以使用group()获取匹配结果

re.match('a','abcade').group()
# Return:'a'

2.2 re.search（pattern，string，flags = 0 ）

扫描字符串以查找正则表达式模式产生匹配项的第一个位置(匹配零个或者一个对象)，
- 与re.match的区别
  - re.match是从字符串的开头进行匹配
  - re.search是从对字符串的挨个位置都进行尝试，指导匹配上或者尝试完所有位置
如果匹配上，则返回相应的match对象。

re.search('b','abcade')
# Return:<re.Match object; span=(1, 2), match='b'>
re.search('b','abcade').group()
# Return:'b'

如果字符串中没有位置与模式匹配，则返回None；

re.search('z','abcade')
# Return:None

2.3 re.compile（pattern，flags = 0 ）

该方法同re.match和re.search
将正则表达式模式编译为正则表达式对象，可使用match()，search()以及下面所述的其他方法将其用于匹配

reg = re.compile('\d{2}') # 正则对象-匹配两个数字
reg.search('12abc')
# Return:<re.Match object; span=(0, 2), match='12'>
reg.search('12abc').group()
# Return:12

reg = re.compile('\d{2}') # 正则对象-匹配两个数字
reg.match('123abc')
# Return:<re.Match object; span=(0, 2), match='12'>
reg.match('12abc').group()
# Return:12

2.4 re.fullmatch（pattern，string，flags = 0 ）

如果整个字符串与正则表达式模式匹配，则返回相应的match对象。

re.fullmatch('\w+','abcade')
# Return:<re.Match object; span=(0, 6), match='abcade'>
re.fullmatch('\w+','abcade').group()
# Return:'abcade'

否则返回None；

re.fullmatch('\w+','abca de')
# Return:None

2.5 re.split（pattern，string，maxsplit = 0，flags = 0 ）

通过正则表达式来split字符串。

re.split(r'\W+', 'Words, words, words.')
# Return:['Words', 'words', 'words', '']

如果在pattern中使用了捕获括号，那么模式中所有组的文本也将作为结果列表的一部分返回。

re.split(r'(\W+)', 'Words, words, words.')
# Return:['Words', ', ', 'words', ', ', 'words', '.', '']

如果分隔符中有捕获组，并且该匹配组在字符串的开头匹配，则结果将从空字符串开始。字符串的末尾也是如此：

re.split(r'(\W+)', '...words, words...')
# Return:['', '...', 'words', ', ', 'words', '...', '']

如果maxsplit不为零，则最多会发生maxsplit分割，并将字符串的其余部分作为列表的最后一个元素返回。

re.split(r'\W+', 'Words, words, words.',1)
# Return:['Words', 'words, words.']

2.6 re.findall（pattern，string，flags = 0 ）

从左到右扫描该字符串，以列表的形式返回所有的匹配项

re.findall('a', 'This is a beautiful place!')
# Return:['a', 'a', 'a']
re.findall('z', 'This is a beautiful place!')
# Return:[]

2.7 re.sub（pattern，repl，string，count = 0，flags = 0 ）

使用repl替换掉string中pattern成功匹配的匹配项，count参数表示将匹配到的内容进行替换的次数

re.sub('\d', 'S', 'abc12jh45li78') #将匹配到所有的数字替换成S
# Return:'abcSSjhSSliSS'

re.sub('\d', 'S', 'abc12jh45li78', 2) #将匹配到的数字替换成S,只替换2次就停止
# Return:'abcSSjh45li78'

如果找不到该模式，则返回的字符串不变。

re.sub('z', 'S', 'abc12jh45li78')
# Return:'abc12jh45li78'

2.8 re.subn（pattern，repl，string，count = 0，flags = 0 ）

执行与相同的操作sub()，但返回一个元组。(new_string, number_of_subs_made)

re.subn('\d', 'S', 'abc12jh45li78')
# Return:('abcSSjhSSliSS', 6)
re.subn('\d', 'S', 'abc12jh45li78', 3)
# Return:('abcSSjhS5li78', 3)

3. 其他补充

3.1 使用正则表达式匹配中文

 re.findall(r"[\u4e00-\u9fa5]", "沿charlie在charlie五前等待。charlie charlie五前等四川八八六四")
 # Return:['沿', '在', '五', '前', '等', '待', '五', '前', '等', '四', '川', '八', '八', '六', '四']

3.2 贪心匹配和非贪心匹配

贪心匹配：正则表达式在有二义的情况下，会尽可能匹配最长的字符串
Python的正则表达式默认是”贪心“的，这表示在有二义的情况下，会尽可能匹配最长的字符串。

re.search(r'(ha){3,5}','hahahahaha').group()
# Return:'hahahahaha'

非贪心匹配：匹配尽可能最短的字符串
使用方式:在有二义的正则表达式的后面跟一个问号

re.search(r'(ha){3,5}?','hahahahaha').group()
# Return:'hahaha'

python学习：正则表达式re模块的使用

1.常用常量

1.1 re.I（re.IGNORECASE）

1.2 re.S（re.DOTALL）

2.常用方法

2.1 re.match（pattern，string，flags = 0 ）

2.2 re.search（pattern，string，flags = 0 ）

2.3 re.compile（pattern，flags = 0 ）

2.4 re.fullmatch（pattern，string，flags = 0 ）

2.5 re.split（pattern，string，maxsplit = 0，flags = 0 ）

2.6 re.findall（pattern，string，flags = 0 ）

2.7 re.sub（pattern，repl，string，count = 0，flags = 0 ）

2.8 re.subn（pattern，repl，string，count = 0，flags = 0 ）

3. 其他补充

3.1 使用正则表达式匹配中文

3.2 贪心匹配和非贪心匹配

参考资料

评论 (0)