首页
隐私条例
友情链接
推荐
数据科学社区
pandas教程
github社区
logo设计
favicon社区
Search
1
AI科学空间
987 阅读
2
xgboost笔记
409 阅读
3
机器学习入门笔记
216 阅读
4
科研项目流程
158 阅读
5
pandas学习笔记
133 阅读
AI探索
AI学习
AI知识
论文研读
学术史
兴趣感悟
地理信息系统
地理学
遥感
数据科学
数据挖掘
大数据
计算机视觉
机器学习
数学
自然语言处理
编程语言
python
java
C++
scala
shell
SQL
Search
标签搜索
人工智能
概念
史诗
xgboost
数据科学
科研
论文
机器学习
梦想
正则表达式
numpy
Pandas
语言模型
BP网络
AI学习空间
累计撰写
13
篇文章
累计收到
9
条评论
首页
栏目
AI探索
AI学习
AI知识
论文研读
学术史
兴趣感悟
地理信息系统
地理学
遥感
数据科学
数据挖掘
大数据
计算机视觉
机器学习
数学
自然语言处理
编程语言
python
java
C++
scala
shell
SQL
页面
隐私条例
友情链接
推荐
数据科学社区
pandas教程
github社区
logo设计
favicon社区
搜索到
1
篇与
正则表达式
的结果
2021-11-25
python正则表达式
正则表达式正则表达式是一个特殊的字符序列,计算机科学的一个概念。通常被用来检索、替换那些符合某个模式(规则)的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用re模块。re 模块使 Python 语言拥有全部的正则表达式功能。特点:灵活性、逻辑性和功能性非常强;可以迅速地用极简单的方式达到字符串的复杂控制。对于刚接触的人来说,比较晦涩难懂。Python中的正则表达式与大多数编程语言相同,正则表达式里也使用\作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符\,那么使用编程语言表示的正则表达式里将需要4个反斜杠\:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。print(re.match('\\\\', '\hello')) # 需要使用四个反斜杠来匹配一个 \Python里的原生字符串很好地解决了这个问题,有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。在Python 字符串前面添加r即可将字符串转换成为原生字符串。print(re.match(r'\\', '\hello')) # 使用两个反斜杠即可匹配一个 \查找方法的使用在Python中的查找匹配方法,常见的有下面四种,他们的用法大致相同,但是匹配出的结果却不同。match方法(只匹配字符串开头)search方法(扫描整个字符串,找到第一个匹配)findall方法(扫描整个字符串,找到所有的匹配)finditer方法(扫描整个字符串, 找到所有的匹配, 并返回一个可迭代对象)match方法的使用re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。函数语法:re.match(pattern,string,flags=0)参数描述pattern匹配的正则表达式string要匹配的字符串。flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。我们可以使用group(num)函数来获取匹配表达式。import re result1 = re.match(r'H','Hello') result2 = re.match(r'e','Hello') print(result1.group(0)) # 'H' 匹配到的元素 print(result1.span()) # (0,1) 匹配到的元素所在位置 print(result2) # Nonesearch方法的使用re.search 扫描整个字符串并返回第一个成功的匹配。函数语法:re.search(pattern, string, flags=0)示例:import re result1 = re.search(r'He','Hello') result2 = re.search(r'lo','Hello') print(result1.group(0)) # He print(result1.span()) # (0,2) print(result2.group(0)) # lo print(result2.span()) # (3,5)re.match与re.search的区别re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。示例:result1 = re.search(r'天气','今天天气不错哟') result2 = re.match(r'天气','今天天气不错哟') print(result1) # <re.Match object; span=(2, 4), match='天气'> print(result2) # Nonefindall 方法的使用在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。注意: match 和 search 是匹配一次 findall 匹配所有。语法格式:re.findall(pattern,string,flags=0)示例代码:ret = re.findall(r'\d+','he23ll34') print(ret) # ['23', '34'] ret = re.match(r'\d+','he23ll34') print(ret) # None match只匹配开头,所以匹配到 ret = re.search(r'\d+','he23ll34') print(ret) # <re.Match object; span=(2, 4), match='23'> search 只能匹配到一个数字注意事项:findall方法匹配时,如果匹配规则里有分组,则只匹配分组数据。ret = re.findall(r'\w+@(qq|126|163)\.com','123@qq.com;aa@163.com;bb@126.com') print(ret) # ['qq', '163', '126'] 只匹配到了分组里的内容如果正则表达式里存在多个分组,则会把多个分组匹配成元组。ret = re.findall(r'\w+@(qq|126|163)(\.com)','123@qq.com;aa@163.com;bb@126.com') print(ret) #[('qq', '.com'), ('163', '.com'), ('126', '.com')]如果想要让findall匹配所有的内容,而不仅仅只是匹配正则表达式里的分组,可以使用 ?:来将分组标记为非捕获分组。ret = re.findall(r'\w+@(?:qq|126|163)\.com','123@qq.com;aa@163.com;bb@126.com') print(ret) # ['123@qq.com', 'aa@163.com', 'bb@126.com']finditer方法的使用和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。ret = re.finditer(r'\d+','he23ll34') # 得到的结果是一个可迭代对象 for x in ret: # 遍历 ret 取出里面的每一项匹配 print(x.group(), x.span()) # 匹配对象里的group保存了匹配的结果re.Match类介绍当我们调用re.match方法、re.search方法,或者对re.finditer方法的结果进行迭代时,拿到的数据类型都是re.Match对象。x = re.match(r'h','hello') y = re.search(r'e','hello') z = re.finditer(r'l','hello') print(type(x)) # <class 're.Match'> print(type(y)) # <class 're.Match'> for a in z: print(type(a)) # <class 're.Match'>这个类里定义了相关的属性,可以直接让我们来使用。属性和方法说 明pos搜索的开始位置endpos搜索的结束位置string搜索的字符串re当前使用的正则表达式的对象lastindex最后匹配的组索引lastgroup最后匹配的组名group([index=0])某个分组的匹配结果。如果index等于0,便是匹配整个正则表达式groups()所有分组的匹配结果,每个分组的结果组成一个列表返回groupdict()返回组名作为key,每个分组的匹配结果座位value的字典start([group])获取组的开始位置end([group])获取组的结束位置span([group])获取组的开始和结束位置expand([template])使用组的匹配结果来替换模板template中的内容,并把替换后的字符串返回ret = re.search(r'(abc)+', 'xxxabcabcabcdef') print(ret.pos) # 搜索开始的位置,默认是0 print(ret.endpos) # 搜索结束的位置,默认是字符串的长度 print(ret.group(0)) # abcabcabc 匹配整个表达式 print(ret.group(1)) # abc 第一次匹配到的结果 print(ret.span()) # (3, 12) 开始和结束位置 print(ret.groups()) # 表示当正则表达式里有多个分组时,多个分组的匹配结果re.compile方法的使用我们在使用正则表达式时,可以直接调用re 模块的 match,search,findall等方法,传入指定的正则表达式。同时,也可以调用re.compile方法,生成一个正则表达式对象,再调用这个正则表达式对象的相关方法实现匹配。示例:re.match(r'h','hello') # 可以使用re.match方法直接匹配 # 也可以调用re模块的compile方法,生成一个 Pattern 对象,再调用 Pattern 对象的 match方法 regex = re.compile(r'h') regex.match('hello') re.search(r'l','hello') regex = re.compile(r'l') regex.match('hello') regex = re.compile(r'l') regex.findall('hello') regex = re.complie(r'l') regex.finditer('hello')正则表达式修饰符修饰符描述re.I使匹配对大小写不敏感re.M多行匹配,影响 ^ 和 $re.S使 . 匹配包括换行在内的所有字符示例:print(re.search(r'L','hello')) # None print(re.search(r'L', 'hello', re.I)) # 不区分大小写<re.Match object; span=(2, 3), match='l'> # \w+$ 表示匹配以一个或者多个字母结尾 # re.M 可以进行多行匹配,每个换行都认为是一个结尾 print(re.findall(r'\w+$','i am boy\n you are girl\n he is man',re.M)) # ['boy', 'girl', 'man'] # 不实用re.M修饰符,只会匹配到最后的 man print(re.findall(r'\w+$','i am boy\n you are girl\n he is man')) # ['man'] print(re.search(r'.','\n')) # None . 匹配除了 \n 以外的所有字符 print(re.search(r'.','\n',re.S)) # '\n' 匹配到了 \n正则表达式模式模式字符串使用特殊的语法来表示一个正则表达式:字母和数字表示他们自身,一个正则表达式模式中的字母和数字匹配同样的字符串。re.search(r'H','Hello') # 这里的 H 表示的就是字母 H 自身,代表有特殊含义多数字母和数字前加一个反斜杠时会拥有不同的含义。ret = re.search(r'\d','he12ms90') # 这里的 \d 表示的是匹配数字标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。ret = re.search(r'.','hello') # 这里的 . 表示的是匹配任意字符 ret = re.search(r'\.','he.llo') # 这里的 \. 进行了转义,才表示标点符号自身。反斜杠本身需要使用反斜杠转义。由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r't',等价于\\t )匹配相应的特殊字符。下表列出了正则表达式模式语法中的特殊元素,如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。非打印字符非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:字符描述cx匹配由x指明的控制字符。例如, cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。f匹配一个换页符。等价于 x0c 和 cL。n匹配一个换行符。等价于 x0a 和 cJ。r匹配一个回车符。等价于 x0d 和 cM。s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [\f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。t匹配一个制表符。等价于 x09 和 cI。v匹配一个垂直制表符。等价于 x0b 和 cK。特殊字符所谓特殊字符,就是一些有特殊含义的字符。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符\ 放在它们前面。下表列出了正则表达式中的特殊字符:特殊字符描述( )标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。.匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \. 。[标记一个中括号表达式的开始。要匹配 [,请使用 \[。\将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'n' 匹配换行符, \\ 匹配 \,而 \( 则匹配 ( 。{标记限定符表达式的开始。要匹配 {,请使用 \{。\指明两项之间的一个选择。要匹配 \,请使用 \。d匹配一个数字字符。等价于 [0-9]。[0-9]匹配任何数字。等价于 \dD匹配一个非数字字符。等价于 [^0-9]。[a-z]匹配任何小写字母[A-Z]匹配任何大写字母[a-zA-Z0-9]匹配任何字母及数字。等价于\ww匹配包括下划线的任何单词字符。等价于[A-Za-z0-9_]。W匹配任何非单词字符。等价于 [^A-Za-z0-9_]。[\u4e00-\u9fa5]匹配纯中文定位符定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。定位符用来描述字符串或单词的边界,^ 和 $ 分别指字符串的开始与结束,b 描述单词的前或后边界,B 表示非单词边界。正则表达式的定位符有:特殊字符描述^匹配输入字符串的开始位置,例如:^h匹配以h开头;在方括号表达式中时,它表示不接受该字符集合,例如[^0-9]匹配除了数字以外的数据。要匹配 ^ 字符本身,请使用 ^。$匹配输入字符串的结尾位置。要匹配 $ 字符本身,请使用 \$。b匹配一个单词边界,即字与空格间的位置。B非单词边界匹配。限定符限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。正则表达式的限定符有:字符描述*匹配前面的子表达式零次或多次。例如,zo 能匹配 "z" 以及 "zoo"。 等价于{0,}。+匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。?匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。{n}n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。{n,}n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。{n,m}m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。示例:re.search(r'\s','大家好 我是 代码') # 匹配所有的空字符 re.search(r'\S','大家') # 匹配所有的非空字符 re.search(r'\n','大家好\n我是代码') # 匹配换行 re.search(r'n$','hello python') # 匹配以 n 结尾 re.search(r'^h.+n$','hello python') # 匹配以 h 开头,中间出现一次或多次任意字符,并且以n结尾 re.search(r'^ha*','h') # 匹配以 h 开头,a出现0次或者一次练习:用户名匹配:由数字、大小写字母、下划线_和中横线-组成,长度为4到14位,并且不能以数字开头。r'^\D[a-z0-9A-Z_\-]{3,13}', 'sH_8'匹配邮箱r'^([A-Za-z0-9_\-\.])+@([A-Za-z0-9_\-\.])+\.([A-Za-z]{2,4})$匹配手机号r'^((13[0-9])|(14[5|7])|(15([0-3]|[5-9]))|(18[0,5-9]))\d{8}$'匹配身份证号。r'^[1-9]\d{5}(18|19|20|)\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$'匹配URL地址r'((ht|f)tps?):\/\/([\w\-]+(\.[\w\-]+)*\/)*[\w\-]+(\.[\w\-]+)*\/?(\?([\w\-\.,@?^=%&:\/~\+#]*)+)?'匹配QQ号r'^[1-9][0-9]{4,10}$'匹配微信号r'^[a-zA-Z]([-_a-zA-Z0-9]{5,19})+$'匹配车牌号r'^[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z]{1}[A-Z]{1}[A-Z0-9]{4}[A-Z0-9贪婪和非贪婪模式Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪则相反,总是尝试匹配尽可能少的字符。在*,?,+,{m,n}后面加上 ?使贪婪变成非贪婪。>>> s="This is a number 234-235-22-423" >>> r=re.match(".+(\d+-\d+-\d+-\d+)",s) >>> r.group(1) '4-235-22-423' >>> r=re.match(".+?(\d+-\d+-\d+-\d+)",s) >>> r.group(1) '234-235-22-423' >>>正则表达式模式中使用到通配字,那它在从左到右的顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面,“.+”会从字符串的启始处抓取满足模式的最长字符,其中包括我们想得到的第一个整型字段的中的大部分,“d+”只需一位字符就可以匹配,所以它匹配了数字“4”,而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。>>> re.match(r"aa(\d+)","aa2343ddd").group(1) '2343' >>> re.match(r"aa(\d+?)","aa2343ddd").group(1) '2' >>> re.match(r"aa(\d+)ddd","aa2343ddd").group(1) '2343' >>> re.match(r"aa(\d+?)ddd","aa2343ddd").group(1) '2343' >>>练习:字符串为:<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;">请提取url地址参考答案re.search(r"https://.*?\.jpg", test_str)
2021年11月25日
76 阅读
0 评论
0 点赞