正则表达式是一种文本模式,包括普通字符(如字母和数字)和特殊字符(元字符),它使用单个字符来描述、匹配一系列的符合某个句法规则的字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
可打印字符 + 不可打印字符 不可打印字符:
\f 换页符\n 换行符\r 回车符\t 制表符\v 处置制表符(1) 匹配字符 . 匹配任意字符,除了换行符 \d 匹配任意数字,相当于[0-9] \s 匹配任意空白字符 \w 匹配数字字母下划线 [] 集合 [abc] [0-9] [a-z] [A-Z] [A-z] [0-9a-zA-Z] \xxx 查找以八进制数xxx规定的字符 \xdd 查找以十六进制数dd规定的字符 \uxxx 查找以十六进制xxx规定的Unicode字符
(2) 匹配位置 ^ 匹配字符串开始的位置 $ 匹配字符串结束的位置 \b 匹配一个单词的边界
(3) 限定字符(量词) * 匹配前面的字符、子表达式0次或多次 + 匹配前面的字符、子表达式1次或多次 ? 匹配前面的字符、子表达式0次或1次 {n} 匹配确定的n次 {n,} 最少匹配n次 {n,m} 最少匹配n次,最多匹配m次
(4) 特殊字符 | 或,表示分支 () 表示分组
(5) 反义字符 \W 匹配非数字字母下划线 \D 匹配非数字的字符 \S 匹配任意非空字符 [^X] 不在[]中的字符 \B 一个非单词的边界
贪婪:正则表达式默认为贪婪匹配,即尽可能的往后匹配,匹配更多的字符 懒惰:匹配数量限定词后面加?,尽可能匹配少的字符
万能的百度爸爸