正则表达式学习笔记
什么是正则表达式?
正则表达式是一种特殊的文本模式,它用来匹配和搜索文本中的模式。在计算机科学中,正则表达式通常被用来进行文本搜索和文本替换操作,例如在程序中查找或替换特定的字符串。
正则表达式具有很强的灵活性,可以用于处理不同的文本数据,包括数字、字母、标点符号、空格等等。它可以匹配不同的字符串,包括单个字符、字符串的开头或结尾、一组字符、一组字符中的任意字符等等。
正则表达式的基础语法
正则表达式由字符和元字符组成。其中,字符是指匹配文本中的普通字符,例如数字、字母、标点符号等等;元字符是指具有特殊含义的字符,用于定义匹配规则。
下面是一些常见的元字符:
元字符 | 描述 |
---|---|
. | 匹配除了换行符以外的任意字符 |
\d | 匹配任意数字 |
\w | 匹配任意字母、数字和下划线 |
\s | 匹配任意空格字符 |
^ | 匹配字符串的开头 |
$ | 匹配字符串的结尾 |
* | 匹配前面的字符零次或多次 |
+ | 匹配前面的字符一次或多次 |
? | 匹配前面的字符零次或一次 |
{n} | 匹配前面的字符恰好 n 次 |
{n,m} | 匹配前面的字符至少 n 次,至多 m 次 |
[…] | 匹配一组字符中的任意一个字符 |
[^…] | 匹配不在一组字符中的任意一个字符 |
(…) | 分组,用于捕获匹配的子字符串 |
下面是一些实例:
正则表达式 | 描述 |
---|---|
\d{3} | 匹配任意三位数字 |
\w+ | 匹配任意一个或多个字母、数字和下划线 |
\s* | 匹配任意零个或多个空格字符 |
^\w | 匹配以字母或下划线开头的字符串 |
\d$ | 匹配以数字结尾的字符串 |
[aeiou] | 匹配任意一个元音字母 |
[^aeiou] | 匹配任意一个非元音字母 |
(ab)+ | 匹配一个或多个连续的 “ab” 字符串 |
正则表达式的应用场景
正则表达式可以用于处理各种不同类型的文本数据,例如邮箱地址、电话号码、URL地址、IP地址等等。下面是一些常见的应用场景:
1. 邮箱地址的匹配
邮箱地址通常由用户名和域名两部分组成,其中用户名由字母、数字和下划线组成,域名由一组或多组由点号分隔的字母和数字组成。使用正则表达式可以方便地匹配和验证邮箱地址的格式是否正确。
下面是一个匹配邮箱地址的正则表达式:
^\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,3}$
其中,^ 表示匹配字符串的开头,\w+ 表示匹配一个或多个字母、数字和下划线作为用户名,@ 表示匹配 @ 符号,[a-zA-Z_]+? 表示匹配一个或多个字母和下划线作为域名的第一部分,. 表示匹配点号,[a-zA-Z]{2,3} 表示匹配两个或三个字母作为域名的第二部分和第三部分。
2. 电话号码的匹配
电话号码的格式通常有很多种,例如国内的固定电话号码和手机号码,以及国际电话号码等等。使用正则表达式可以方便地匹配和验证不同类型的电话号码的格式是否正确。
下面是一个匹配国内手机号码的正则表达式:
^1[3-9]\d{9}$
其中,^ 表示匹配字符串的开头,1 表示匹配数字 1,[3-9] 表示匹配数字 3 到 9 中的任意一个数字,\d{9} 表示匹配任意九个数字作为手机号码,$ 表示匹配字符串的结尾。
3. URL地址的匹配
URL地址是指网站的地址,通常由协议名、域名、端口号和路径等部分组成。使用正则表达式可以方便地匹配和解析不同类型的URL地址。
下面是一个匹配 HTTP 或 HTTPS 协议的URL地址的正则表达式:
^(https?://)?[a-zA-Z0-9\-]+\.[a-zA-Z]{2,}(:\d+)?(/[\w\-]*)*$
其中,^(https?://)? 表示匹配 http 或 https 协议,[a-zA-Z0-9-]+ 表示匹配一个或多个字母、数字和横杠作为域名,.[a-zA-Z]{2,} 表示匹配一个点号和两个或三个字母作为顶级域名和次级域名,(:\d+)? 表示匹配一个冒号和一个或多个数字作为端口号,(/[\w-]) 表示匹配一个或多个由斜杠、字母、数字和横杠组成的路径部分,* 表示路径部分可以出现零次或多次。
4. IP地址的匹配
IP地址是指网络设备的地址,通常由四个以点号分隔的数字组成,每个数字的范围是从 0 到 255。使用正则表达式可以方便地匹配和验证IP地址的格式是否正确。
下面是一个匹配 IPv4 地址的正则表达式:
^(25[0-5]|2[0-4]\d|[0-1]?\d{1,2})\.(25[0-5]|2[0-4]\d|[0-1]?\d{1,2})\.(25[0-5]|2[0-4]\d|[0-1]?\d{1,2})\.(25[0-5]|2[0-4]\d|[0-1]?\d{1,2})$
其中,^ 表示匹配字符串的开头,$ 表示匹配字符串的结尾,(25[0-5]|2[0-4]\d|[0-1]?\d{1,2}) 表示匹配从 0 到 255 范围内的数字,[0-1]?\d{1,2} 表示匹配从 0 到 199 范围内的数字。
5. HTML标签的匹配
HTML标签是指在网页上显示的元素,例如标题、段落、图片、链接等等。使用正则表达式可以方便地匹配和解析HTML标签的内容。
下面是一个匹配HTML标签的正则表达式:
<(\w+)(\s+(\w+)\s*=\s*("[^"]*"|'[^']*'|[^'">\s]+))*\s*/?>
其中,< 表示匹配左尖括号,\w+ 表示匹配一个或多个字母、数字和下划线作为标签名,(\s+(\w+)\s*=\s*(“[^”]“|’[^’]*’|[^’”>\s]+)) 表示匹配零个或多个属性,\s* 表示匹配零个或多个空白字符,”[^”]“|’[^’]‘|[^’”>\s]+ 表示匹配双引号、单引号或无引号的属性值,\s*/? 表示匹配可选的结束标记。
正则表达式的语法规则
正则表达式的语法规则比较复杂,但是只要掌握了一些基本的概念,就可以很容易地理解和编写正则表达式。下面是一些常用的语法规则:
1. 字符组和字符集合
字符组是指一组字符的集合,用方括号 [] 括起来表示,例如 [abc] 表示匹配 a、b 或 c 中的任意一个字符。字符组中的字符可以使用连字符 - 表示一个范围,例如 [a-z] 表示匹配任意小写字母,[0-9] 表示匹配任意数字。
字符集合是指一组字符的集合,用 \ 转义字符加上一个特定的字符表示,例如 \d 表示匹配任意数字,\w 表示匹配任意字母、数字和下划线,\s 表示匹配任意空白字符。
2. 量词
量词是指一个或多个字符的重复出现次数,用在字符或字符组后面,例如 a* 表示匹配零个或多个字符 a,a+ 表示匹配一个或多个字符 a,a? 表示匹配零个或一个字符 a,a{m,n} 表示匹配 m 到 n 个字符 a。
3. 贪婪和非贪婪匹配
贪婪匹配是指在可能的情况下尽可能多地匹配字符,例如 .* 表示匹配任意字符,包括换行符,直到遇到下一个匹配项。
非贪婪匹配是指在可能的情况下尽可能少地匹配字符,例如 .*? 表示匹配任意字符,包括换行符,直到下一个匹配项为止。
正则表达式的实例
下面是一些常用的正则表达式实例:
正则表达式 | 匹配字符串 |
---|---|
\d{3}-\d{4}-\d{4} | 匹配电话号码,例如 189-1111-1111 |
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,} | 匹配电子邮件地址,例如 user@example.com |
^(http | https)://[a-zA-Z0-9./?%&=:_-]+$ |
^[a-zA-Z0-9_]{5,15}$ | 匹配用户名,例如 user_123 |
^\d{6}$ | 匹配中国邮政编码,例如 123456 |
^\d{5}(-\d{4})?$ | 匹配美国邮政编码,例如 12345 或 12345-6789 |
^[0-9a-fA-F]{2}(:[0-9a-fA-F]{2}){5}$ | 匹配 MAC 地址,例如 00:11:22:33:44:55 |
总结
正则表达式是一种强大的文本匹配工具,它可以方便地匹配和解析各种文本格式,例如电子邮件地址、电话号码、URL 地址、HTML 标签等等。在编写正则表达式时,需要注意正则表达式的语法规则和量词的使用方式,以及贪婪匹配和非贪婪匹配的区别。同时,还需要根据具体的需求来选择合适的字符集合和量词,以达到最佳的匹配效果。
除了在编程中使用正则表达式,许多文本编辑器和IDE也支持使用正则表达式进行搜索和替换。因此,掌握正则表达式对于开发者和文本编辑工作者来说是非常重要的技能之一。
参考资料:
以上是本篇正则表达式学习笔记的内容,希望对你学习和使用正则表达式有所帮助。