Java正则表达式的用法(附带实例)
正则表达式通常用于判断语句中,用来检查某一字符串是否满足某一格式。
正则表达式是含有一些具有特殊意义字符的字符串,这些特殊字符称为正则表达式的元字符。例如,“\\d”表示数字 0~9 中的任何一个,“\d”就是元字符。
正则表达式中的元字符及其意义如下表所示:
在正则表达式中,“.”代表任何一个字符,因此在正则表达式中如果想使用普通意义的点字符“.”,必须使用转义字符“\”。
在正则表达式中,可以使用方括号括起若干个字符来表示一个元字符,该元字符可代表方括号中的任何一个字符。例如,reg = "[abc]4",这样字符串 a4、b4、c4 都是和正则表达式匹配的字符串。
方括号元字符还可以为其他格式,具体如下:
在正则表达式中允许使用限定修饰符来限定元字符出现的次数。例如,“A*”代表 A 可在字符串中出现 0 次或多次。
限定修饰符的用法如下表所示:
【实例】在项目中创建 Judge 类,使用正则表达式来判断“aaa@”“aaaaa”“1111@111ffyu.dfg.com”这 3 个 E-mail 地址哪一个是合法的。实例代码如下:
总结 E-mail 地址的这些特点,可以书写正则表达式“\\w+@\\w+(\\.\\w{2,3})*\\.\\w{2,3}”来匹配 E-mail 地址:
正则表达式是含有一些具有特殊意义字符的字符串,这些特殊字符称为正则表达式的元字符。例如,“\\d”表示数字 0~9 中的任何一个,“\d”就是元字符。
正则表达式中的元字符及其意义如下表所示:
元字符 | 正则表达式中的写法 | 意义 |
---|---|---|
. | . | 任意一个字符 |
\d | \d | 0~9 的任何一个数字 |
\D | \D | 任何一个非数字字符 |
\s | \s | 空白字符,如\t、\n |
\S | \S | 非空白字符 |
\w | \w | 可用于标识符的字符,但不包括“$” |
\W | \W | 不可用于标识符的字符 |
\p{Lower} | \p{Lower} | 小写字母 a~z |
\p{Upper} | \p{Upper} | 大写字母 A~Z |
\p{ASCII} | \p{ASCII} | ASCII 字符 |
\p{Alpha} | \p{Alpha} | 字母字符 |
\p{Digit} | \p{Digit} | 十进制数字,即 0~9 |
\p{Alnum} | \p{Alnum} | 数字或字母字符 |
\p{Punct} | \p{Punct} | 标点符号:!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ |
\p{Graph} | \p{Graph} | 可见字符:[\p{Alnum}\p{Punct}] |
\p{Print} | \p{Print} | 可输出的字符:[\p{Graph}\x20] |
\p{Blank} | \p{Blank} | 空格或制表符:\t |
\p{Ctrl} | \p{Ctrl} | 控制字符:[\x00-\x1F\x7F] |
在正则表达式中,“.”代表任何一个字符,因此在正则表达式中如果想使用普通意义的点字符“.”,必须使用转义字符“\”。
在正则表达式中,可以使用方括号括起若干个字符来表示一个元字符,该元字符可代表方括号中的任何一个字符。例如,reg = "[abc]4",这样字符串 a4、b4、c4 都是和正则表达式匹配的字符串。
方括号元字符还可以为其他格式,具体如下:
- [^456]:代表 4、5、6 之外的任何字符。
- [a-r]:代表 a~r 的任何一个字母。
- [a-zA-Z]:可表示任意一个英文字母。
- [a-e[g-z]]:代表 a~e 或 g~z 的任何一个字母(并运算)。
- [a-o&&[def]]:代表字母 d、e、f(交运算)。
- [a-d&&[^bc]]:代表字母 a、d(差运算)。
在正则表达式中允许使用限定修饰符来限定元字符出现的次数。例如,“A*”代表 A 可在字符串中出现 0 次或多次。
限定修饰符的用法如下表所示:
限定修饰符 | 意义 | 示例 | 限定修饰符 | 意义 | 示例 |
---|---|---|---|---|---|
? | 0 次或 1 次 | A? | {n} | 正好出现 n 次 | A{2} |
* | 0 次或多次 | A* | {n,} | 至少出现 n 次 | A{3,} |
+ | 一次或多次 | A+ | {n,m} | 出现 n~m 次 | A{2,6} |
【实例】在项目中创建 Judge 类,使用正则表达式来判断“aaa@”“aaaaa”“1111@111ffyu.dfg.com”这 3 个 E-mail 地址哪一个是合法的。实例代码如下:
public class Judge { public static void main(String[] args) { String regex = "\\w+@\\w+(\\.\\w{2,3})*\\.\\w{2,3}"; // 定义要匹配 E-mail 地址的正则表达式 String str1 = "aaa@"; // 定义要进行验证的字符串 String str2 = "aaaaa"; String str3 = "1111@1111ffyu.dfg.com"; // 判断字符串变量是否与正则表达式匹配 if (str1.matches(regex)) { System.out.println(str1 + "是一个合法的 E-mail 地址格式"); } if (str2.matches(regex)) { System.out.println(str2 + "是一个合法的 E-mail 地址格式"); } if (str3.matches(regex)) { System.out.println(str3 + "是一个合法的 E-mail 地址格式"); } } }运行结果为:
1111@1111ffyu.dfg.com是一个合法的 E-mail 地址格式
正则表达式分析:- 通常情况下,E-mail 的格式为“X@X.com.cn”。
- 字符 X 表示任意的一个或多个字符;
- @ 为 E-mail 地址中的特有符号,符号 @ 后还有一个或多个字符,之后是字符“.com”,也可能后面还有类似“.cn”的标记。
总结 E-mail 地址的这些特点,可以书写正则表达式“\\w+@\\w+(\\.\\w{2,3})*\\.\\w{2,3}”来匹配 E-mail 地址:
- 字符集“\\w”匹配任意字符;
- 符号“+”表示字符可以出现 1 次或多次;
- 表达式“(\\.\\w{2,3})*”表示形如“.com”格式的字符串可以出现 0 次或多次;
- 最后的表达式“\\.\\w{2,3}”用于匹配 E-mail 地址中的结尾字符,如“.cn”。