【oracle】正则表达式

249 7个月前

文章目录

- - 1.介绍
  - - 1.1 什么是正则表达式
    - 1.2 什么是Oracle正则表达式
  - 2. Oracle正则表达式的基础知识
  - - 2.1 常用的元字符
    - 2.2 常用的转义序列
    - 2.3 常用的量词
  - 3. Oracle正则表达式的函数
  - - 3.1 REGEXP_LIKE
    - 3.2 REGEXP_SUBSTR
    - 3.3 REGEXP_REPLACE
    - 3.4 REGEXP_INSTR
    - 3.5 REGEXP_COUNT
  - 4. Oracle正则表达式的应用实例
  - - 4.1 使用REGEXP_LIKE进行模式匹配
    - 4.2 使用REGEXP_SUBSTR提取匹配的子串
    - 4.3 使用REGEXP_REPLACE替换匹配的子串
    - 4.4 使用REGEXP_INSTR找到匹配的位置
    - 4.5 使用REGEXP_COUNT计算匹配的次数
  - 5. Oracle正则表达式的性能优化
  - - 5.1 正确使用元字符和量词
    - 5.2 使用预编译的正则表达式
    - 5.3 选择合适的正则表达式函数
  - 6. Oracle正则表达式的注意事项
  - - 6.1 正则表达式的特殊字符处理
    - 6.2 正则表达式的贪婪匹配和懒惰匹配
  - 7. 实战案例
  - - 提取字符串中的年份
    - 验证密码复杂性
    - 提取URL的协议、主机和路径
    - 验证IP地址
    - 提取字符串中的邮件地址
    - 替换HTML标签
    - 提取字符串中的电话号码
    - 匹配信用卡号
    - 提取字符串中的URL
    - 匹配社会安全号码

1.介绍

1.1 什么是正则表达式

正则表达式（Regular Expression），是一种用于处理字符串的强大工具。它主要用于两个方面：

模式匹配：检查一个字符串是否包含某种特定的模式。例如，我们可以使用正则表达式来检查一个字符串是否包含特定的单词或者是否符合特定的格式（如邮件地址、电话号码等）。
字符串操作：基于特定的模式来分割、替换或者提取字符串。例如，我们可以使用正则表达式来替换字符串中的某个单词，或者提取出字符串中符合特定格式的部分。

正则表达式的核心是一套定义模式的语法规则，通过这套规则，我们可以构造出各种复杂的模式。这套语法规则包括了一些特殊的元字符（如.、*、+等）、转义序列（如\d、\w等）和量词（如*、+、?等）。

1.2 什么是Oracle正则表达式

Oracle正则表达式是Oracle数据库对正则表达式功能的实现。Oracle数据库提供了一组正则表达式函数，这些函数可以在SQL语句中使用，以便在处理字符串数据时使用正则表达式。

这些函数包括：

REGEXP_LIKE：检查一个字符串是否匹配一个正则表达式模式。
REGEXP_SUBSTR：从一个字符串中提取匹配一个正则表达式模式的子串。
REGEXP_REPLACE：替换一个字符串中匹配一个正则表达式模式的部分。
REGEXP_INSTR：返回一个字符串中匹配一个正则表达式模式的部分的位置。
REGEXP_COUNT：计算一个字符串中匹配一个正则表达式模式的部分的数量。

Oracle正则表达式的语法规则和通用的正则表达式大致相同，但也有一些Oracle特有的规则和特性。

2. Oracle正则表达式的基础知识

2.1 常用的元字符

元字符是正则表达式中具有特殊含义的字符。以下是一些常用的元字符：

.：匹配任何单个字符（除了换行符）。
^：匹配输入字符串的开始位置。
$：匹配输入字符串的结束位置。
*：匹配前面的子表达式零次或多次。
+：匹配前面的子表达式一次或多次。
?：匹配前面的子表达式零次或一次。
[...]：定义一个字符集，匹配其中任何一个字符。
[^...]：定义一个反向字符集，匹配不在其中的任何一个字符。
{n}：精确匹配n次。
{n,}：匹配n次或更多次。
{n,m}：匹配至少n次，但不超过m次。

2.2 常用的转义序列

转义序列是一种特殊的字符序列，用于匹配一类特定的字符。以下是一些常用的转义序列：

\d：匹配一个数字字符。等价于[0-9]。
\D：匹配一个非数字字符。等价于[^0-9]。
\w：匹配一个单词字符（字母、数字或下划线）。等价于[A-Za-z0-9_]。
\W：匹配一个非单词字符。等价于[^A-Za-z0-9_]。
\s：匹配一个空白字符（包括空格、制表符、换页符、换行符等）。
\S：匹配一个非空白字符。

2.3 常用的量词

量词用于指定一个字符或一组字符可以出现的次数。以下是一些常用的量词：

*：匹配前面的字符或组零次或多次。
+：匹配前面的字符或组一次或多次。
?：匹配前面的字符或组零次或一次。
{n}：匹配前面的字符或组n次。
{n,}：匹配前面的字符或组n次或更多次。
{n,m}：匹配前面的字符或组至少n次，但不超过m次。

注意，Oracle正则表达式默认是贪婪匹配，也就是说，会尽可能多地匹配字符。如果要进行最小匹配（也称为懒惰匹配或非贪婪匹配），可以在量词后面添加?，如*?、+?、??、{n,m}?等。

3. Oracle正则表达式的函数

Oracle提供了一系列的正则表达式函数，这些函数可以用于在SQL语句中进行复杂的字符串处理。以下是这些函数的详细介绍：

3.1 REGEXP_LIKE

REGEXP_LIKE函数用于检查一个字符串是否匹配一个正则表达式模式。如果匹配，函数返回TRUE，否则返回FALSE。

语法：

REGEXP_LIKE(source_string, pattern [, match_parameter])

source_string：源字符串，即需要进行匹配的字符串。
pattern：正则表达式模式。
match_parameter：匹配参数，用于指定匹配的模式。例如，'i'表示忽略大小写，'c'表示区分大小写，'n'表示允许使用.匹配换行符，'m'表示多行模式，'x'表示忽略空白字符和#之后的字符。

3.2 REGEXP_SUBSTR

REGEXP_SUBSTR函数用于从一个字符串中提取匹配一个正则表达式模式的子串。

语法：

REGEXP_SUBSTR(source_string, pattern [, position [, occurrence [, match_parameter [, sub_expression]]]])

source_string：源字符串。
pattern：正则表达式模式。
position：开始搜索的位置，如果省略，默认为1。
occurrence：匹配的次数，如果省略，默认为1。
match_parameter：匹配参数，同REGEXP_LIKE。
sub_expression：子表达式的位置，用于提取括号中的子表达式。

3.3 REGEXP_REPLACE

REGEXP_REPLACE函数用于替换一个字符串中匹配一个正则表达式模式的部分。

语法：

REGEXP_REPLACE(source_string, pattern, replace_string [, position [, occurrence [, match_parameter]]])

source_string：源字符串。
pattern：正则表达式模式。
replace_string：替换字符串。
position：开始搜索的位置，如果省略，默认为1。
occurrence：匹配的次数，如果省略，默认为所有匹配的部分。
match_parameter：匹配参数，同REGEXP_LIKE。

3.4 REGEXP_INSTR

REGEXP_INSTR函数返回一个字符串中匹配一个正则表达式模式的部分的位置。

语法：

REGEXP_INSTR(source_string, pattern [, position [, occurrence [, return_option [, match_parameter [, sub_expression]]]]])

source_string：源字符串。
pattern：正则表达式模式。
position：开始搜索的位置，如果省略，默认为1。
occurrence：匹配的次数，如果省略，默认为1。
return_option：返回选项，如果为0，返回匹配的开始位置，如果为1，返回匹配的结束位置，如果省略，默认为0。
match_parameter：匹配参数，同REGEXP_LIKE。
sub_expression：子表达式的位置，用于提取括号中的子表达式。

3.5 REGEXP_COUNT

REGEXP_COUNT函数计算一个字符串中匹配一个正则表达式模式的部分的数量。

语法：

REGEXP_COUNT(source_string, pattern [, position [, match_parameter]])

source_string：源字符串。
pattern：正则表达式模式。
position：开始搜索的位置，如果省略，默认为1。
match_parameter：匹配参数，同REGEXP_LIKE。

4. Oracle正则表达式的应用实例

以下是一些使用Oracle正则表达式函数的应用实例：

4.1 使用REGEXP_LIKE进行模式匹配

假设我们有一个员工表EMPLOYEES，我们想找出所有名字以字母"A"开头的员工：

SELECT first_name FROM employees WHERE REGEXP_LIKE(first_name,'^A');

4.2 使用REGEXP_SUBSTR提取匹配的子串

假设我们有一个字符串，我们想提取其中的数字：

SELECT REGEXP_SUBSTR('123 Main Street','\d+')AS extracted_number FROM dual;

这将返回’123’，这是字符串中的第一个数字序列。

4.3 使用REGEXP_REPLACE替换匹配的子串

假设我们有一个字符串，我们想将其中的所有数字替换为’X’：

SELECT REGEXP_REPLACE('123 Main Street','\d','X')AS replaced_string FROM dual;

这将返回’XXX Main Street’。

4.4 使用REGEXP_INSTR找到匹配的位置

假设我们有一个字符串，我们想找到第一个数字的位置：

SELECT REGEXP_INSTR('123 Main Street','\d')AS position FROM dual;

这将返回1，因为第一个数字在字符串的第一个位置。

4.5 使用REGEXP_COUNT计算匹配的次数

假设我们有一个字符串，我们想计算其中的数字的数量：

SELECT REGEXP_COUNT('123 Main Street','\d')AS count FROM dual;

这将返回3，因为字符串中有3个数字。

5. Oracle正则表达式的性能优化

使用正则表达式时，性能是一个重要的考虑因素。以下是一些优化Oracle正则表达式性能的建议：

5.1 正确使用元字符和量词

元字符和量词的使用可以大大影响正则表达式的性能。例如，贪婪量词（如*和+）可能会导致大量的回溯，从而降低性能。如果可能，使用非贪婪量词（如*?和+?），或者使用更具体的模式来减少匹配的可能性。

5.2 使用预编译的正则表达式

预编译的正则表达式可以提高性能，因为它们只需要编译一次，然后可以被多次使用。在Oracle中，可以使用DBMS_SQL包中的REGEXP_LIKE函数来预编译正则表达式。

5.3 选择合适的正则表达式函数

Oracle提供了多种正则表达式函数，每种函数都有其特定的用途。选择最适合你需要的函数可以提高性能。例如，如果你只需要检查一个字符串是否匹配一个模式，而不需要提取或替换匹配的部分，那么REGEXP_LIKE可能是最好的选择。如果你需要提取匹配的部分，那么REGEXP_SUBSTR可能是最好的选择。如果你需要替换匹配的部分，那么REGEXP_REPLACE可能是最好的选择。

此外，如果你的查询涉及到大量的数据，考虑在可能的情况下，使用正则表达式的索引，这可以大大提高查询性能。

6. Oracle正则表达式的注意事项

在使用Oracle正则表达式时，有一些重要的注意事项需要考虑：

6.1 正则表达式的特殊字符处理

正则表达式中的一些字符具有特殊的含义，例如*, +, ?, ., ^, $, |, (), [], {}, \等。如果你想在正则表达式中使用这些字符的字面值，你需要使用\进行转义。例如，如果你想匹配字符串10.00，你需要写成10\.00，否则.将匹配任何字符。

6.2 正则表达式的贪婪匹配和懒惰匹配

正则表达式中的量词默认是贪婪的，这意味着它们会尽可能多地匹配字符。例如，正则表达式a.*b将匹配从第一个a到最后一个b之间的所有字符。

如果你想进行懒惰匹配（即尽可能少地匹配字符），你可以使用?来修改量词。例如，正则表达式a.*?b将匹配从第一个a到第一个b之间的所有字符。

在使用贪婪匹配和懒惰匹配时，需要注意可能的性能影响。贪婪匹配可能会导致大量的回溯，从而降低性能。如果可能，尽量使用更具体的模式来减少匹配的可能性。

7. 实战案例

提取字符串中的年份

如果你想从一个包含日期的字符串中提取年份，你可以使用REGEXP_SUBSTR函数。例如：
SELECT REGEXP_SUBSTR('The event will happen on 2024-10-29.','(\d{4})')ASyearFROM dual;
这将返回2024。

验证密码复杂性

可以使用REGEXP_LIKE函数来验证密码是否包含至少一个大写字母，一个小写字母，一个数字和一个特殊字符。例如：
SELECT password FROM users WHERE REGEXP_LIKE(password,'(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[\W_])');

提取URL的协议、主机和路径

可以使用REGEXP_SUBSTR函数来提取URL的协议、主机和路径。例如：
SELECT REGEXP_SUBSTR('https://www.example.com/page','(https?|ftp)://')AS protocol, REGEXP_SUBSTR('https://www.example.com/page','(https?|ftp)://([^/]+)/')AS host, REGEXP_SUBSTR('https://www.example.com/page','(https?|ftp)://[^/]+(/.+)')AS path FROM dual;
这将返回https://，www.example.com和/page。

验证IP地址

可以使用REGEXP_LIKE函数来验证IP地址。例如：
SELECT ip FROM ips WHERE REGEXP_LIKE(ip,'^((25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$');

提取字符串中的邮件地址

可以使用REGEXP_SUBSTR函数来提取字符串中的邮件地址。例如：
SELECT REGEXP_SUBSTR('My email is john.doe@example.com.','([A-Za-z0-9._%-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4})')AS email FROM dual;
这将返回john.doe@example.com。

替换HTML标签

可以使用REGEXP_REPLACE函数来替换HTML标签。例如：
SELECT REGEXP_REPLACE('<p>Hello World</p>','<[^>]+>','')FROM dual;
这将返回Hello World。

提取字符串中的电话号码

可以使用REGEXP_SUBSTR函数来提取字符串中的电话号码。例如：
SELECT REGEXP_SUBSTR('My phone number is (123) 456-7890.','$(\d{3})$\s*(\d{3})-(\d{4})')AS phone FROM dual;
这将返回(123) 456-7890。

匹配信用卡号

可以使用REGEXP_LIKE函数来匹配信用卡号。例如：
SELECT card FROM cards WHERE REGEXP_LIKE(card,'^(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|6(?:011|5[0-9][0-9])[0-9]{12}|3[47][0-9]{13}|3(?:0[0-5]|[68][0-9])[0-9]{11}|(?:2131|1800|35\d{3})\d{11})$');

提取字符串中的URL

可以使用REGEXP_SUBSTR函数来提取字符串中的URL。例如：
SELECT REGEXP_SUBSTR('Check out https://www.example.com.','(https?|ftp)://[^\s/$.?#].[^\s]*')AS url FROM dual;
这将返回https://www.example.com。