题解 | #正则表达式匹配#

正则表达式匹配

http://www.nowcoder.com/practice/28970c15befb4ff3a264189087b99ad4

算法思想一：递归

解题思路：

每次从字符串里取出一个字符与模式中的字符匹配，如果模式中的字符是‘.’，它可以匹配字符串中的任意字符，如果不是，那么如果它与字符串中的字符相等则匹配。当字符串的字符和模式的字符匹配时，接着匹配后面的字符。
下面，考虑模式中的第二个字符是不是‘*’。如果不是，则可以分为两种情况：

1、如果字符串中的第一个字符和模式中的第一个字符相匹配，那么字符串和模式都后移一个字符，然后匹配剩余的字符串和模式；
2、如果字符串中的第一个字符和模式中的第一个字符不匹配，则直接返回false。
当模式中的第二个字符是‘*’时，又可以分为两种情况方式：
1、如果pattern中的第一个字符和str中的第一个字符不匹配，则将pattern后移两个字符，相当于忽略‘*’和它前面的字符，因为‘*’可以匹配字符串中的0个字符；
2、如果pattern中的第一个字符和str中的第一个字符匹配，则str后移一个字符，而在模式上又有两种选择：
2.1、pattern后移两个字符（例如字符串"ab"和模式"a*ab"匹配到str[0]和pattern[0]时，pattern后移两个字符，字符串后移一个字符）
2.2、pattern保持不变（例如字符串"aabbba"和模式"aab*a"匹配到str[2]和pattern[2]时，pattern保持不变，字符串后移一个字符）

代码展示：

Python版本

class Solution:
    def match(self , str , pattern ):
        # write code here
        # s和p都为空，两个空串一定匹配；
        if str == "" and pattern == "":
            return True
        # p为空，一定不匹配；
        elif str != "" and pattern == "":
            return False
        # s为空，就要检查p了，如果p是a*b*c*形式的，则p可以转化成空串；
        elif str == "" and pattern != "":
            # 如果p长度大于2，并且p[1]是个*，才能符合上面可以变成空串的形式；
            if len(pattern) >= 2 and pattern[1] == '*':
                # 继续递归检查p[2:]后面的是否符合；
                return self.match(str, pattern[2:])
            else:
                return False
        
        if len(pattern) >=2 and pattern[1] == '*':
            # 第一个元素匹配成功，有三种继续进行的选择，都要尝试一下；
            if str[0] == pattern[0]&nbs***bsp;pattern[0] == '.':
                # 第一种是为了防止 s="bbba", p=".*a"这种情况，这个我们一看就是匹配的；
                # 但是它有可能一个".*"就把"bbba"都匹配掉了，p剩下个"a"，会认为匹配失败。
                # 第二种是匹配成功，并且s、p都移动；
                # 第三种是，s移动，p的*留着。
                return self.match(str, pattern[2:])&nbs***bsp;self.match(str[1:], pattern[2:])&nbs***bsp;self.match(str[1:], pattern)
            # 如果第一个元素匹配失败，p后移2个，相当于(*=0)
            else:
                return self.match(str, pattern[2:])
        # 没有*的情况，直接匹配第一个元素看是否成功；
        elif str[0] == pattern[0]&nbs***bsp;pattern[0] == '.':
            return self.match(str[1:], pattern[1:])
        else:
            return False

复杂度分析：

时间复杂度O(MN)：其中 m 和n 分别是字符串 str 和 pattern 的长度，递归全部遍历

空间复杂度O(1)：不需要额外空间

算法思想二：动态规划

解题思路：

假设主串为 str，模式串为 pattern 从最后一步出发，需要关注最后进来的字符。假设 str 的长度为 n ，pattern的长度为 m ，关注正则表达式 pattern的最后一个字符是谁，它有三种可能，正常字符、'*' 和 '.'（点），那针对这三种情况讨论即可，如下：
1、如果 pattern的最后一个字符是正常字符，那就是看str[n−1] 是否等于 pattern[m−1]，相等则看str [0..n−2]与 pattern [0..m−2]，不等则是不能匹配，这就是子问题。

2、如果 pattern 的最后一个字符是 ‘.’，它能匹配任意字符，直接看 str [0..n−2]与 pattern [0..m−2]
3、如果 pattern 的最后一个字符是‘*’，它代表 pattern[m-2]=c 可以重复0次或多次，它们是一个整体 c*
情况一：str[n-1] 是 0 个 c，pattern最后两个字符废了，能否匹配取决于 str [0..n−1]和 pattern [0..m−3]是否匹配
情况二：str[n-1] 是多个 c 中的最后一个（这种情况必须 str[n-1]=c 或者 c='.'），所以str 匹配完往前挪一个，pattern 继续匹配，因为可以匹配多个，继续看str[0..n−2]和 pattern[0..m−1]是否匹配。

转移方程
f[i][j] 代表 str 的前 i 个和 pattern 的前 j 个能否匹配
    对于前面两个情况，可以合并成一种情况 f[i][j]=f[i−1][j−1]
    对于第三种情况，对于 c* 分为看和不看两种情况
        不看：直接砍掉正则串pattern 的后面两个， f[i][j]=f[i][j−2]
        看：正则串pattern 不动，主串str前移一个，f[i][j]=f[i−1][j]

初始条件
特判：需要考虑空串空正则
    空串和空正则是匹配的，f[0][0]=true
    空串和非空正则，不能直接定义 true 和 false，必须要计算出来。（比如str= '' '' ,pattern=a*b*c*）
    非空串和空正则必不匹配，f[1][0]=...=f[n][0]=false
    非空串和非空正则，那肯定是需要计算的了。
大体上可以分为空正则和非空正则两种，空正则也是比较好处理的，对非空正则我们肯定需要计算，非空正则的三种情况，前面两种可以合并到一起讨论，第三种情况是单独一种，那么也就是分为当前位置是 '*' 和不是 '*' 两种情况了。

结果

我们开数组要开 n+1 ，这样对于空串的处理十分方便。结果就是 f[n][m]

代码展示：

JAVA版本

import java.util.*;


public class Solution {
    /**
     * 代码中的类名、方法名、参数名已经指定，请勿修改，直接返回方法规定的值即可
     *
     * 
     * @param str string字符串 
     * @param pattern string字符串 
     * @return bool布尔型
     */
    public boolean match (String str, String pattern) {
        // write code here
        int n = str.length();
        int m = pattern.length();
        boolean[][] f = new boolean[n + 1][m + 1];

        for (int i = 0; i <= n; i++) {
            for (int j = 0; j <= m; j++) {
                //分成空正则和非空正则两种
                if (j == 0) {
                    f[i][j] = i == 0;
                } else {
                    //非空正则分为两种情况 * 和 非*
                    if (pattern.charAt(j - 1) != '*') {
                        if (i > 0 && (str.charAt(i - 1) == pattern.charAt(j - 1) || pattern.charAt(j - 1) == '.')) {
                            f[i][j] = f[i - 1][j - 1];
                        }
                    } else {
                        //碰到 * 了，分为看和不看两种情况
                        //不看
                        if (j >= 2) {
                            f[i][j] |= f[i][j - 2];
                        }
                        //看
                        if (i >= 1 && j >= 2 && (str.charAt(i - 1) == pattern.charAt(j - 2) || pattern.charAt(j - 2) == '.')) {
                            f[i][j] |= f[i - 1][j];
                        }
                    }
                }
            }
        }
        return f[n][m];
    }
}

复杂度分析：

时间复杂度O(MN)：其中 m 和n 分别是字符串 str 和 pattern 的长度，我们需要计算出所有的状态，并且每个状态在进行转移时的时间复杂度为 O(1)。

空间复杂度O(MN)：即为存储所有状态使用的空间

全部评论

推荐最新楼层

缺一不渴

西安电子科技大学自动化

C++一模一样,搬过去，就是运行有错

2 回复分享

发布于 2021-08-12 17:47

想去大厂的JAVAer

北京化工大学 Java

想问一下34和38行哪里为什么不能直接用“=”号，而是要用“|=”？

2 回复分享

发布于 2021-08-20 11:15

牛客284884120号

北京理工大学算法工程师

请问输入如果是"baba",".*a"。返回应该是True吗？

1 回复分享

发布于 2021-08-31 22:53

大龄30IT男

南京人口管理干部学院数据分析师

&nbs***bsp; 这是什么鬼

点赞回复分享

发布于 2021-08-17 12:26

可恶，被他装到了

浙江工业大学算法工程师

python运行出错：程序异常退出，请检查是否存在语法错误或者数组越界非法访问等情况 Traceback (most recent call last): File "/tmp/a.py3", line 2, in <module> from solution import * File "/tmp/solution.py", line 21 if str[0] == pattern[0]&nbs***bsp;pattern[0] == '.': ^ SyntaxError: invalid syntax</module>

点赞回复分享

发布于 2021-08-22 17:44

中部菜鸡

武汉大学算法工程师

python版本的超时了啊

点赞回复分享

发布于 2022-03-13 21:34