题解 | #正则表达式匹配#
正则表达式匹配
http://www.nowcoder.com/practice/28970c15befb4ff3a264189087b99ad4
算法思想一:递归
解题思路:
每次从字符串里取出一个字符与模式中的字符匹配,如果模式中的字符是‘.’,它可以匹配字符串中的任意字符,如果不是,那么如果它与字符串中的字符相等则匹配。当字符串的字符和模式的字符匹配时,接着匹配后面的字符。
下面,考虑模式中的第二个字符是不是‘*’。如果不是,则可以分为两种情况:
1、如果字符串中的第一个字符和模式中的第一个字符相匹配,那么字符串和模式都后移一个字符,然后匹配剩余的字符串和模式;
2、如果字符串中的第一个字符和模式中的第一个字符不匹配,则直接返回false。
当模式中的第二个字符是‘*’时,又可以分为两种情况方式:
1、如果pattern中的第一个字符和str中的第一个字符不匹配,则将pattern后移两个字符,相当于忽略‘*’和它前面的字符,因为‘*’可以匹配字符串中的0个字符;
2、如果pattern中的第一个字符和str中的第一个字符匹配,则str后移一个字符,而在模式上又有两种选择:
2.1、pattern后移两个字符(例如字符串"ab"和模式"a*ab"匹配到str[0]和pattern[0]时,pattern后移两个字符,字符串后移一个字符)
2.2、pattern保持不变(例如字符串"aabbba"和模式"aab*a"匹配到str[2]和pattern[2]时,pattern保持不变,字符串后移一个字符)
下面,考虑模式中的第二个字符是不是‘*’。如果不是,则可以分为两种情况:
1、如果字符串中的第一个字符和模式中的第一个字符相匹配,那么字符串和模式都后移一个字符,然后匹配剩余的字符串和模式;
2、如果字符串中的第一个字符和模式中的第一个字符不匹配,则直接返回false。
当模式中的第二个字符是‘*’时,又可以分为两种情况方式:
1、如果pattern中的第一个字符和str中的第一个字符不匹配,则将pattern后移两个字符,相当于忽略‘*’和它前面的字符,因为‘*’可以匹配字符串中的0个字符;
2、如果pattern中的第一个字符和str中的第一个字符匹配,则str后移一个字符,而在模式上又有两种选择:
2.1、pattern后移两个字符(例如字符串"ab"和模式"a*ab"匹配到str[0]和pattern[0]时,pattern后移两个字符,字符串后移一个字符)
2.2、pattern保持不变(例如字符串"aabbba"和模式"aab*a"匹配到str[2]和pattern[2]时,pattern保持不变,字符串后移一个字符)
代码展示:
Python版本
class Solution: def match(self , str , pattern ): # write code here # s和p都为空,两个空串一定匹配; if str == "" and pattern == "": return True # p为空,一定不匹配; elif str != "" and pattern == "": return False # s为空,就要检查p了,如果p是a*b*c*形式的,则p可以转化成空串; elif str == "" and pattern != "": # 如果p长度大于2,并且p[1]是个*,才能符合上面可以变成空串的形式; if len(pattern) >= 2 and pattern[1] == '*': # 继续递归检查p[2:]后面的是否符合; return self.match(str, pattern[2:]) else: return False if len(pattern) >=2 and pattern[1] == '*': # 第一个元素匹配成功,有三种继续进行的选择,都要尝试一下; if str[0] == pattern[0]&nbs***bsp;pattern[0] == '.': # 第一种是为了防止 s="bbba", p=".*a"这种情况,这个我们一看就是匹配的; # 但是它有可能一个".*"就把"bbba"都匹配掉了,p剩下个"a",会认为匹配失败。 # 第二种是匹配成功,并且s、p都移动; # 第三种是,s移动,p的*留着。 return self.match(str, pattern[2:])&nbs***bsp;self.match(str[1:], pattern[2:])&nbs***bsp;self.match(str[1:], pattern) # 如果第一个元素匹配失败,p后移2个,相当于(*=0) else: return self.match(str, pattern[2:]) # 没有*的情况,直接匹配第一个元素看是否成功; elif str[0] == pattern[0]&nbs***bsp;pattern[0] == '.': return self.match(str[1:], pattern[1:]) else: return False
复杂度分析:
时间复杂度O(MN):其中 m 和n 分别是字符串 str 和 pattern 的长度,递归全部遍历
空间复杂度O(1):不需要额外空间
算法思想二:动态规划
解题思路:
假设主串为 str,模式串为 pattern 从最后一步出发,需要关注最后进来的字符。假设 str 的长度为 n ,pattern的长度为 m ,关注正则表达式 pattern的最后一个字符是谁,它有三种可能,正常字符、'*' 和 '.'(点),那针对这三种情况讨论即可,如下:
1、如果 pattern的最后一个字符是正常字符,那就是看str[n−1] 是否等于 pattern[m−1],相等则看str [0..n−2]与 pattern [0..m−2],不等则是不能匹配,这就是子问题。
1、如果 pattern的最后一个字符是正常字符,那就是看str[n−1] 是否等于 pattern[m−1],相等则看str [0..n−2]与 pattern [0..m−2],不等则是不能匹配,这就是子问题。
2、如果 pattern 的最后一个字符是 ‘.’,它能匹配任意字符,直接看 str [0..n−2]与 pattern [0..m−2]
3、如果 pattern 的最后一个字符是‘*’,它代表 pattern[m-2]=c 可以重复0次或多次,它们是一个整体 c*
情况一:str[n-1] 是 0 个 c,pattern最后两个字符废了,能否匹配取决于 str [0..n−1]和 pattern [0..m−3]是否匹配
情况二:str[n-1] 是多个 c 中的最后一个(这种情况必须 str[n-1]=c 或者 c='.'),所以str 匹配完往前挪一个,pattern 继续匹配,因为可以匹配多个,继续看str[0..n−2]和 pattern[0..m−1]是否匹配。
3、如果 pattern 的最后一个字符是‘*’,它代表 pattern[m-2]=c 可以重复0次或多次,它们是一个整体 c*
情况一:str[n-1] 是 0 个 c,pattern最后两个字符废了,能否匹配取决于 str [0..n−1]和 pattern [0..m−3]是否匹配
情况二:str[n-1] 是多个 c 中的最后一个(这种情况必须 str[n-1]=c 或者 c='.'),所以str 匹配完往前挪一个,pattern 继续匹配,因为可以匹配多个,继续看str[0..n−2]和 pattern[0..m−1]是否匹配。
转移方程
f[i][j] 代表 str 的前 i 个和 pattern 的前 j 个能否匹配
对于前面两个情况,可以合并成一种情况 f[i][j]=f[i−1][j−1]
对于第三种情况,对于 c* 分为看和不看两种情况
不看:直接砍掉正则串pattern 的后面两个, f[i][j]=f[i][j−2]
看:正则串pattern 不动,主串str前移一个,f[i][j]=f[i−1][j]
初始条件
特判:需要考虑空串空正则
空串和空正则是匹配的,f[0][0]=true
空串和非空正则,不能直接定义 true 和 false,必须要计算出来。(比如str= '' '' ,pattern=a*b*c*)
非空串和空正则必不匹配,f[1][0]=...=f[n][0]=false
非空串和非空正则,那肯定是需要计算的了。
大体上可以分为空正则和非空正则两种,空正则也是比较好处理的,对非空正则我们肯定需要计算,非空正则的三种情况,前面两种可以合并到一起讨论,第三种情况是单独一种,那么也就是分为当前位置是 '*' 和不是 '*' 两种情况了。
f[i][j] 代表 str 的前 i 个和 pattern 的前 j 个能否匹配
对于前面两个情况,可以合并成一种情况 f[i][j]=f[i−1][j−1]
对于第三种情况,对于 c* 分为看和不看两种情况
不看:直接砍掉正则串pattern 的后面两个, f[i][j]=f[i][j−2]
看:正则串pattern 不动,主串str前移一个,f[i][j]=f[i−1][j]
初始条件
特判:需要考虑空串空正则
空串和空正则是匹配的,f[0][0]=true
空串和非空正则,不能直接定义 true 和 false,必须要计算出来。(比如str= '' '' ,pattern=a*b*c*)
非空串和空正则必不匹配,f[1][0]=...=f[n][0]=false
非空串和非空正则,那肯定是需要计算的了。
大体上可以分为空正则和非空正则两种,空正则也是比较好处理的,对非空正则我们肯定需要计算,非空正则的三种情况,前面两种可以合并到一起讨论,第三种情况是单独一种,那么也就是分为当前位置是 '*' 和不是 '*' 两种情况了。
结果
我们开数组要开 n+1 ,这样对于空串的处理十分方便。结果就是 f[n][m]
代码展示:
JAVA版本
import java.util.*; public class Solution { /** * 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可 * * * @param str string字符串 * @param pattern string字符串 * @return bool布尔型 */ public boolean match (String str, String pattern) { // write code here int n = str.length(); int m = pattern.length(); boolean[][] f = new boolean[n + 1][m + 1]; for (int i = 0; i <= n; i++) { for (int j = 0; j <= m; j++) { //分成空正则和非空正则两种 if (j == 0) { f[i][j] = i == 0; } else { //非空正则分为两种情况 * 和 非* if (pattern.charAt(j - 1) != '*') { if (i > 0 && (str.charAt(i - 1) == pattern.charAt(j - 1) || pattern.charAt(j - 1) == '.')) { f[i][j] = f[i - 1][j - 1]; } } else { //碰到 * 了,分为看和不看两种情况 //不看 if (j >= 2) { f[i][j] |= f[i][j - 2]; } //看 if (i >= 1 && j >= 2 && (str.charAt(i - 1) == pattern.charAt(j - 2) || pattern.charAt(j - 2) == '.')) { f[i][j] |= f[i - 1][j]; } } } } } return f[n][m]; } }
复杂度分析:
时间复杂度O(MN):其中 m 和n 分别是字符串 str 和 pattern 的长度,我们需要计算出所有的状态,并且每个状态在进行转移时的时间复杂度为 O(1)。
空间复杂度O(MN):即为存储所有状态使用的空间