POJ-3261-Milk Patterns(后缀数组)
题目链接
题意:
给定一个字符串S,求至少出现k次的最长重复子串,这k个子串可以重叠。
题解:
后缀数组。先二分答案,然后将后缀分成若干组。这里要判断的是有没有一个组的后缀个数不小于k。如果有,那么存在k个相同的子串满足条件,否则不存在。。
代码:
/*
题意:找出出现k次的可重叠的最长子串的长度
这都是套路题了,二分长度L,按照height值分组,在同一组内的组数如果大于K,则成立。
*/
#include <cstdio>
#include <cstring>
#include <algorithm>
#include<iostream>
using namespace std;
const int MAXN = 100005;
char ch[MAXN], All[MAXN];
int SA[MAXN], rank[MAXN], Height[MAXN], tax[MAXN], tp[MAXN], a[MAXN], n, m;
char str[MAXN];
int k,cnt;
//rank[i] 第i个后缀的排名; SA[i] 排名为i的后缀位置; Height[i] 排名为i的后缀与排名为(i-1)的后缀的LCP
//tax[i] 计数排序辅助数组; tp[i] rank的辅助数组(计数排序中的第二关键字),与SA意义一样。
//a为原串
void RSort() {
//rank第一关键字,tp第二关键字。
for (int i = 0; i <= m; i ++) tax[i] = 0;
for (int i = 1; i <= n; i ++) tax[rank[tp[i]]] ++;
for (int i = 1; i <= m; i ++) tax[i] += tax[i-1];
for (int i = n; i >= 1; i --) SA[tax[rank[tp[i]]] --] = tp[i]; //确保满足第一关键字的同时,再满足第二关键字的要求
} //计数排序,把新的二元组排序。
int cmp(int *f, int x, int y, int w) { return f[x] == f[y] && f[x + w] == f[y + w]; }
//通过二元组两个下标的比较,确定两个子串是否相同
void Suffix() {
//SA
for (int i = 1; i <= n; i ++) rank[i] = a[i], tp[i] = i;
m = 127 ,RSort(); //一开始是以单个字符为单位,所以(m = 127)
for (int w = 1, p = 1, i; p < n; w += w, m = p) { //把子串长度翻倍,更新rank
//w 当前一个子串的长度; m 当前离散后的排名种类数
//当前的tp(第二关键字)可直接由上一次的SA的得到
for (p = 0, i = n - w + 1; i <= n; i ++) tp[++ p] = i; //长度越界,第二关键字为0
for (i = 1; i <= n; i ++) if (SA[i] > w) tp[++ p] = SA[i] - w;
//更新SA值,并用tp暂时存下上一轮的rank(用于cmp比较)
RSort(), swap(rank, tp), rank[SA[1]] = p = 1;
//用已经完成的SA来更新与它互逆的rank,并离散rank
for (i = 2; i <= n; i ++) rank[SA[i]] = cmp(tp, SA[i], SA[i - 1], w) ? p : ++ p;
}
//离散:把相等的字符串的rank设为相同。
//LCP
int j, k = 0;
for(int i = 1; i <= n; Height[rank[i ++]] = k)
for( k = k ? k - 1 : k, j = SA[rank[i] - 1]; a[i + k] == a[j + k]; ++ k);
//这个知道原理后就比较好理解程序
}
bool check(int mid){
cnt=1;
for(int i=1;i<=n;i++){
if(Height[i]<mid)cnt=1;
else cnt++;
if(cnt>=k)return 1;
}
return 0;
}
void Init() {
for (int i=1; i <=n; i ++) scanf("%d",&a[i]);
}
int main() {
#ifdef LOCAL
freopen("C:/Users/Administrator/Desktop/input.txt", "r", stdin);
#endif
scanf("%d%d",&n,&k);
Init();
Suffix();
//for(int i=1;i<=n;i++)cout<<SA[i]<<endl;
for(int i=1;i<=n;i++)cout<<Height[i]<<" ";
cout<<endl;
int res=0;
int l=1,r=n;
while(l<=r){
int mid=(l+r)>>1;
if(check(mid)){
l=mid+1;
res=max(res,mid);
}
else r=mid-1;
}
printf("%d\n",res);
}