《剑指Offer》字符流中第一个不重复的字符

字符流中第一个不重复的字符

http://www.nowcoder.com/questionTerminal/00de97733b8e4f97a3fb5c680ee10720

一种优化思路:无须次次进行遍历

这道题目的大致思路其实都差不多,只不过看了许多答案,发现都是存储了所有字符,然后再进行遍历判断
其实并不需要这样。 用户 txlstars 的回答和本文的优化相同(绝对不是面向 Ctrl+C 编程的~)

字符出现次数的判断(不重复字符):
这个做法大致相同,利用 Hash 思想采用128大小的计数数组进行计数也好,或者是使用 Map 键值对映射也好,都差不多,使用数组会更简单。

字符出现顺序的判断(第一个字符):
这里就是改进的关键之处了,容易发现,字符流中不重复的字符可能同时存在多个,我们只要把这些 “不重复字符” 保存起来就可以,而无需保存那些重复出现的字符,而为了维护字符出现的顺序,我们使用队列(先进先出)这一结构,先出现的不重复字符先输出:

  • 入队:获取字符流中的一个字符时,当我们判断它是不重复时,将它加入队列;
  • 输出/出队:注意,因为队列中存储的 “不重复字符” 在一系列的流读取操作后,随时有可能改变状态(变重复),所以,队列中的字符不能直接输出,要先进行一次重复判断,如果发现队头字符已经重复了,就将它移出队列并判断新的队头,否则,输出队头的值;

复杂度计算:
从上面的描述来看,好像存在一个循环,队列的长度好像无边无际,就给人一种O(n)的感觉,其实,并不是,有如下结论:

  1. 通过分析可以发现,循环(出队)的最大次数其实就是队列的长度,而队列的长度最大为128;
  2. 并且随着时间的推移,队列长度 总体 先增大,后减小,正常条件下,最终队列会为空(因为随着字符流的增大,重复的字符会越来越多,队列就会不断地移除元素而越来越短);
  3. 更愉快的是,如果队列长度不减小,则循环就只执行一次,返回速度快,如果队列长度减小了,那么,循环次数上限也就减小了;

所以时间、空间复杂度是一致的,都是常数级,可是这是为什么呢,分析如下:

  1. 字符的重复判断,因为使用的是直接 Hash,而且功能是计数,没有冲突,所以是O(1);
  2. 只有不重复的字符才入队列,但是不重复的字符有几个呢?ASCII字符最多也就128个,那么同一字符会不会多次入队呢? 不会的,见3;
  3. 只有队头元素变得重复了才执行循环,所以执行循环就意味着队列长度要变小。要注意,根据题意,字符的出现次数只增不减!!!所以,出队的字符不会再入队,队列长度总体上只会越来越小(或者上升到峰值就不再上升了,128种字符用尽)。

下面是Java实现的代码:

import java.util.Queue;
import java.util.LinkedList;
import java.lang.Character;

public class Solution {
    int[] charCnt = new int[128];
    Queue<Character> queue = new LinkedList<Character>();

    //Insert one char from stringstream
    public void Insert(char ch) {
        if (charCnt[ch]++ == 0) //新来的单身字符,入队
            queue.add(ch);
    }
    //return the first appearence once char in current stringstream
    public char FirstAppearingOnce() {
        Character CHAR = null;
        char c = 0;
        while ((CHAR = queue.peek()) != null) {
            c = CHAR.charValue();
            if (charCnt[c] == 1) //判断是否脱单了,没脱单则输出
                return c;
            else queue.remove(); //脱单了就移出队列,它不会再回来了
        }
        return '#'; //队空,返回#
    }
}
全部评论
“这道题目的大致思路其实都差不多,只不过看了许多答案,发现都是存储了所有字符,然后再进行遍历判断,其实并不需要这样,这样子 HR 哪里会给 Offer 呢?”你这个和别人的也一样,都是存储的distinct char,计数。你这句话踩别人一下,倒是说出来你的优势啊。。。
1 回复 分享
发布于 2020-06-08 10:18
不管这个回答怎样,但看这个回答的时间,就感觉厉害的不行
1 回复 分享
发布于 2020-06-20 17:19
charCnt[str[i]]++;//统计字符串str中每种字符的个数
1 回复 分享
发布于 2020-11-19 16:33
出队的时候为什还要判断?存在队列中的字符应该都是不重复的,取出队列头的字符就可以吧
点赞 回复 分享
发布于 2020-02-25 17:49
为什么说队列中存储的 “不重复字符” 在一系列的流读取操作后,随时有可能改变状态(变重复)?
点赞 回复 分享
发布于 2020-06-22 17:09
1. 队列大小是在最后计算时才去清除的,也类似于遍历了所有队列元素,目前没看到优势; 2. 使用128长度的数组保存出现的次数,我们知道char的范围为: 0000 - 0xFFFF,比如中啥的,确定这样没问题吗
点赞 回复 分享
发布于 2020-06-26 02:00

相关推荐

11-18 15:57
门头沟学院 Java
最终归宿是测开:这个重邮的大佬在重邮很有名的,他就喜欢打92的脸,越有人质疑他,他越觉得爽😂
点赞 评论 收藏
分享
点赞 评论 收藏
分享
57 8 评论
分享
牛客网
牛客企业服务