华泰证券 1. 自我介绍,说说项目。字符串匹配,KMP、BM算法说一下任意一个分类算法文本去重 :simhash说一下做命名实体识别项目的整个过程word2vec原理大概说下? 2. 说说项目。 3. 说一下任意一个分类算法。 4. 文本去重simhash原理。我回答映射成hash值,计算海明距离。 5. 问word2vec原理,我回答在PLM上做了修改,实际上学得一个语言模型,词向量是个副产物。 输入m维初始化的x,x也是要和参数一样进行更新的。 分为CBOW和SG ,优化技巧又层次softmax,和 负采样。 ----------...