2019-08-10 18:48 已编辑快手_测试开发工程师

关注

文本表示模型

词袋模型(Bag of Words)
将每篇文章看成一袋子词,并忽略每个词出现的顺序.

具体来说,就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维表示一个单词,而该维对应的权重则反应了这个词在原文章中的重要程度.常用TF-IDF计算权重,公式为:
$T F - I D F (t, d) = T F (t, d) + I D F (t)$
其中TF-IDF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性,表示为:
$I D F (t) = \log \frac{文章总数}{包含单词 t 的文章总数 + 1}$

TF-IDF(Term Frequency-Inverse Document Frequency)
主题模型(Topic Model)
用于从文本库中发现有代表性的主题(得到每个主题上面词的分布特性)
词嵌入模型(Word Embedding)
词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间(通常k=50~300维)上的一个稠密向量(Dense Vector)
深度学习模型

卷积神经网络
循环神经网络

全部评论

推荐最新楼层

05-12 16:16

鱼鸢网络_CEO

傻子可懂的 Harness Engineering 教程 + 项目实战，一次搞懂 AI 编程工程化！

大家好，我是程序员鱼皮。用 AI 编程的朋友应该都遇到过这些问题：你让 AI 改下页面的样式，结果它没搞清楚你到底想干嘛，重新开发了整个布局。你前面明明要求单文件的代码不超过 200 行，结果聊了十几轮之后，AI 把前面的约束给忘了，写了个 1000 行代码的大文件。还有更头疼的，你让 AI 修一个项目里的 Bug，结果又出了 3 个新 Bug，项目都跑不起来了，代码越改越乱。前两个问题已经有了不少解决办法，比如写好提示词、给 AI 提供充足的信息，但第三个问题就比较棘手了。如果你想让 AI 做好一个完整的项目，你还得给它搭一整套靠谱的工作环境和工作流程。这就是最近在 AI 圈很火的 Harn...

鱼皮带你玩 AI

点赞评论收藏

分享

05-11 18:43

已编辑

武汉大学移动产品经理

海力士总市值突破9000亿美元，国内能赌哪些公司？

韩国海力士最近非常的火热，市值突破9000亿了，听说在里面的工作人员目前在相亲市场都非常的受欢迎，跟过去的国内阿里员工有一拼～ 我看了下海力士的情况，越想越觉得里面有应届生能抓的东西。今天就跟你掰扯掰扯：海力士为什么暴富、中国能赌哪个对应赛道、应届生具体投什么公司什么岗位。 一、海力士到底踩中了什么 一句话：它做 HBM，Nvidia 离不开它。  HBM = 高带宽内存，AI GPU 的"必配内存" 老黄（黄仁勋）当着所有人说：H100、H200、B200，全靠海力士 HBM 撑算力 三星 HBM3E 良率搞砸了，海力士独家供，全球市占 50%+，毛利率干到 50% 以上...

创作打工人：如果不想做技术的话，可以看看解决方案、售前、AI销售等偏售卖服务的岗位，这类岗位通常在秋招中HC多、门槛不高，值得进入！

AI让海力士市值突破90...

点赞评论收藏

分享

04-25 16:03

安阳学院后端工程师

学院本真的没出路了吗

简历求拷打，大佬们救命啊，现在要干嘛，刷算法刷了几天感觉没啥用，没实习大三下了，要做项目还是要干嘛，boss沟通那么多就一个面试一个offer，还是偏远小公司

代码飞升AL：同学院本建议你换一个项目就算你不去特意搜也应该知道点评不能写吧保持投递不要停然后快速弄一个项目换上去公司就别挑了我第一段120一天快速跳就行

点赞评论收藏

分享

05-12 03:07

河海大学 Java

27届看了牛客焦虑到爆炸

bg2本 大一大二太摆了，一直玩游戏去了。目前每天学8小时，只准备了一个微服务项目，比特的在线判题系统，简历也没写，八股才背了一点和项目相关的，算法hot100也才刷20+晚上躺在床上看牛友们的简历，参考到我的进度越来越焦虑和没动力。目前不知道是速成黑马点评(直接下载源码本地运行+背相关八股)，背八股+刷算法全力冲中小厂java后端开发日常实习(如果能进中厂已经是祖坟冒烟了)，赶在秋招前拿到一段实习经历还是好好再准备一个项目，背八股和hot100刷完直接冲秋招。前辈们能给点建议吗?(比如什么项目可以，点评，或者其他什么项目)

北斗导航Compas...：降低预期，早点找实习

我的求职进度条

点赞评论收藏

分享

05-10 06:56

三江学院 C++

AI Agent面经 7（持续更新）

Q1：你会如何设计 Agent 的停⽌条件？答案：组合使⽤：模型声明 finish、任务清单全部完成、达到步数/预算上限、超时、连续⽆进展检测、外部成功信号（如测试通过）。⽣产环境必须有 硬上限 防⽌死循环。Q2：⼯具描述（tool description）为什么⾮常重要？答案：模型靠描述做 ⼯具选择；描述不清会导致 选错⼯具、参数幻觉。好的描述包含：何时⽤、何时不⽤、参数含义、错误示例、返回格式。Q3：Memory ⽤向量库就够了吗？答案：不够。向量检索擅⻓相似度，但弱于精确约束与关系推理。⼯程上常⻅ 向量 + 关键词/结构化库 + 图谱（按需），并维护 元数据与权限。Q4：多 Agent ...

查看4道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的求职总结 #

477289次浏览 6756人参与

# 我是XXX，请攻击我最薄弱的地方 #

87861次浏览 606人参与

# AI让海力士市值突破9000亿美元 #

8684次浏览 105人参与

# 风评不好的公司，你会去吗？ #

154909次浏览 705人参与

# 哪一瞬间让你觉得“这班不如不上” #

46571次浏览 278人参与

# 产品面经 #

297129次浏览 2216人参与

# 牛油的搬砖plog #

205320次浏览 1326人参与

# 我想象的工作vs实际工作 #

709914次浏览 5053人参与

# 入职第四天，心情怎么样 #

56211次浏览 474人参与

# 什么专业适合考公 #

72046次浏览 428人参与

# 这些公司卡简历很严格 #

106992次浏览 482人参与

# 拼多多工作体验 #

61054次浏览 427人参与

# 得物app工作体验 #

67120次浏览 118人参与

# 职场新人体验 #

194939次浏览 1276人参与

# 产运销实习日记 #

106264次浏览 738人参与

# 聊聊这家公司值得去吗 #

963540次浏览 4790人参与

# 小厂实习有必要去吗 #

93988次浏览 445人参与

# 百度工作体验 #

339014次浏览 2302人参与

# 国企vs私企，怎么选？ #

52790次浏览 240人参与

# 我对___祛魅了 #

162099次浏览 767人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务