大数据本科生求助

本人211大数据专业本科生,大学有点挂羊头卖狗肉的感觉,开在通信学院的大数据专业,本科只学了点python 和c++剩下的课都在学机器学生最优化,数值计算这类抽象课,发展有些迷茫有大佬解答一下发展学习路线,指一下大方向不
全部评论
同大学,通信工程的,也头疼
1 回复 分享
发布于 2023-10-05 19:35 上海
并行计算与分布式计算是大数据的重点,你们居然是选修课😅😅😅
1 回复 分享
发布于 2023-08-22 01:05 河北
居然spark hadoop不当成专业课😅😅😅,果然挂羊头卖狗肉
1 回复 分享
发布于 2023-08-22 01:03 河北
大数据技术之类的课程学过吗
1 回复 分享
发布于 2023-08-19 02:13 湖北
考研
点赞 回复 分享
发布于 2023-09-26 11:46 湖北
都没啥用,工作了数据相关岗位全是写sql
点赞 回复 分享
发布于 2023-09-15 10:47 广东
你这不直接能搞硬件了,搞硬件吧😄
点赞 回复 分享
发布于 2023-08-22 01:06 河北
我敲,你们培养方案什么鬼,大数据生态链基本没有,还有一点通信的课程?这也太坑人了吧😅😅😅
点赞 回复 分享
发布于 2023-08-22 01:01 河北
你学的都是偏数据挖掘了,本科不好找,好好学学c++吧,然后找个好实习,数据岗位太少太卷了
点赞 回复 分享
发布于 2023-08-17 13:25 上海
同问,想知道大数据行业的升职潜力怎么样啊,加班会加到很晚吗
点赞 回复 分享
发布于 2023-08-15 19:17 上海

相关推荐

1、文本分类特征选择算法卡方检验(Chi-Square Test):统计特征(词)与类别之间的独立性。卡方值越大,特征与类别的相关性越强。信息增益:衡量特征为分类系统带来多少信息量。信息增益值越大,特征越重要。互信息:衡量特征与类别之间的统计相关性。TF-IDF加权:通过词频(TF)和逆文档频率(IDF)筛选重要特征。高TF-IDF值的词通常为关键特征。2、ReLu替换Tanh的后果ReLu在负区间的梯度为0,可能导致神经元“死亡”​​(Dead ReLU)3、GPT的多种能力文本生成:生成符合语境和逻辑连贯的文本(学术、故事、文章)代码生成:生成可执行的代码片段(脚本、debug、功能实现)对话交互:模拟人类对话,提供个性化交互体验(客服、助手、陪伴)创意内容生成:艺术创作或设计(诗词、图案描述、营销文案)数据与知识生成:结构话信息提取或虚构数据生成(表格生成、虚构数据)多语言生成:跨语言内容生成和翻译(多语言写作)逻辑与推理生成:解决数学问题或逻辑推理任务(解题、策略)4、大模型训练和推理的参数量判断,需要多少显卡。(14B)训练:模型参数(14B)+优化器状态​(如Adam):每个参数需要存储参数、梯度、动量、二阶动量(共4份 FP32 数据)+梯度:以 FP16 存储 14B + 激活值(Activations)​:与批次大小(Batch Size)、序列长度(Sequence Length)相关,通常占用 ​20%~50% 总显存。 约为14*2+14*4*4+14*2+50=330推理:参数 + KV缓存≈28GB+1GB=29GB(FP16)或14GB(INT8)5、文本、图片、视频的标注方式文本分类、命名实体识别、关系抽取、序列标注、问答标注目标检测、图像分割、关键点识别、图像分类、OCR标注动作识别、目标跟踪、时间序列标注、多模态标注6、常见的数据清洗方式删除缺失记录、填充缺失值、标记缺失值、删除重复行、合并冲突字段、检测异常值、数据格式标准化、标签一致、逻辑一致、文本去噪、平滑技术7、简述残差连接​残差连接(Residual Connection)​ 是一种通过跳跃连接(Shortcut Connection)将输入直接传递到网络深层的技术,从而缓解深层网络的训练难题(如梯度消失、模型退化)、​加速模型训练、增强模型表达能力8、大模型训练的全过程数据准备与预处理数据收集数据清洗分词,编码加载模型迭代训练#牛客AI配图神器#
投递卓望公司等公司10个岗位
点赞 评论 收藏
分享
评论
1
3
分享

创作者周榜

更多
牛客网
牛客企业服务