苦头陀 - 个人主页动态

2023-10-19 21:39

最近在学习<<Spark快速大数据分析>>这本书，为了运行随书代码，安装了Spark环境。但是scala代码只能在spark-shell以交互形式运行，为了运行scala代码块，这两天集中学习了一下利用sbt构建scala代码jar包流程，这里做个记录。由于本人习惯win10系统，故下面的记录只针对win10. 构建scala的spark程序时，需要用到scala构建工具sbt(scala build tool)进行打包。其中的build.sbt是类似makefile的说明文件，它向scala编译器描述并指示与scala构建相关的任务，比如打包什么、需要解析哪些依赖包、...

0 点赞评论收藏

2022-11-20 21:57

中国科学院大学大数据开发工程师

cz教程笔记第一章(下)和第二章

为什么需要深度神经网络这里的深度指的是层数多，而不是神经元的个数多；输入层一般不计算在层数内；对于深度神经网络而言，后面的神经元会在前面神经元的基础上进行分析学习，正是神经网络的这种层次性，使得迁移学习成为可能；每一层神经元都会负责学习特定的特征，比如底层神经元学习通用的特征；核对矩阵的维度用assert核对矩阵的维度；assert用于判断一个表达式，在表达式为false时触发异常；################################第二章分界线##################################正则化正则化并非只是以最小化损失为目标，而是以最小化损失和复杂度为目标...

0 点赞评论收藏

2022-10-02 22:54

中国科学院大学大数据开发工程师

题解 | #查看牛客网哪些用户使用Python#

Where 条件进行过滤

0 点赞评论收藏

2022-10-02 22:46

中国科学院大学大数据开发工程师

题解 | #牛客网用户没有补全的信息#

用pandas中的isnull和函数

0 点赞评论收藏

2022-10-02 22:35

中国科学院大学大数据开发工程师

题解 | #统计牛客网部分用户使用语言#

用panda中的loc函数进行切片操作

0 点赞评论收藏

2022-10-02 17:59

中国科学院大学大数据开发工程师

题解 | #牛客网用户数据集的大小#

用pandas将题目的csv加载成dataframe后,用shape属性直接打印即可

0 点赞评论收藏

2022-10-09 11:27

已编辑

中国科学院大学大数据开发工程师

cz教程笔记第一章

计算图计算图--AI的核心任务是模型的定义和模型参数的求解，计算图可以清楚地表达出数据的流转方式、计算方式等过程； 神经网络的计算由前向传播和反向传播构成：前向传播计算预测结果和损失，反向传播计算参数的偏导数，并对参数及进行梯度下降； 偏导数的计算可以使用链式法则，一步步反向推进，这就是反向传播； 计算图由边和节点组成，节点代表操作，边代表节点之间传递的张量 学习原理 神经网络学习的目的是找到合适的参数w和b，可以通过梯度下降法达到这个目的； 梯度下降会一步步改变参数w和b的值，使得损失函数的值逐步变小；在数据集给定的情况下，损失函数是关...

你的秋招进展怎么样了

0 点赞评论收藏

2022-05-23 15:02

已编辑

中国科学院大学大数据开发工程师

结构化数据预训练模型的线性化策略review

Row by Row 策略 TURL[2021  TURL只对元数据和表格中的entity进行embedding表示；从embedding表达式上看，TURL需要对表格中的所有entity cell进行标注，同时属于哪种类型(subject/object/topic)进行标注；疑问1：TURL的word/type/entity embedding的生成方式；疑问2：TURL是在所用数据库上如何得到这些标识的；思考点1：为什么TURL要对entiy cell标注entity？好处究竟是什么？思考点2：2维表格被压成1维表格后，利用attention机制获...

0 点赞评论收藏

2021-07-17 13:43

中国科学院大学大数据开发工程师

数值特征的预处理

首先机器学习模型可以大致分为两大类： - Tree-based models - Non-tree-based models对于Tree-based models，比如决策树分类器来说，因为数值缩放不影响分裂节点位置，对树模型的结构不造成影响。故对此类模型来说，对数值特征原则上无需进行预处理。 对于Non-tree-based models，比如线性模型，KNN, 神经网络来说，模型的质量依赖特征的尺度，下面介绍一些最常用的数值特征的预处理方法。 regularizationregularization最常用的方法： MinMaxScaler: X=(X-X.min())/(X.max()...

0 点赞评论收藏

2021-05-19 17:29

中国科学院大学大数据开发工程师

LightGBM与XGBoost的简单对比

0 点赞评论收藏

2021-05-06 23:50

已编辑

中国科学院大学大数据开发工程师

Xgboost论文笔记原理篇(下)

网上关于陈天奇的Xgboost论文的weighted quantile sketch算法的数学推导及主要思想都说的挺笼统的，看来大家都是不愿意死磕论文啊，哈哈，开个玩笑的。您能阅读这篇文章，就说明您有很强的好奇心和进取心，加油！不贫了，上干货！ weighted quantile sketch的主要目标，至少在Xgboost这一具体情形下，就是寻找候选分裂点集合，是为节点分裂的近似算法服务的。具体如下：首先给出与quantile summary有关的定义：weighted quantile sketch的核心思想，如有些博主所言，就是用子集代替全集。如下面的定义所言下面的定义是关键，它对wei...

0 点赞评论收藏

2021-05-02 20:59

已编辑

中国科学院大学大数据开发工程师

# XGBoost论文笔记原理篇(上)

我准备用两篇的笔记来记录陈天奇的XGBoost论文<<XGBoost: A Scalable Tree Boosting System>>的原理部分，第一篇是主要是结合自己的理解对改论文的section2和section3做笔记；第二篇是论文附录中的WEIGHTED QUANTILE SKETCH算法的理论的理解。下面开始码字： 1,XGBoost对传统梯度提升树的改进 XGBoost的目标函数的推导和已有的提升树算法是一样的，特别是关于损失函数的二阶泰勒展开是源于Friedman等人的思想。不过XGBoost还是在提出了很多小的改进，量变产生质变，最终使得XGBoos...

0 点赞评论收藏

2020-10-18 20:13

中国科学院大学大数据开发工程师

对SVM多分类问题的一点说明

 众所周知，最原始的支持向量机是针对二分类问题的。怎样将原始的支持向量机有效地扩展到多分类问题是在进行研究的问题。对于SVM多分类问题，目前主要有两种思路，一个是构造多个二分类器并组合起来解决多分类问题，另一个是在一个最优化问题中包含所有分类器的参数，一次性解出所有分类器。这种想法看似简单，但由于需要计算复杂度将对于二分类问题实在太大，所以并没有什么优势。  很多博主将第二种思路成为间接法，顾名思义，第一种思路就是直接法了。博主们往往用两三句就把直接法给糊弄过去了，主要是说它计算太复杂，太慢；然后就长篇累牍的对各种间接法的奇技淫巧进行介绍。其实，从理论的创新性和优美性而言，直接法是很值得我们去...

0 点赞评论收藏

2020-10-17 14:50

已编辑

中国科学院大学大数据开发工程师

Sequential Minimal Optimization论文笔记

 我们知道，支持向量机的学习问题可以形式化为求解凸二次规划问题，凸二次规划问题有全局最优解。这篇论文主要提出了一个高效实现支持向量机学习的算法:(sequential minimal optimization , SMO)算法。具体地，SMO算法要解决下面的凸二次规划的对偶问题： 论文比较长，这里只记录SMO算法这一部分的要点。 SMO算法将全局的凸二次规划问题，分解成局部规划子问题，根据Qsuna的定理，能保证算法的收敛性； 在算法的每一步，SMO算法尝试尽可能地解决最简单最小的子问题。由于上面问题的约束中含有等式约束，所以一次优化至少要包含两个拉格朗日乘子。所以每次循环，SMO算法都会选...

0 点赞评论收藏

2020-10-12 21:48

已编辑

中国科学院大学大数据开发工程师

序列最小最优化算法(SMO)的变量优化的第一个变量，你是怎么选择的呢?

作为svm算法的核心，smo算法是我们必须要吃透的。该算法的主要思想是：如果所有变量的解都满足最优化问题的KKT条件，那么这个最优化问题的解就是这个变量，因为KKT条件是这个最优化问题的充分必要条件。否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件自动确定。好了，李航老师的书就抄到这里吧！ 上面说其中的一个变量需要违反KKT条件最恨，我们该怎样把它找出来呢？哎，要求有点高，还最恨？好好，要求降低一些，我们怎样找出一个违反KKT条件的变量呢？换句话说，给你一个变量，大佬你怎么判断它是否违反KKT条件呢？ 我觉得...

0 点赞评论收藏

创作者周榜

关注他的用户也关注了：