2022-08-24 22:21 北京科技大学算法工程师发布于浙江

关注

算法面试高频知识点：逻辑回归知识总结

图片说明

逻辑回归是用在分类问题中的典型算法。

来考虑简单的二分类问题，我们进行一整套的代码流程学习：

步骤一：生成模拟的数据集

为了编写代码模拟二分类任务，我们的第一步工作是先生成用于测试的数据集。首先看下生成的用于模拟的数据集长得样子，它有两个特征w1，w2组成，共有200个样本点，现在的任务是要对这个数据集进行分类。

在这里插入图片描述

下面介绍，如何用梯度下降法，求出两个特征对应的权重参数，进而能正确的预测，当一个新的样本点来的时候，能预测出属于0类，还是1类。

步骤二：梯度下降求权重参数

设定一个学习率迭代参数，当上一次迭代的损失函数与当前的损失函数的差小于阈值时，计算结束，我们将得到3个权重参数，其中包括两个特征的权重参数，和偏置项的权重参数。

假定模型的决策边界为线性模型，梯度下降求逻辑回归模型的权重参数的基本思路和四个公式如下：

'model' 建立的逻辑回归模型：包括Sigmoid映射
'cost' 损失函数
'gradient' 梯度公式
'theta update' 参数更新公式
'stop stratege' 迭代停止策略：代价函数小于阈值时停止

$f(x)=P(y=1|x;\theta )=g(\theta ^{T}x)$ ，其中， $g(z)=\frac{1}{1+e^{-z}}$

在这里插入图片描述

接着初始化一列偏置项：做一个偏移量和2个特征的组合。

步骤三：写具体代码

'偏置项b shape = (200,1)'
b = np.ones(200)

'将偏移量与2个特征值组合 shape = (200,3)'
X = np.hstack((b,X))

'model'
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def model(theta,X):
    theta = np.array(theta)
    return sigmoid(X.dot(theta))

'cost'
def cost(m, theta, X, y):
    ele = y * np.log(model(theta, X)) + (1 - y) * np.log(1 - model(theta, X))
    item_sum = np.sum(ele)
    return -item_sum / m

'gradient'
def gradient(m, theta, X, y, cols):
    grad_theta = []
    for j in range(cols):
        grad = (model(theta,X) - y).dot(X[:,j])
        grad_sum = np.sum(grad)
        grad_theta.append(grad_sum / m)
    return np.array(grad_theta)

'theta update'
def theta_update(grad_theta, theta, sigma):
    return theta - sigma * grad_theta

'stop stratege'
def stop_stratege(cost, cost_update, threshold):
    return cost - cost_update < threshold

'逻辑回归算法'
def LogicRegression(X, y, threshold, m, xcols):
    start = time.clock()

    '设置权重参数的初始值'
    theta = np.zeros(xcols)

    '迭代步数'
    items = 0;

    '记录代价函数的值'
    cost_record=[]

    ***习率'
    sigma = 0.01
    cost_val = cost(m, theta, X, y)
    cost_record.append(cost_val)

    while True:
        grad = gradient(m, theta, X, y, xcols)

        '参数更新'
        theta = theta_update(grad, theta, sigma)
        cost_update = cost(m, theta, X, y)
        if stop_stratege(cost_val, cost_update, threshold):
            break

        iters = iters + 1
        cost_val = cost_update
        print("cost_val:%f" %cost_val)
        cost_record.append(cost_val)

    end = time.clock()

    print("LogicRessionconvergene duration: %f s" % (end -start))

    return cost_record, iters, theta

步骤四：分析结果

调用逻辑回归函数：LogicRegression(data[:,[0,1,2]],data[:,3],0.00001,200,3)

结果显示经过，逻辑回归梯度下降经过如下时间得到初步收敛，LogicRegression convergence duration:18.076398 s，经过 56172万多个时步迭代，每个时步计算代价函数的取值，如下图所示：

在这里插入图片描述

收敛时，得到的权重参数为：

array([ 0.48528656,  9.48593954, -9.42256868])

参数的含义：第一个权重参数为偏置项，第二、三个权重参数相当，只不过贡献方向相反而已。

下面画出，二分类的决策边界：

在这里插入图片描述

#秋招##实习##面经##面试八股文##面霸的自我修养#

全部评论

推荐最新楼层

全世界最苦

合肥师范学院游戏策划

算法还是很常用的，比较牛

点赞回复分享

发布于 2022-08-26 19:09 陕西

11-26 09:15

快手_机器学习算法部_机器学习算法工程师(准入职员工)

霸王茶姬内推，霸王茶姬内推码

市场部/管培生/运营岗📖 1. HR初面（电话/视频）：基础筛选，约20分钟 2. 部门主管复试（现场/视频）：专业能力考核，约30-40分钟 3. 总经办终面（现场）：综合评估与岗位匹配度，约20分钟 TL参考：投递→1天内HR面→3天内复试→终面→2-3天出结果 - “简单自我介绍一下” ✅ 重点：突出与岗位相关的经历（如活动策划、数据分析），结合品牌调性（国风、年轻化）举例。 - “你了解霸王茶姬吗？最近的市场热点是什么？” ✅ 必答知识点： - 品牌定位：“原味鲜奶茶”赛道，对标星巴克的“东方茶饮文化” - 爆款单品：伯牙绝弦（年销1亿杯+） - 近期热点：春节翻译争议（Lunar ...

点赞评论收藏

11-26 09:30

复旦大学 Java

美团上海杨浦总部秋招二面面经

点赞评论收藏

10-29 19:38

杭州电子科技大学硬件开发

求简历意见

9月份到现在投了白来家了，只有两个活人面试😭😭主投的是硬件，射频也带着投，求牛爷爷们拷打

点赞评论收藏

11-05 17:49

中国科学技术大学算法工程师

那就…只能先就业了？

gpa因为长期实习是依托保研大抵无望…..考研是不会一点公司前景似乎还不错，转正也似乎比较稳，算力薪资都比大厂多点（实习和正式都是），而且不加班5天8.5上班18下班估计读研读博除了多花了时间薪资也很难增长了这方面有没有懂哥简历感觉越写越少….面试也好久没面了…lc也好久没做不会点…我有点菜鼠了

NAce：哥，少年班戎马归来才多大年纪啊

你的简历改到第几版了

点赞评论收藏

11-28 12:56

美团_java开发工程师(准入职员工)

安克创新内推，安克创新内推码

助理质量工程师🔆一面 面试官特别好，简直情绪价值拉满了 1、自我介绍 2、实习中部门机制是怎么优化并落地的？有没有遇到什么困难？怎么解决的？ 追问∶成果很好，设计前有没有分析是什么原因导致该指标很低？后续要怎么优化？ 3、遇到需要比你级别高的领导配合的情况，你怎么处理？ 4、遇到最有挑战性的事情？ 5、实习稳定性 6、职业规划 反问∶岗位具体工作场景、改进的地方（此处面试官似乎在暗示我面试过了[呃R]） 🔆二面 整体体验感也不错，没有回答好也不会打断我的话 1、自我介绍 2、问了我凑数的项目，这个项目你想达成的目标是什么？最终有达到预期吗？为什么没有达到预期？ 追问∶在项目中学习到了什么？...

点赞评论收藏

招聘动态

成方金融科技有限公司

全站热榜

华为开奖交流

热聊中

创作者周榜

正在热议

# 高薪高压 vs 低薪wlb，你怎么选？ #

4391次浏览 43人参与

# uu们，春招你还来吗？ #

2584次浏览 25人参与

# 产品实习，你更倾向大公司or小公司 #