过好每一秒 - 个人主页动态

2020-06-12 09:26

已编辑

深度学习项目三：自动语音识别---采用的是WAVENet网络结构（含数据和所需源码）并讲了空洞卷积+一维卷积

自动语音识别 目录 自动语音识别 介绍几个前导知识： 了解数据集 代码实现+讲解 首先我们看一下WaveNet的网络结构：          我大概描述一下这个网络的结构： 首先输入数据，这里我们输入的是音频的mfcc特征（不懂没关系，等会说） ， 接着进行一个一维的空洞卷积，然后进入到残差块中，残差块是这样的结构：将进来的数据再进行一次空洞卷积，分两路，一路是用tanh()做激活函数，一路是用sigmoid做激活函数，最后又将两路合并，合并完成后，我们在经过一个一维的空洞卷积，这里得到的输出，我们又会进行两路处理，一路是进入下一次的残差块，一路是往右边发展，经过一个rel...

0 点赞评论收藏

2020-06-12 09:26

微博_广告算法_算法工程师

LSTM和GRU网络的介绍和区别

目录  LSTM  GRU  最后说一下LSTM和GRU的区别 LSTM 首先看一下LSTM的结构： 我们将结构拆开看： 遗忘门：         就是将上一层的输出，和本层的输***合起来乘个权重，加个偏置。最后经过一个sigmoid。。sigmoid函数值为0代表忘记 记忆门：         C_{t-1}就是来自上一层记忆，我们现在要计算本层传给下一层的记忆  C_t   输出门： 本层的输出  h_t    GRU  GRU网络只有两个门，分别是更新门和重置门。  也就是图中 Zt  和 Rt 的计算。       更新门：是用...

0 点赞评论收藏

2020-06-12 09:26

已编辑

微博_广告算法_算法工程师

深度学习项目四：实现自己的中文分词模型，基于双向的LSTM（含数据和所需源码）

讲一下大概的思路：       数据有训练集（已分词的），词表，测试集（未分词的），测试集（已分词的），总共四个文件夹，具体看下面的截图。              训练集：            词表：        测试集（未分词的）        测试集（已分词的）       首先整理汉字到id的映射，就是将词表读入，然后将所有词连接起来，统计每个词出现的次数，进行排序，然后进行id的一一映射。       然后，我们定义五种标签，分别是s（单个字成词，用数字0代替），b（一个长词的第一个字，用数字1代替），m（一个长词中间的那些字，用数字2代替），e（一...

0 点赞评论收藏

2020-06-12 09:25

已编辑

微博_广告算法_算法工程师

python3安装pyhanlp (中文自然语言处理的工具包) 超详细。

第一步：           首先要有个python的环境，还得有个java的环境（安装jdk8以上，并配置好环境变量）。自己想办法 第二步： 下载jpype的安装包       下载完成后切换到下载路径， 直接用pip装 pip3 install JPype1-0.6.3-cp36-cp36m-win_amd64.whl       这里之所以这样下载，就是因为直接用pip装的时候，会报错，显示需要c++环境 第三步： 装pyhanlp             直接输入以下命令， 后面 -i是指定下载源，我指定的是豆瓣。这里也可以不指定，直接pip3 insta...

0 点赞评论收藏

2020-06-12 09:25

微博_广告算法_算法工程师

《算法原理讲解》：EM算法

目录   通俗理解极大似然估计 EM算法引例 EM算法公式推导 Jensen不等式  EM算法的流程 通俗理解极大似然估计        举个例子：假设有一百个男生，我们抽取五十个人进行身高的统计。  我们根据先验知识知道，身高服从高斯分布 ，但高斯分布的方差和均值不知道。 我们想通过抽取出的五十个人升高估计这两个参数，这就是极大似然估计。       后面累乘的那部分就是：假设已知参数，抽取每个同学的概率。  对于咱们这个问题，就是累乘我们抽取50个学生的概率。在那100多个男生中，我一抽就抽到这50个男生，而不是其他人，那说明在整个男生中，这50个人（的身高）出现的概...

0 点赞评论收藏

2020-06-12 09:24

微博_广告算法_算法工程师

gensim实现LDA主题模型-------实战案例（分析希拉里邮件的主题）

数据集下载：https://download.csdn.net/download/qq_41185868/10963668 第一步： 加载一些必要的库， 我们用的是gensim中的LDA模型，所以必须安装gensim库 import pandas as pd import re from gensim.models import doc2vec, ldamodel from gensim import corpora 第二步：咱们看一下数据集， 这里的数据集有20个特征，我们只取两个。 id 和 邮件内容。 if __name__ == '__main__': # 加载数...

0 点赞评论收藏

2020-06-12 09:24

已编辑

微博_广告算法_算法工程师

通俗理解Word2Vec的数学原理

《通俗理解Word2Vec》目录 简述Word2Vec      CBOW模型用层级softmax实现 CBOW模型负采样方式实现 简述Word2Vec           首先，我们都知道Word2Vec是用来产生词向量的，词向量就是用一长串数字表示一个单词或者词语。一般这个过程是作为NLP的前导工作。基础性的东西在这不讲了。        Word2Vec有两个典型的模型：COBW模型和Skip-gram模型。COBW模型是根据上下文去预测中心词，Skip-gram是根据中心词预测上下文。下面是这两种模型的结构：       针对这两种模型又有两种实现方式：Hierar...

0 点赞评论收藏

2020-06-12 09:23

微博_广告算法_算法工程师

第十三天：《LeetCode一天一例》-----两个字符串之间的最小编辑距离（python实现）

0 点赞评论收藏

2020-06-12 09:23

已编辑

微博_广告算法_算法工程师

Tensorflow实现的深度NLP模型集锦

本文转自： https://www.toutiao.com/a6685688607191073294/ 本文约2000字，建议阅读5分钟。 本文收集整理了一批基于Tensorflow实现的深度学习/机器学习的深度NLP模型。     收集整理了一批基于Tensorflow实现的深度学习/机器学习的深度NLP模型。 基于Tensorflow的自然语言处理模型，为自然语言处理问题收集机器学习和Tensorflow深度学习模型，100%Jupeyter NoteBooks且内部代码极为简洁。 资源整理自网络，源地址： https://github.com/husein...

0 点赞评论收藏

2020-06-12 09:23

已编辑

微博_广告算法_算法工程师

上采样，上池化，反卷积详解

1、Upsampling（上采样） 在FCN、U-net等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。 <figcaption> 上采样 </figcaption> 2、上池化 Unpooling是在CNN中常用的来表示max pooling的逆操作。这是论文《Visualizing and Understanding Convo...

0 点赞评论收藏

2020-06-12 09:22

已编辑

微博_广告算法_算法工程师

keras各种层的简单说明

[神经网络]keras中的层 全连接层：Dense Activation层：对一个层的输出添加激活函数 Dropout层：每次更新参数的时候随机断开一定百分比(b)的输入神经元连接，用于防止过拟合 Flatten层：用来将输入“压平”，即把***的输入一维化，常用在从卷积层到全连接层的过渡。 Reshape层：用来将输入shape转换为特定的shape Permute层：将输入的维度按照给定模式进行重排，例如，当需要将RNN和CNN网络连接时，可能会用到该层。 RepeatVector层：RepeatVector层将输入重复n次 Merg...

0 点赞评论收藏

2020-06-12 09:22

微博_广告算法_算法工程师

keras中Conv， SeparableConv2D, DepthwiseConv2D三种卷积过程浅谈

Conv， SeparableConv2D,  DepthwiseConv2D三种卷积浅谈 画图能力有限，哪里不懂留言交流。

0 点赞评论收藏

2020-06-12 09:22

微博_广告算法_算法工程师

Google的bert预训练模型下载地址＋将tensorflow版本的预训练模型转为pytorch版本进行加载

google的bert预训练模型： BERT-Large, Uncased (Whole Word Masking): 24-layer, 1024-hidden, 16-heads, 340M parameters BERT-Large, Cased (Whole Word Masking): 24-layer, 1024-hidden, 16-heads, 340M parameters BERT-Base, Uncased: 12-layer, 768-hidden, 12-heads, 110M parameters BERT-Large, Uncased: 24-l...

0 点赞评论收藏

2020-06-12 09:21

微博_广告算法_算法工程师

tmux终端工具的简单使用

tmux终端工具的简单使用     安装方式:           在ubuntu下可以使用apt-get的方式安装，比如： sudo apt-get install tmux 即可           在CentOS 7.x的系统下可以直接使用yum方式安装： yum install -y tmux            另外还可以使用源码的方式编译，地址：http://tmux.github.io，注意：tmux包依赖于libevent，并且有版本要求，使用apt-get或者yum的方式会自动解决依赖.     tmux的简单使用：     1. 创建新的会话并进入     ...

0 点赞评论收藏

2020-06-12 09:21

微博_广告算法_算法工程师

机器翻译, 文本生成等任务评价指标 BLEU, ROUGE, PPL(困惑度)

一:BLEU      1.1  BLEU 的全称是 Bilingual evaluation understudy，BLEU 的分数取值范围是 0～1，分数越接近1，说明翻译的质量越高。BLEU 主要是基于精确率(Precision)的，下面是 BLEU 的整体公式。                                    BLEU 需要计算译文 1-gram，2-gram，...，N-gram 的精确率，一般 N 设置为 4 即可，公式中的 Pn 指 n-gram 的精确率。 Wn 指 n-gram 的权重，一般设为均匀权重，即对于任意 n 都有 Wn = 1/...

0 点赞评论收藏

关注他的用户也关注了：