2022-10-21 09:56 邯郸学院新媒体运营发布于河北

关注

深度学习——如何用LSTM进行文本分类

简介

主要内容包括

如何将文本处理为Tensorflow LSTM的输入

如何定义LSTM

用训练好的LSTM进行文本分类

代码

导入相关库

#coding=utf-8

import tensorflow as tf

from tensorflow.contrib import learn

import numpy as np

from tensorflow.python.ops.rnn import static_rnn

from tensorflow.python.ops.rnn_cell_impl import BasicLSTMCell

数据

# 数据

positive_texts = [

"我今天很高兴",

"我很开心",

"他很高兴",

"他很开心"

]

negative_texts = [

"我不高兴",

"我不开心",

"他今天不高兴",

"他不开心"

]

label_name_dict = {

0: "正面情感",

1: "负面情感"

}

配置信息

embedding_size = 50

num_classes = 2

将文本和label数值化

# 将文本和label数值化

all_texts = positive_texts + negative_textslabels = [0] * len(positive_texts) + [1] * len(negative_texts)

max_document_length = 4

vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)

datas = np.array(list(vocab_processor.fit_transform(all_texts)))

vocab_size = len(vocab_processor.vocabulary_)

定义placeholder(容器)，存放输入输出

# 容器，存放输入输出

datas_placeholder = tf.placeholder(tf.int32, [None, max_document_length])

labels_placeholder = tf.placeholder(tf.int32, [None])

词向量处理

# 词向量表

embeddings = tf.get_variable("embeddings", [vocab_size, embedding_size], initializer=tf.truncated_normal_initializer)

# 将词索引号转换为词向量[None, max_document_length] => [None, max_document_length, embedding_size]

embedded = tf.nn.embedding_lookup(embeddings, datas_placeholder)

将数据处理为LSTM的输入格式

# 转换为LSTM的输入格式，要求是数组，数组的每个元素代表某个时间戳一个Batch的数据

rnn_input = tf.unstack(embedded, max_document_length, axis=1)

定义LSTM

# 定义LSTM

lstm_cell = BasicLSTMCell(20, forget_bias=1.0)

rnn_outputs, rnn_states = static_rnn(lstm_cell, rnn_input, dtype=tf.float32)

#利用LSTM最后的输出进行预测

logits = tf.layers.dense(rnn_outputs[-1], num_classes)

predicted_labels = tf.argmax(logits, axis=1)

定义损失和优化器

# 定义损失和优化器

losses= tf.nn.softmax_cross_entropy_with_logits(

labels=tf.one_hot(labels_placeholder, num_classes),

logits=logits

)

mean_loss = tf.reduce_mean(losses)

optimizer = tf.train.AdamOptimizer(learning_rate=1e-2).minimize(mean_loss)

执行

with tf.Session() as sess:

# 初始化变量

sess.run(tf.global_variables_initializer())

训练# 定义要填充的数据

feed_dict = {

datas_placeholder: datas,

labels_placeholder: labels

}

print("开始训练")

for step in range(100):

_, mean_loss_val = sess.run([optimizer, mean_loss], feed_dict=feed_dict)

if step % 10 == 0:

print("step = {}\tmean loss = {}".format(step, mean_loss_val))

预测

print("训练结束，进行预测")

predicted_labels_val = sess.run(predicted_labels, feed_dict=feed_dict)

for i, text in enumerate(all_texts):

label = predicted_labels_val[i]

label_name = label_name_dict[label]

print("{} => {}".format(text, label_name))

分享安排：

目标：

1.掌握大数据建模分析与使用方法。

2.掌握大数据平台技术架构。

3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。

4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。

5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。

6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用，以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。

7.掌握常见的机器学习算法。

具体内容：

一、大数据概述：1.大数据及特点分析；2.大数据关健技术；3.大数据计算模式；4.大数据应用实例

二、大数据处理架构Hadoop：1.Hadoop项目结构；2.Hadoop安装与使用；3.Hadoop集群的部署与使用；4.Hadoop 代表性组件

三、分布式文件系统HDFS ：1.HDFS体系结构；2.HDFS存储；3.HDFS数据读写过程

四、分布式数据库HBase ：1.HBase访问接口；2.HBase数据类型；3.HBase实现原理；4.HBase运行机制；5.HBase应用

五、MapReduce ：1.MapReduce体系结构；2.MapReduce工作流程；3.资源管理调度框架YARN ；4.MapReduce应用

六、Spark ：1.Spark生态与运行架构；2.Spark SQL；3.Spark部署与应用方式

七、IPython Notebook运行Python Spark程序：1.Anaconda；2.IPython Notebook使用Spark；3.使用IPython Notebook在Hadoop YARN模式运行

八、Python Spark集成开发环境：1.Python Spark集成开发环境部署配置；2.Spark数据分析库MLlib的开发部署

九、Python Spark决策树二分类与多分类：1.决策树原理；2.大数据问题；3.决策树二分类；4.决策树多分类

十、Python Spark支持向量机：1.支持向量机SVM 原理与算法；2.Python Spark SVM程序设计

十一、Python Spark 贝叶斯模型：1.朴素贝叶斯模型原理；2.Python Spark贝叶斯模型程序设计

十二、Python Spark逻辑回归：1.逻辑回归原理；2.Python Spark逻辑回归程序设计

十三、Python Spark回归分析：1.大数据分析；2.数据集介绍；3.Python Spark回归程序设计

十四、Spark ML Pipeline 机器学习流程分类：1.机器学习流程组件：StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 机器学习流程分类程序设计

十五、Python Spark 创建推荐引擎：1.推荐算法；2.推荐引擎大数据分析使用场景；3.推荐引擎设计

十六、项目实践：1.日志分析系统与日志挖掘项目实践；2.推荐系统项目实践

关注我并发布评论，来获取更多有效资料吧！！！

全部评论

推荐最新楼层

牛客1058号

南京理工大学电气工程师

推荐系统项目实践

点赞回复分享

发布于 2022-10-21 15:53 河南

02-17 15:52

北京外国语大学平台产品

微信AI搜索接入DeepSeek，以后还会有信息差吗？

微信接入deepseek，上线了新功能——AI搜索！大家用上了吗？ 一、功能亮点速览 1. 入口直达：微信顶部搜索框→点击“AI搜索”（灰度测试中，部分用户可见）→选择“深度思考模式”。 2. 深度思考模式：回答附带完整逻辑链，支持结果直接转发好友或群聊。 3. 权威信源整合：答案融合微信公众号推文、网页信息等多渠道内容，比如“校招攻略”直接甩出10篇高赞推文。 4. 免费使用：目前开放的DeepSeek-R1“满血版”无需付费，无广告干扰。 二、使用教程 1. 定位入口 打开微信→点击首页顶部搜索框→若出现“AI搜索”标签，恭喜你已进入灰度测试名单！未显示的用户可等待后续分批开放。如果没有...

聊聊我眼中的AI

点赞评论收藏

02-12 18:03

门头沟学院嵌入式软件开发

嵌入式校招岗位整理02/12-元宵节快乐

英特尔中国 恩智浦 盛科通信 TP-Link联洲 TP-Link普联 瑞芯微 格力电器 东风汽车 爱玛 中科微精 北汽集团 OPPO 景嘉微 【嵌入式八股】一、语言篇https://www.nowcoder.com/creation/manager/columnDetail/mwQPeM 【嵌入式八股】二、计算机基础篇https://www.nowcoder.com/creation/manager/columnDetail/Mg5Lym 【嵌入式八股】三、硬件篇https://www.nowcoder.com/creation/manager/columnDetail/MRVDlM 【嵌入...

投递北汽集团等公司10个岗位 > 嵌入式校招岗位整理

点赞评论收藏

02-15 16:47

沈阳化工大学 Java

杭州实在智能二面

自我介绍为什么没有选择留在百度介绍你觉得最能理解的项目，做些什么，怎么设计的，想要达成什么目标 从实际业务的可用性来说，可以对你的项目进行什么扩展（感觉说了很多，一直在问我还有吗，但是可能和他期待的点不同）说我并没有站在使用者的角度，而是站在开发者的角度去考虑的，然后和我说他想要的是自动调整的功能（这个其实我想过，但是没有想起来）hashmap和concurrenthashmap区别hashmap为什么并发不安全（可能出现值覆盖，扩容的时候会出现循环链表）然我举一个实际扩容出现循环链表的例子（这个确实有点忘记嘞）Java的内存模型哪些区域是共享的哪些是私有的索引失效的场景最左前...

查看12道真题和解析

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 你最满意的offer薪资是哪家公司？ #