小水滴真的是太可爱了吧

2020-09-22 20:31 门头沟学院产品经理

关注

【机器学习笔记day04】1.2. 数据的特征抽取+分类特征变量提取+方法+文本特征提取（只限于英文）+方法+ 图像特征提取

文章目录

1.2. 数据的特征抽取
数据的特征抽取

1.2. 数据的特征抽取

数据的特征抽取

现实世界中多数特征都不是连续变量，比如分类、文字、图像等，为了对非连续变量做特征表述，需要对这些特征做数学化表述，因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法

分类特征变量提取

我们将城市和环境作为字典数据，来进行特征的提取。

sklearn.feature_extraction.DictVectorizer(sparse = True)

将映射列表转换为Numpy数组或scipy.sparse矩阵

sparse 是否转换为scipy.sparse矩阵表示，默认开启

方法

fit_transform(X,y)

应用并转化映射列表X，y为目标类型

inverse_transform(X[, dict_type])

将Numpy数组或scipy.sparse矩阵转换为映射列表

from sklearn.feature_extraction import DictVectorizer
onehot = DictVectorizer() # 如果结果不用toarray，请开启sparse=False
instances = [{
   'city': '北京','temperature':100},{
   'city': '上海','temperature':60}, {
   'city': '深圳','temperature':30}]
X = onehot.fit_transform(instances).toarray()
print(onehot.inverse_transform(X))

文本特征提取（只限于英文）

文本的特征提取应用于很多方面，比如说文档分类、垃圾邮件分类和新闻分类。那么文本分类是通过词是否存在、以及词的概率（重要性）来表示。

(1)文档的中词的出现

数值为1表示词表中的这个词出现，为0表示未出现

sklearn.feature_extraction.text.CountVectorizer()

将文本文档的集合转换为计数矩阵（scipy.sparse matrices）

方法

fit_transform(raw_documents,y)

学习词汇词典并返回词汇文档矩阵

from sklearn.feature_extraction.text import CountVectorizer
content = ["life is short,i like python","life is too long,i dislike python"]
vectorizer = CountVectorizer()
print(vectorizer.fit_transform(content).toarray())

需要toarray()方法转变为numpy的数组形式

温馨提示：每个文档中的词，只是整个语料库中所有词，的很小的一部分，这样造成特征向量的稀疏性（很多值为0）为了解决存储和运算速度的问题，使用Python的scipy.sparse矩阵结构

(2)TF-IDF表示词的重要性

TfidfVectorizer会根据指定的公式将文档中的词转换为概率表示。（朴素贝叶斯介绍详细的用法）

class sklearn.feature_extraction.text.TfidfVectorizer()

方法

fit_transform(raw_documents,y)

学习词汇和idf，返回术语文档矩阵。

from sklearn.feature_extraction.text import TfidfVectorizer
content = ["life is short,i like python","life is too long,i dislike python"]
vectorizer = TfidfVectorizer(stop_words='english')
print(vectorizer.fit_transform(content).toarray())
print(vectorizer.vocabulary_)

图像特征提取

全部评论

推荐最新楼层

11-27 17:09

门头沟学院前端工程师

腾讯——社招视频一面（1小时）

1.自我介绍2.马上就开始手撕题目了。（屏幕共享 可以本地code），楼主比较菜，而且看出来面试官比较急，给我几分钟思考时间，不行就下一题了。所以楼主最后一题完全做不出来没思路，估计会挂了（1）实现一个简单的实时时钟（2）基于上面的时钟，计算时针分钟的夹角（3）实现一个render函数，替换掉template中的字符串。例如template=` aaa, {{strA}} bbb {{word}}`，然后render(template， args.....)，识别出template中药替换的字符串 并且用参数列表的参数 按顺序替换即可。还算简单。（4）实现类似手机应用的拖拽功能，...

查看15道真题和解析

点赞评论收藏

分享

11-28 21:20

门头沟学院 C++

大家怎么看待计算机的各个方向

1.传统后端：各种主流语言，如java方向，Cpp方向（很少），以及流行趋势的语言如Go，python2.Cpp方向：Cpp的每个方向就像生殖隔离一样，什么嵌入式，游戏开发，服务器开发，客户端开发，量化之类的种种3.Java方向：java后端,服务器之类的4.测开：版本答案？这个方向如何呢5.前端：也是版本答案？6.客户端：牛客上出现了客户端劝退群体7.传统测试：这个不好说8.数据库相关工作9.运维/技术支持/技术服务......

BLOOMING7：测开版本答案？

生活随笔记录如果再来一次，你还会选择这个工作吗？简历被挂麻了，求建议

点赞评论收藏

分享

10-15 16:27

门头沟学院 C++

感觉被侮辱了

LeoMoon：建议问一下是不是你给他付钱😅😅

点赞评论收藏

分享

10-27 21:46

南京航空航天大学 C++

华子流程挂了是不是秋招就再没机会了，感觉投错部门了

自信的小松鼠在评审：为啥挂

点赞评论收藏

分享

11-28 00:34

亚马逊_sfs_sde

老牛友回来看看0.0

19年开始活跃在牛客，天天水，哈哈，那时候离找工作还很远，转眼到21年，轮到我找工作了，很幸运的找到了自己心仪的工作，22年毕业就去了上班了，结果刚转正就被裁了。23年进了国企，8.5 5.5 5，上班时间大概都在摸鱼，哈哈，真国企就是舒服，24年从国企离职，去了省厅，比国企累了不少，限制也多了不少。今天突然想起来了牛客，就上来看看，好怀念以前水牛客的日子，好怀念上学时无忧无虑的自己。

投递牛客等公司10个岗位 >

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

正在热议

# 25届秋招总结 #

474467次浏览 4854人参与

# 职场情商大赛 #

2203次浏览 36人参与

# 地方国企笔面经互助 #

9024次浏览 19人参与

# 晒一晒我的offer #

10048754次浏览 106489人参与

# 今年形式下双非本找得到工作吗 #

53074次浏览 489人参与

# 如何排解工作中的焦虑 #

75500次浏览 1069人参与

# 面试体验感最好的是哪家？ #

99533次浏览 1028人参与

# 同bg的你秋招战况如何？ #

95050次浏览 732人参与

# 怎么面对正在吵架的两个同事 #

8503次浏览 71人参与

# 第一份工作应该选择高薪还是大平台 #

93220次浏览 605人参与

# 你觉得比亚迪今年还有春招吗？ #

157508次浏览 951人参与

# 找工作时遇到的神仙HR #

570507次浏览 3902人参与

# Offer比较，你最看重什么？ #

110169次浏览 778人参与

# 面试被问第一学历差时该怎么回答 #

80598次浏览 520人参与

# 比亚迪秋招开啦，你打算投递吗？ #

37920次浏览 338人参与

# 大家每天通勤多久？ #

9906次浏览 98人参与

# 求职你最看重什么？ #

18038次浏览 125人参与

# 实习，投递多份简历没人回复怎么办 #

2471269次浏览 34988人参与

# 你投了多少份简历了？ #

69470次浏览 823人参与

# 国企/银行/研究所公司爆料 #

92857次浏览 424人参与

牛客网
牛客企业服务