学习使我快乐虚妄

2019-07-29 21:57 已编辑校一等奖学金 Java

关注

读取SpreadSheetML，建立6个词云

xml为SpreadSheetML格式（Excel的xml格式）。具体：https://blog.csdn.net/lmhuanying1012/article/details/78753851

经过删除<Style></Style>之后为

ps：一定要检查文件是否完整。解析错误可能是文件有问题。这个文件不完整，报错 parse unkown line 5443,因为没有</ss:Worksheet>之类。

1. 解析

import xml.dom.minidom
import pandas as pd


dom=xml.dom.minidom.parse('introduce.xml')
root=dom.documentElement#获得xml文档对象
use=root.getElementsByTagName('ss:Cell')#获得子标签

2. xml转为dataframe

cols=['c_id','c_account','c_hope_time','c_hobby','c_introduce','c_choose_standard']
df_xml=pd.DataFrame(columns=cols)




#Row标签为最外层，取第一个cell标签，再取其中的Data标签，打印出来内容
i=0
c_id=0
while i<use.length:
   temp=use[i].getElementsByTagName('Data')[0].firstChild
#use[i]第几行数据，getElementsByTagName('nodeName')获得子标签，
#获得标签对之间的数据 temp.firstChild.data===temp.childNodes[0].nodevalue
   if temp:
       temp=temp.data
   else:
       temp='nan'#处理null
   if(i%6==0):
       c_id=temp
   elif i%6==1:
       c_account=temp
   elif i%6==2:
       c_hope_time=temp
   elif i%6==3:
       c_hobby=temp
   elif i%6==4:
       c_introduce=temp
   else:
       c_choose_standard=temp
     
   if (i%5==0) & (i>=10):
#dataframe添加记录df.append()
#pd.Series([数据],index=[列名])创建数组
       df_xml=df_xml.append(
           pd.Series([c_id,c_account,c_hope_time,c_hobby,c_introduce,c_choose_standard],
                      index=cols),ignore_index=True)      
   i=i+1 
   
   
#转为csv保存
df_xml['c_id']=df_xml['c_id'].astype('int')#某列类型转换
df_xml=df_xml.sort_values(by='c_id').reset_index(drop=True)#按照某列排序
df_xml=df_xml.drop_duplicates(subset=['c_id'])#pd去重
df_xml.to_csv('introduce.csv',index=False,encoding='utf_8_sig')#中文写入csv，注意乱码问题,encoding='utf_8_sig'

全部评论

推荐最新楼层

03-19 09:38

Blessed John XXIII National Seminary (Weston) Java

有个同事因为恐惧 AI 要离职了

今天看到一件事，我对着屏幕沉默了良久。事情是这样的：他今年 25 岁，来公司三年，一直做一些偏基础的开发、维护类工作，平时话不多，做事也算踏实。我一开始还以为是薪资、晋升或者团队氛围的问题，结果他完全没提这些，只反复说：AI 发展太快了，他每天都很焦虑。他说自己现在做的很多工作，比如简单的 CRUD、脚本编写、问题排查、文档整理、重复性的业务开发，AI 已经能完成一大半，甚至比他写得更快、更规范。他越用越慌，总觉得自己现在这套技能，再过一两年就彻底没用了，岗位迟早会被 AI 替代，到时候更被动。他不是不努力，也不是不想学，就感觉学了也没用，越学越迷茫，不知道该往哪个方向补，每天上班都被 “被替...

聊聊我眼中的AI

点赞评论收藏

分享

03-20 16:25

西安电子科技大学 Java

彻底击垮面试官心里防线，放下戒备，听你吹

前言虎狼之词如何培养信任，让面试官放下戒备，听你吹？本文主要从以下几个纬度去突破：心理分析、面试官痛点、如何准备面试逐一讲解面试格言：没有不会的技术，只有没有背到面试题。（大牛不用准备面试的当我没说）STAR面试法面试法则STAR：即通过描述完整的项目背景，目标，行动和结果的完整过往经历来记录候选人过去的项目结果和思考，以及过程中体现出来的人才特质。现在你知道面试官问什么爱问你项目了吗？知道面试官也是讲套路的了吧？既然爱问项目，那我们先思考下，什么样的项目高大上，大家一听就觉得牛杯呢？当然是：分布式，微服务，高并发，高可用。有人会说了， 这我也没接触过啊，没吃过猪肉，还没见过猪跑？没接触过，就...

如何判断面试是否凉了

点赞评论收藏

分享

03-01 21:45

中北大学 Python

26届双非本科应届求拷打啊啊啊

感觉寄了，代码都让ai写了，现在心里慌慌慌。怕不给面试，也怕给了面试。第一次面试说要出一道算法题脑子一片空白😐。。。

孤蓝长空：请你说一下为什么你用websocket而不是http，请你说一下什么是rpc，为什么用rpc，你的rpc的传输协议是JSON，xml还是什么请你描述一下你的鉴权流程（完整的）我问的是第二个项目，随便问的哈哈哈

开工第一帖

点赞评论收藏

分享

昨天 15:12

本人27届毕业生，去年暑假开始准备后端方向，java语言。拖拖拉拉到现在。目前做了苍穹，正在学redis和算法，四月份准备蓝桥杯，还有Springcloud八股都还没学到，感觉有点来不及了，想学完现在的东西，立马开始学习八股和算法，狂学刀蓝桥杯结束，然后写简历，投简历，倒时候边投边学，不然怕面试随便问一个八股我都答不上来。这种方法可行吗，求助各位大佬。

27届求职交流

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 春招/暑实第一面是哪家？ #

29279次浏览 307人参与

# 军工所铁饭碗 vs 互联网高薪资，你会选谁 #

6245次浏览 32人参与

# 巨人网络春招 #

10891次浏览 164人参与

# 腾讯音乐求职进展汇总 #

159946次浏览 1100人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

185694次浏览 1103人参与

# 小红书求职进展汇总 #

226305次浏览 1351人参与

# MiniMax求职进展汇总 #

21191次浏览 273人参与

# 硬件人秋招的第一个offer #

122288次浏览 1453人参与

# 实习到现在，你最困惑的一个问题 #

31176次浏览 271人参与

# 如果重来一次你还会读研吗 #

229000次浏览 2009人参与

# 网易游戏笔试 #

6071次浏览 83人参与

# 职能管理面试记录 #

10392次浏览 57人参与

# 把自己当AI，现在最消耗你token的问题是什么？ #

6148次浏览 151人参与

# 正在春招的你，也参与了去年秋招吗？ #

361700次浏览 2628人参与

# 硬件应届生薪资是否普遍偏低？ #

108127次浏览 601人参与

# 简历中的项目经历要怎么写？ #

308439次浏览 4094人参与

# 工作中遇到的歹人 #

96267次浏览 535人参与

# 我的AI电子员工 #

34096次浏览 223人参与

# 校招笔试 #

461351次浏览 2943人参与

# AI时代，哪些岗位最容易被淘汰 #

60861次浏览 642人参与

# 你怎么看待AI面试 #

178435次浏览 1085人参与

# 如何一边实习一边找下家？ #

40181次浏览 349人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务