Python3解析XML文件并存入Excel表中

1. XML文件部分数据如下:

<?xml version='1.0' encoding='UTF-8'?>
<nvd xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://nvd.nist.gov/feeds/cve/1.2" nvd_xml_version="1.2" pub_date="2017-05-12" xsi:schemaLocation="http://nvd.nist.gov/feeds/cve/1.2 https://scap.nist.gov/schema/nvd/nvd-cve-feed_1.2.1.xsd">
  <entry type="CVE" name="CVE-1999-0001" seq="1999-0001" published="1999-12-30" modified="2010-12-16" severity="Medium" CVSS_version="2.0" CVSS_score="5.0" CVSS_base_score="5.0" CVSS_impact_subscore="2.9" CVSS_exploit_subscore="10.0" CVSS_vector="(AV:N/AC:L/Au:N/C:N/I:N/A:P)">
    <desc>
      <descript source="cve">ip_input.c in BSD-derived TCP/IP implementations allows remote attackers to cause a denial of service (crash or hang) via crafted packets.</descript>
    </desc>
    <loss_types>
      <avail/>
    </loss_types>
    <range>
      <network/>
    </range>
    <refs>
      <ref source="CONFIRM" url="http://www.openbsd.org/errata23.html#tcpfix">http://www.openbsd.org/errata23.html#tcpfix</ref>
    </refs>
    <vuln_soft>
      <prod name="freebsd" vendor="freebsd">
        <vers num="1.1.5.1"/>
        <vers num="2.2.8"/>
        <vers num="2.2"/>
        <vers num="1.0"/>
        <vers num="2.1.7"/>
        <vers num="2.2.6"/>
        <vers num="2.1.6.1"/>
        <vers num="3.0"/>
        <vers num="2.0"/>
        <vers num="2.1.7.1"/>
        <vers num="1.1"/>
        <vers num="2.2.2"/>
        <vers num="1.2"/>
        <vers num="2.0.5"/>
        <vers num="2.2.3"/>
        <vers num="2.0.1"/>
        <vers num="2.1.5"/>
        <vers num="2.2.4"/>
        <vers num="2.1.6"/>
        <vers num="2.2.5"/>
      </prod>
      <prod name="bsd_os" vendor="bsdi">
        <vers num="3.1"/>
      </prod>
      <prod name="openbsd" vendor="openbsd">
        <vers num="2.4"/>
        <vers num="2.3"/>
      </prod>
    </vuln_soft>
  </entry>

 XML学习教程

2. Python3解析XML并将数据写入Excel表中

# -*- coding: utf-8 -*-
import xml.dom.minidom #导入处理xml文件的模块
import pandas as pd

#打开xml文档 并将这个文件对象存入dom变量
dom = xml.dom.minidom.parse('dataset_source/NVD/nvdcve-2002.xml')
#得到文档元素对象
root = dom.documentElement #用于得到dom对象的文档元素,并把获得的对象给root

#获得标签为entry的多组标签
entry_tag=dom.getElementsByTagName('entry')
data1=entry_tag[0] #表示多组标签中的第一个,entry_tag[2]表示这多组标签中的第三个
cve_name=data1.getAttribute("name") #获得元素属性对应的值
print(cve_name)
lenth=entry_tag.length  #获取xml文件中标签对为entry的个数
print(len(entry_tag))   #获取xml文件中标签对为entry的个数
print(lenth)


descript_tag=dom.getElementsByTagName('descript') #获得标签为entry的多组标签
data2=descript_tag[0]
descript=data2.firstChild.data  #获得标签对之间的数据
print(descript)

#获取entry标签的子标签descript之间的数据
data3=dom.getElementsByTagName('entry')[0].getElementsByTagName('descript')[0].firstChild.data
print(data3)


cve_list=[]
descript_list=[]
cve_list.append(cve_name) #将获得的数据存入列表
descript_list.append(descript)
all_dict={'CVE':cve_list,'Decript':descript_list} #将列表存储为字典
df = pd.DataFrame(all_dict) #将字典转换为DataFrame

#将DataFrame数据写入excel表中
with pd.ExcelWriter('new.xls') as Writer:
    df.to_excel(Writer,'Sheet1',index=False)

结果为:

 

全部评论

相关推荐

菜菜咪:1. 可以使用简历网站的模版,美观度会更好一点 2. 邮箱可以重新申请一个,或者用qq邮箱的别名,部分hr可能会不喜欢数字邮箱 3. 项目经历最好分点描述,类似的项目很多,可以参考一下别人怎么写的 4. 自我评价可加可不加,技术岗更看重技术。最后,加油,优秀士兵
点赞 评论 收藏
分享
11-05 07:29
贵州大学 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务