Python3解析XML文件并存入Excel表中
1. XML文件部分数据如下:
<?xml version='1.0' encoding='UTF-8'?>
<nvd xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://nvd.nist.gov/feeds/cve/1.2" nvd_xml_version="1.2" pub_date="2017-05-12" xsi:schemaLocation="http://nvd.nist.gov/feeds/cve/1.2 https://scap.nist.gov/schema/nvd/nvd-cve-feed_1.2.1.xsd">
<entry type="CVE" name="CVE-1999-0001" seq="1999-0001" published="1999-12-30" modified="2010-12-16" severity="Medium" CVSS_version="2.0" CVSS_score="5.0" CVSS_base_score="5.0" CVSS_impact_subscore="2.9" CVSS_exploit_subscore="10.0" CVSS_vector="(AV:N/AC:L/Au:N/C:N/I:N/A:P)">
<desc>
<descript source="cve">ip_input.c in BSD-derived TCP/IP implementations allows remote attackers to cause a denial of service (crash or hang) via crafted packets.</descript>
</desc>
<loss_types>
<avail/>
</loss_types>
<range>
<network/>
</range>
<refs>
<ref source="CONFIRM" url="http://www.openbsd.org/errata23.html#tcpfix">http://www.openbsd.org/errata23.html#tcpfix</ref>
</refs>
<vuln_soft>
<prod name="freebsd" vendor="freebsd">
<vers num="1.1.5.1"/>
<vers num="2.2.8"/>
<vers num="2.2"/>
<vers num="1.0"/>
<vers num="2.1.7"/>
<vers num="2.2.6"/>
<vers num="2.1.6.1"/>
<vers num="3.0"/>
<vers num="2.0"/>
<vers num="2.1.7.1"/>
<vers num="1.1"/>
<vers num="2.2.2"/>
<vers num="1.2"/>
<vers num="2.0.5"/>
<vers num="2.2.3"/>
<vers num="2.0.1"/>
<vers num="2.1.5"/>
<vers num="2.2.4"/>
<vers num="2.1.6"/>
<vers num="2.2.5"/>
</prod>
<prod name="bsd_os" vendor="bsdi">
<vers num="3.1"/>
</prod>
<prod name="openbsd" vendor="openbsd">
<vers num="2.4"/>
<vers num="2.3"/>
</prod>
</vuln_soft>
</entry>
XML学习教程
2. Python3解析XML并将数据写入Excel表中
# -*- coding: utf-8 -*-
import xml.dom.minidom #导入处理xml文件的模块
import pandas as pd
#打开xml文档 并将这个文件对象存入dom变量
dom = xml.dom.minidom.parse('dataset_source/NVD/nvdcve-2002.xml')
#得到文档元素对象
root = dom.documentElement #用于得到dom对象的文档元素,并把获得的对象给root
#获得标签为entry的多组标签
entry_tag=dom.getElementsByTagName('entry')
data1=entry_tag[0] #表示多组标签中的第一个,entry_tag[2]表示这多组标签中的第三个
cve_name=data1.getAttribute("name") #获得元素属性对应的值
print(cve_name)
lenth=entry_tag.length #获取xml文件中标签对为entry的个数
print(len(entry_tag)) #获取xml文件中标签对为entry的个数
print(lenth)
descript_tag=dom.getElementsByTagName('descript') #获得标签为entry的多组标签
data2=descript_tag[0]
descript=data2.firstChild.data #获得标签对之间的数据
print(descript)
#获取entry标签的子标签descript之间的数据
data3=dom.getElementsByTagName('entry')[0].getElementsByTagName('descript')[0].firstChild.data
print(data3)
cve_list=[]
descript_list=[]
cve_list.append(cve_name) #将获得的数据存入列表
descript_list.append(descript)
all_dict={'CVE':cve_list,'Decript':descript_list} #将列表存储为字典
df = pd.DataFrame(all_dict) #将字典转换为DataFrame
#将DataFrame数据写入excel表中
with pd.ExcelWriter('new.xls') as Writer:
df.to_excel(Writer,'Sheet1',index=False)
结果为: