Python读取XML中数据提取为Dataframe - 代码天地

Python读取XML中数据提取为Dataframe

其他 2018-08-06 03:48:55 阅读次数: 0

对应的数据集为：

<?xml version="1.0"?>
-<opencv_storage>
 -<vocabulary type_id="opencv-matrix">
   <rows>424</rows>
   <cols>512</cols>
   <dt>u</dt>
   <data> 0 0 0 0 0 0 0 0 0 145 169 255 255 0 0 0 0 0 0 0 0 0 0 0 0 0 255 0 0 0 205 0 0 0 0 
    0 0 0 0 0 0 0 0 227 0 0 158 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
    0 0 150 0 0 0 0 0 0 152 0 0 0 144 0 139 0 148 0 0 0 0 0 153 0 0 148 0 0 0 0 0 154 0 0 0 
    0 58 156 0 0 0 0 0 150 0 0 0 0 0 154 153 0 0 219 0 0 0 144 153 158 149 153 0 0 0 150 
    148 
    0 0 0 154 143 0 145 0 152 0 154 148 153 162 148 155 146 0 144 0 152 145 154 0 0 0 0 151 
    153 148 153 156 0 144 0 0 0 0 0 0 0 0 0 143 0 153 142 0 0 0 0 0 0 0 0 0 154 148 0 148 
    158 148 147 152 154 158 155 150 150 0 151 0 148 151 157 152 149 148 150 145 153 151 153 
    153 0 152 147 158 151 152 155 154 149 147 151 150 0 151 154 142 148 149 0 152 151 0 146 
    147 147 151 148 146 154 153 149 0 151 153 149 150 151 156 148 152 150 146 150 148 151 
    153 154 157 153 150 155 152 150 149 152 150 147 </data>
  </vocabulary>
</opencv_storage>

对应的处理代码：

import numpy as np
import pandas as pd
import xml.dom.minidom 
#打开xml文档
dom = xml.dom.minidom.parse('D:/xuchao.xml')

#得到文档元素对象，拿出<data>间的数据
root = dom.documentElement
cp=dom.getElementsByTagName('data')
c1=cp[0]
c2=c1.firstChild.data

#先根据换行符拆分
result=c2.split('\n')
#得到的list第一行为空，去除这行
result.remove(result[0])

#根据空格把数字拆分出来，得到每行list，切片将空值切去
b=[]
for lines in result:
    c=lines.split(' ')
    c=c[4:]
    for j in c:
        b.append(j)

#转化为mat
b=np.array(b)
#源数据得到424*512，上面数据集没有这么多元素
mat=b.reshape(424,512)
df=pd.Dataframe(mat)

部分Python用法参考：

1.Python四种逐行读取文件内容的方法

2.list 删除一个元素的三种做法

3.Python 之处理字符串中的空格

4.Python中的split()函数的用法

猜你喜欢

转载自blog.csdn.net/W_weiying/article/details/81384954

Python读取XML中数据提取为Dataframe

Spark读取MySQL中的数据为DataFrame

Spark读取Hive中的数据加载为DataFrame

Spark读取Parquet格式的数据为Dataframe

Python提取TXT数据转化为DataFrame

Python基础——从csv文件中读取数据，提取数据的方法

python中读取XML

Python使用正则表达式提取Dataframe表格中的数据

pandas读取数据库数据，设置为dataframe

python用pandas库读取excel中的文件存入DataFrame数据帧中

如何在python中读取mysql中的数据并存为DataFrame

Python读取mysql数据，转为DataFrame格式并根据原TABLE中的COLUMNS指定columns，index

python中，用pyspark读取Hbase数据，并转换为dataframe格式

提取 xml 文件中的 CDATA 数据

pandas dataframe数据提取的方法

用Python批量读取Excel中的一行并输出为csv文件（解决单独读取一行DataFrame行变列的问题）

python读取mongodb数据，并转成pandas的dataframe

Python 数据分析1：三种工具实现连接、读取MySQL数据库并处理MySQL数据为DataFrame

python 提取html中的数据

python中DataFrame数据帧的统计方法

Python小点dian儿: Python-Pandas-DataFrame 如何把df变为以数据中的某一列为index

django读取数据到dataframe

Spark读取普通RDD加载为DataFrame

SparkSQL创建RDD：<6>读取JDBC中的数据创建DataFrame(MySql为例，两种方式)【Java，Scala纯代码】

Python爬虫小白入门（十四）Python 爬虫 – 提取数据到Pandas DataFrame

pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理

利用Python将数据库提取的数据转为DataFrame格式

使用python实现微博评论分词与关键词提取（从MySQL数据库中读取数据）

Python3提取xml文件中的内容

python读取csv并根据指定属性值提取数据

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)