使用pandas读取文件并加工成DataFrame - 代码天地

使用pandas读取文件并加工成DataFrame

其他 2019-01-28 13:21:02 阅读次数: 0

数据来源，搜狗实验室新闻数据

http://www.sogou.com/labs/resource/ca.php

import pandas as pd
news = pd.read_csv('news.csv',header = None,encoding = 'GB18030')
# 分别读取url,content,contenttitle内容
url = []
content = []
contenttitle = []
# 遍历所有行第0列,拿到数据加入对应的列表
for i in range(news.shape[0]):
    if '<contenttitle>' in news[0][i]:
        contenttitle.append(news[0][i])
    if '<url>' in news[0][i]:
        url.append(news[0][i])
    if '<content>' in news[0][i]:
        content.append(news[0][i])
# 去掉前后标签
new_contenttitle = []
new_content = []
new_url = []
for i in range(len(url)):
    new_contenttitle.append(contenttitle[i].split('>')[1].split('<')[0])
    new_url.append(url[i].split('>')[1].split('<')[0])
    new_content.append(content[i].split('>')[1].split('<')[0])
new_news = pd.DataFrame({'url':new_url,'contenttitle':new_contenttitle,'content':new_content})

猜你喜欢

转载自blog.csdn.net/xiaotuzigaga/article/details/80201057

使用pandas读取文件并加工成DataFrame

pandas 读取文件内容dataframe方法

【人工智能概述】pandas拼接文件，np保留小数点后几位，np数据转化成pd.DataFrame数据，读取DataFrame的列名，把DataFrame保存成csv文件，删除某个文件

（2）pyspark建立RDD以及读取文件成dataframe

PYTHON Pandas批量读取csv文件到DATAFRAME

pandas chunksize读取大文件csv；dataframe 转json

Pandas DataFrame二维数组说明、DataFrame的创建、从文件中读取DataFrame对象知识---初学基础

pandas DataFrame的使用

Pandas DataFrame 使用技巧

DataFrame读取本地文件

pandas读取多个文件内容为dataframe、并合并为一个dataframe、pandas创建仅有列标签而内容为空的dataframe

怎么使用pandas读取较大的CSV文件

使用 pandas读取 excel 文件的数据

pandas 使用chunkSize 读取大文件

使用pandas进行excel文件的读取写入

在spark dataFrame 中使用 pandas dataframe

Pandas中的DataFrame读取Oracle的方法

Pandas中的DataFrame读取Mysql的方法

Python 用pandas逐行读取DataFrame

【pandas】Python读取DataFrame的某行或某列

pandas：DataFrame的属性和pandas文件的操作

pandas.read_table读取文件后设置DataFrame列名数据变为NaN解决

python用pandas库读取excel中的文件存入DataFrame数据帧中

Pandas基础：文件读取与写入、Series和Dataframe、常用基本函数、排序

Python Pandas DataFrame 读取 CSV 文件 read_csv 参数详解

Pandas的DataFrame基本使用详解

pandas——改写pandas源文件以实现：使用pd.DataFrame.itertuples但不自动修正列名

使用pandas清洗错误数据并保存成CSV文件

DataFrame读取写入文件的方法

pandas读取csv文件不要把第一行自动设置成表头

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)