数据挖掘csv文件与xls文件预处理 - 代码天地

数据挖掘csv文件与xls文件预处理

其他 2018-07-31 13:30:17 阅读次数: 0

（1）、在windows下的csv文件，默认打开方式是GBK格式，在linux下打开的文件默认是utf-8的格式。所以windows下的格式在linux下会出现中文乱码的现象。使用iconv命令对整个文件进行转码的操作。

sudo iconv -f GBK -t UTF-8 d_train_20180102.csv -o new_d_train.csv

后面的第一个csv为需要转码操作的文件，后面的为生成的新文件。
（2）、对xls文件的内容操作

import xlrd
data = xlrd.open_workbook('data.xls')

grade = []
lik = []
sheet = data.sheet_by_index(0)  #此语句可以将xls按照索引进行查找
s = '优秀'       #判断某一个单元格的内容
s_utf8 = s.encode('UTF-8')   #中文的内容需要就行转码操作才能进行比较
print(sheet.nrows)      #打印列数

for i in range(1, sheet.nrows):
    if sheet.cell(i, 7).value.encode('UTF-8') == s_utf8:  #把单元格的内容进行转码操作
        grade.append(1)
    else:
        grade.append(0)

s2 = '是'
s2_utf8 = s2.encode('UTF-8')
for i in range(1, sheet.nrows):
    if sheet.cell(i, 9).value.encode('UTF-8') == s2_utf8:
        lik.append(1)
    else:
        lik.append(0)

（3）、csv文件的处理

import numpy as np
import pandas as pd

train = pd.read_csv('train.csv')
#iloc是基于索引位来选取数据集，0:4就是选取 0，1，2，3这四行
#后面的两个参数是多少行多少列
train = train.iloc[:-1, :-1]
#np.array可以将形成的矩阵的第一列自带的行号去掉
print(np.array(train))

train = pd.read_csv('train.csv')
#train.columns是csv文件中的数据标签 axis=1表示的是列，不加的话默认为行
#drop函数的好处是不改变文件的内容，而是返回了一个新的pandas的解析类型，可以去获得该变量
train = train.drop(labels= train.columns[-1], axis=1)
print(np.array(train))

猜你喜欢

转载自blog.csdn.net/yuyushikuan/article/details/79475088

数据挖掘csv文件与xls文件预处理

python处理xls到csv文件

Python处理Excel文件(csv, xls, xlsx)

xls与csv文件的区别

开源 SPL 助力 JAVA 处理公共数据文件（txt＼csv＼json＼xml＼xls）

开源 SPL 助力 JAVA 处理公共数据文件（txt \csv \ json \xml \xls）

《xls json csv 文件读取》

数据分析—将txt文件转为csv文件；将csv文件转为xls文件

数据挖掘---预处理

数据挖掘预处理

数据存入hive数据表之前对.csv（数据集）文件的预处理以及数据的上传

Java写数据到txt、csv、xls文件中

数据预处理—文件读取

数据挖掘-数据预处理

数据挖掘---数据预处理

【数据挖掘】数据预处理

Python读写.csv\.xls\.xlsx\.txt文件

PHPExcel 读取csv xls文件内容

Python读取文件（txt,csv,xls）

php excel文件查找某一列的数据兼容xls、xlsx、csv excel文件导入

python txt文件，xls文件，csv文件的创建

数据预处理--sort乱序DICOM文件

python读取xml格式的xls文件，并写出csv文件

Spark处理XML文件与XLSX/XLS文件

Python将数据写入excel或者txt，读入csv格式或xls文件

通过POI.jar导出数据生成xls、xlsx、csv等格式文件

Qt数据库应用20-csv文件转xls

Python 将数据写入csv、xlsx、xls文件中（工厂方法、封装、优雅）

对气象文件的数据提取与处理，包含.nc文件与.csv文件

数据存储之json文件处理和csv文件处理

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)