项目实战-使用PySpark处理文本多分类问题

原文链接:https://cloud.tencent.com/developer/article/1096712

在大神创作的基础上,学习了一些新知识,并加以注释。

TARGET:将旧金山犯罪记录(San Francisco Crime Description)分类到33个类目中

源代码及数据集:https://github.com/cymx66688/python.git

一、载入数据集data

 1 import time
 2 from pyspark.sql import SQLContext
 3 from pyspark import SparkContext
 4 # 利用spark的csv库直接载入csv格式的数据
 5 sc = SparkContext()
 6 sqlContext = SQLContext(sc)
 7 data = sqlContext.read.format('com.databricks.spark.csv').options(header='true',
 8                                                                   inferschema='true').load('train.csv')
 9 # 选10000条数据集,减少运行时间
10 data = data.sample(False, 0.01, 100)
11 print(data.count())
结果:
8703

1.1 除去与需求无关的列

# 除去一些不要的列,并展示前五行
drop_list = ['Dates', 'DayOfWeek', 'PdDistrict', 'Resolution', 'Address', 'X', 'Y']
data = data.select([column for column in data.columns if column not in drop_list])
data.show(5)





猜你喜欢

转载自www.cnblogs.com/cymx66688/p/10699018.html