第六章 数据挖掘建模过程

数据预处理

数据读写

  • JSON 数据结构
    import json导入json包。json.loads(josn格式的对象) 返回一个字典 ,json.load(文件名)读取文件.json.dumps(josn格式的对象)写成字符串,json.dump(josn格式的对象,文件名)写入文件
  • pickle 序列化
    a = pickle .dumps(josn格式的对象)写成字符串,pickle .loads(a) 读取

  • h5
    f=h5py.File(“info.h5”)创建文件。f.create_dataset(“data”,shape=(10,20))创建内容

  • 正则表达式
    \d=[0~9],+表示更多
    collections

  • collections.Counter()统计数组例每个元素出现的次数
  • collections.defaultdict()
    数据预处理
  • sklearn
  • 零均值:preprocessing.scale(data)
    数据挖掘

  • 分类和回归:支持向量机,朴素贝叶斯,k近邻,决策树,神经网络,线性回归,多项式回归

  • 聚类:k均值聚类 层级聚类
  • 评价指标:损失函数 AUC指标 F1分数

猜你喜欢

转载自blog.csdn.net/slm22233/article/details/81586099