数据挖掘（二）如何用 Python 辅助学习机器学习

1. 安装 Python 运行环境

2. 编写第一个 Python 程序：“Hello world”

虽然有效代码只有：print（”hello world”）。
但注意，你需要尝试至少三种不同的运行方法：

在命令行直接运行；
编写一个 Python 文件，将 print hello world 封装为一个函数，通过 main 函数调用它来运行；
编写一个 class，将 print hello world 封装为一个 method，通过 main 函数创建 class 实例来运行 method。

3. 编写一个或者多个复杂点的程序，用2.2，2.3方式运行
具体程序的功能可以自己定义，目的是借此了解下面这些概念：数据类型、变量、函数、参数、返回值、调用、递归……

学习流程控制：顺序、条件、循环。

搞清几种不同类型：array、list、dict、set 的用法。

在这个过程中，学习什么是静态类型，什么是动态类型，什么是强类型，什么是弱类型，这些不同设计的目的和应用场景分别是什么。

如果你实在不知道写什么程序好，那就写写 binary search 和 quick sorting 吧。并顺便尝试一下递归和非递归的不同实现。

4. 编写程序练习文件读写，文件和目录操作
对于最初级的机器学习实践者，如果使用支持库封装好的模型算法，那么实际要做的工作其实就是把数据在文件和各种类型的变量之间导来导去。

所以务必学会将 tsv，csv 之类的文件读入 array，list，dict 等结构，以及将这些变量打印到文本文件中的方法。

5. 开始写第一个机器学习程序
首先 import numpy 和 sklearn。之前当然要安装这两个支持库，一般安装支持库使用 apt-get 或者 pip，可以根据需要选用。

其次，找一个模型，比如 Logistic Regression，网络搜索该模型训练和测试的 Example Code，运行后看结果，并阅读 Example Code（下面是个例子）。

    from numpy import *   
    from sklearn.datasets import load_iris     # import datasets  

    # load the dataset: iris  
    iris = load_iris()   
    samples = iris.data  
    #print samples   
    target = iris.target   

    # import the LogisticRegression  
    from sklearn.linear_model import LogisticRegression   

    classifier = LogisticRegression()  # 使用类，参数全是默认的  
    classifier.fit(samples, target)  # 训练数据来学习，不需要返回值  

    x = classifier.predict([5, 3, 5, 2.5])  # 测试数据，分类返回标记  

    print(x)

6. 自己设置一个实际问题，并准备数据。修改5的程序，用自己的数据训练并测试模型。

7. 逐行解读6中调用的 sklearn 函数的实现代码，结合该模型的原理，对比印证，彻底搞懂一个算法的实现细则。
比如例子中的：classifier.fit() 和 classifier.predict()

8. 不依赖 sklearn，自己动手实现的一个训练 LR 模型的算法

数据挖掘（二）如何用 Python 辅助学习机器学习

猜你喜欢