机器学习实战——机器学习基础

 
  
  
   
  
 机器学习用到了统计学知识
机器学习就是把无序的数据转换成有用的信息
如何从数据集中选取特征？ 
 通常的做法是测量所有可测属性，而后再挑出重要部分。
机器学习的主要任务就是分类。为了测试机器学习算法的效果，通常使用两套独立的样本集，训练数据和测试数据。当机器学习程序开始运行时，使用训练样本集作为算法的输入，训练完成后输入测试样本。输入测试样本时并不提供测试样本的目标变量，由程序决定样本属于那个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别，就可以得出算法的实际精确度。
如何选择合适的机器学习算法？ 
 考虑使用机器学习算法的目的。如果想要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法。确定监督学习算法之后，需要进一步确定目标变量的类型，大多数情况下，如果目标变量是离散型，则可以选择分类算法；如果目标变量是连续型的数值，则需要选择回归型算法。注意：也可以用分类算法来处理回归问题。
我们只能在一定程度上缩小算法的选择范围，一般并不存在最好的算法或者可以给出最好结果的算法，同时还要尝试不同算法的执行结果。对于所选的每种算法，都可以使用其他的机器学习技术来改进其性能。
开发机器学习应用程序的步骤 
 （1）收集数据。提取数据的方法有很多（如制作网络爬虫从网站上抽取数据），为了节省时间和精力，可以使用公开可用的数据源。 
 （2）准备输入数据。确保数据格式符合要求。 
 （3）分析输入数据。确保数据集中没有垃圾数据 
 （4）训练算法。将前两步得到的格式化数据输入到算法，从中抽取知识或信息。如果使用无监督学习算法，由于不存在目标变量值，故而也不需要训练算法，转到下一步。 
 （5）测试算法。 
 （6）使用算法。将机器学习算法转化为应用程序，执行实际任务。
 
机器学习实战——机器学习基础

猜你喜欢