华泰人工智能系列之一人工智能选股框架及经典算法简介

1.人工智能含义:

本质是以数理模型为核心工具,结合控制论、认知心理学等其它学科的研究成果,最终由计算机系统模拟人类的感知、推理、学习、决策等功能。

2.机器学习的对象:

是某种客观存在的规律。规律有简单、复杂的。智能投顾学习的是资本市场中投资决策和收益之间的规律。

3.机器学习遵循基本的流程:

数据获取、特征提取、 数据转换、模型训练、模型选择和模型预测。

1)数据获取

数据获取途径:多样,一般通过数据库和网络爬虫获取。

机器学习模型过程中首先需要考虑的问题:获取大量的、高质量的数据(数据的数量不足,或者信噪比过低,会严重就影响算法效果。)

2)特征提取

为什么进行特征提取:原始数据由于格式和类型的限制,可能无法直接用于训练模型。而优质的特征能够起到事半功倍的效果。因此需要先从原始数据中提取富有信息量的、可以放入模型训练的特征,这一步称为特征提取。

方法有:人工经验和模型数据驱动提取,优质的特征能够起到事半功倍的效果。

3)数据转换

①数据转换的重要性:看似简单,但往往是机器学习成败的关键。

②数据转换类型包括缺失值填充,标准化和降维。

③数据转换的原因:数据通常不是完美的,会影响到机器学习模型的训练速率和准确率,在正式训练之前,需要对数据进行转换。

④不完美的数据类型及处理方法:存在缺失值、不同特征的取值范围不同、不同特征之间具有相关性。

缺失值的条目,可以直接删去或以总体均值填充。

标准化可以将所有特征限制在相同的范围内。

降维能够避免特征之间相关性的影响,也能避免维数灾难的发生。

 

机器学习模型可分为监督学习,非监督学习和强化学习。

模型选择通常借助交互验证和一系列评价指标。如果数据中包含特征和标签,希望学习特征和标签之间的对应关系,那么可以采用监督学习的方法;如果没有标签,希望探索特征自身的规律,那么可以采用非监督学习;如果学习任务由一系列行动和对应的奖赏组成,那么可以采用强化学习。如果需要预测的标签是分类变量,比如预测股票上涨还是下跌,那么可以采用分类方法;如果标签是连续的数值变量, 比如预测股票具体涨多少,那么可以采用回归方法。另外,样本和特征的个数,数据本身的特点,这些都决定了最终选择哪一种机器学习方法。

![image.png](https://upload-images.jianshu.io/upload_images/13726474-34afc064d098fb90.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

 

 

机器学习方法分类:监督学习、无监督学习、强化学习

4.机器学习方法的不同之处:

1⃣️监督学习由使用者给出特征和标签,由算法挖掘规律,学习一个模式,并且根据此模式预测新的特征所对应的标签。督学习应用更广泛,学习效果好。监督学习是教师(使用者)给出问题(特征)和正 确答案(标签),由学生(算法)挖掘规律,学习一个模式,并且根据此模式回答新的 问题(预测新的特征所对应的标签)。

2⃣️无监督学习不给出标签,由算法仅仅根据原始特征寻找模式,挖掘数据自身蕴含的规律。无监督学习不给出正确答案,由算法仅根据原始特征寻找模式。

3⃣️强化学习的目标是让模型学会使奖赏最大化的决策,是三大门类中最 年轻也是最困难的方法。

 

5.监督学习方法有:线性回归、岭回归、 Lasso 回归、逻辑回归、线性判别分析和二次判别分析、支持向量机、决 策树、随机森林、AdaBoost、神经网络、深度学习和 K 最近邻算法在内的 众多监督学习方法。

6.无监督学习方法有:聚类和降维是常用的无监督学习方法。聚类包括 K 均值聚类、分层聚类和谱聚类。降维包括以主成分分析为代表的线性降维,以及以流形学习为代表的非线性降维。

 

发布了49 篇原创文章 · 获赞 9 · 访问量 3453

猜你喜欢

转载自blog.csdn.net/qq_39817865/article/details/103465694