其他1

1、算法类:

决策树、随机森林、逻辑回归、支持向量机、贝叶斯

(1)决策树算法:

a、hunt算法

hunt是决策树的基本算法,算法步骤是从决策树的根节点开始,选择一个属性特征作为他判断的特征,是或不是,真或假,大于x或者小于等于x等等吧,接着把这些特征分配到子节点,再使用新的属性作为新的特征来判断,这样递归下去,直至结果够纯。

使用决策树对未知元组(或者变量)进行分类的方法就是把这个未知类标号的元组放入到决策树中,看他得出的叶子节点就可以了。

而在构建决策树时如何将元组最好地划分到不同的类的属性则需要一些属性选择度量方法。常见的属性选择度量方法有,信息增益、增益率和基尼指数。

b、ID3

使用信息增益作为他的属性选择度量,他是选择信息增益最高的属性作为分类属性。

首先要理解一个信息熵的概念,他是整个元组分类所需要的期望信息。公式为

ID3的步骤为:首先需要求出使用信息熵求出元组D分类需要的期望信息,然后计算每个属性的熵,计算每个属性的信息熵时需要加上权重计算,最后得出这个属性使用这种划分方式得到的信息增益,以此类推求出其他属性的信息增益,使用信息增益最高的作为决策树的分裂属性。

c、C4.5

C4.5是使用信息增益率作为他的属性选择度量方法。C4.5实在D元组有较多分类的时候能够用到,这也是和ID3的一个比较点。

C4.5的步骤为:首先是需要求一个“分裂信息”值(类似于熵),他的公式为:

然后使用公式求出信息增益率(信息增益/分裂信息),公式为

选择信息增益率最高的作为分裂属性,但是有一个约束就是,选取测试的信息增益率必须较大,至少与考察的的所有测试的平均增益率一样大。

d、CART

CART是使用基尼指数作为属性选择度量的方法,基尼指数的计算公式为:

(2)随机森林

简单的理解为很多个决策树一起工作,然后使用出现最多次数的结果。

(3)逻辑回归

逻辑回归不叫逻辑回归,但具体叫什么还是没有查询到.....

真的需要再次给自己强调一遍,这是用来做分类的!

逻辑回归是在数据服从伯努利分布(抛硬币,要么是正面,要么是反面,正面的概率是p,那么反面的概率就是1-p)时,通过最大似然函数的方法,运用梯度下降的方法,达到数据二分类的目的。

我的理解还是通过求Sigmoid函数来,公式为

一般都是以0.5作为阈值,假如结果大于0.5属于一个类别,假如小于0.5就属于另一个类别。

(4)支持向量机

应该把他分成两部分来看,第一部门是对线性可分的数据分类,第二种是对线性不可分的数据分类。然后通过寻找一个最佳超平面来把数据分开。

我觉得还应该了解到的是,在分类线性不可分的数据时,需要用到的核函数。

(5)贝叶斯

2、特征提取方法

我觉得也是需要分不同的数据类型有不同的方法,但是都是奔向一个目标就是序列化,面试的时候一直想不到这个名词来着...

还是这么认为的,对于数值数据

3、评估模型的优劣的度量

正确率,,

均值方差正确率、错误率精度、查准率、查全率、roc曲线、真正率、假正率、真负率、假负率以及还有很多其他的度量方式,,,

4、Python常见的库,pandas库的数据分类

常见的库pandas数据分析库,numoy科学计算库,matplotlib画图库,seaborn可视化库,以及一个偶尔看到的查看缺失值库missingno库。

百度来的结果

optparse ———— 参数解析模块
Tkinter———— Python默认的图形界面接口。
Tkinter是一个和Tk接口的Python模块,Tkinter库提供了对Tk API的接口,它属于Tcl/Tk的GUI工具组。Tcl/Tk是由John Ousterhout发展的书写和图形设备。Tcl(工具命令语言)是个宏语言,用于简化shell下复杂程序的开发,Tk工具包是和Tcl一起开发的, 目的是为了简化用户接口的设计过程。Tk工具包由许多不同的小部件,如一个按钮、一个滚动条等。通过Tk提供的这些小部件,我们就可快速地进行GUI开 发。Perl、Scheme等语言也利用Tk库进行GUI开发。Tkinter是跨平台,在各种平台下都能使用。
Python Imaging Library(PIL)————python提供强大的图形处理的能力,并提供广泛的图形文件格式支持,该库能进行图形格式的转换、打印和显示。还能进 行一些图形效果的处理,如图形的放大、缩小和旋转等。是Python用户进行图象处理的强有力工具。
Pmw(Python megawidgets)Python超级GUI组件集————一个在python中利用Tkinter模块构建的高级GUI组件,每个Pmw都合并了一个或多个Tkinter组件,以实现更有用和更复杂的功能。
PyXML———— 用Python解析和处理XML文档的工具包,包中的4DOM是完全相容于W3C DOM规范的。它包含以下内容:
xmlproc: 一个符合规范的XML解析器。
Expat: 一个快速的,非验证的XML解析器。 还有其他
和他同级别的还有 PyHtml PySGML
PyGame———— 用于多媒体开发和游戏软件开发的模块。
PyOpenGL———— 模块封装了“OpenGL应用程序编程接口”,通过该模块python程序员可在程序中集成2D和3D的图形。
NumPy、NumArray和SAGE———— NumArray是Python的一个扩展库,主要用于处理任意维数的固定类型数组,简单说就是一个矩阵库。它的低层代码使用C来编写,所以速度的优势 很明显。NumPy是Numarray的后继者,用来代替NumArray。SAGE是基于NumPy和其他几个工具所整合成的数学软件包,目标是取代 Magma, Maple, Mathematica和Matlab 这类工具。
MySQLdb模块———— 用于连接MySQL数据库。还有用于zope的ZMySQLDA模块,通过它就可在zope中连接mysql数据库。
PyGTK ———— 用于python GUI程序开发的GTK+库。GTK就是用来实现GIMP和Gnome的那个库。有了它,你完全可以自信的尝试自己制造Photoshop
PyQt ———— 用于python的Qt开发库。QT就是实现了KDE环境的那个库,由一系列的模块组成,有qt, qtcanvas, qtgl, qtnetwork, qtsql, qttable, qtui and qtxml,包含有300个类和超过5750个的函数和方法。PyQt还支持一个叫qtext的模块,它包含一个QScintilla库。该库是 Scintillar编辑器类的Qt接口。
PyMedia ———— 用于多媒体操作的python模块。它提供了丰富而简单的接口用于多媒体处理(wav, mp3, ogg, avi, divx, dvd, cdda etc)。可在Windows和Linux平台下使用。
Psyco ———— 一个Python代码加速度器,可使Python代码的执行速度提高到与编译语言一样的水平。
Python-ldap ———— 提供一组面向对象的API,可方便地在python中访问ldap目录服务,它基于OpenLDAP2.x。
smtplib模块 ———— 发送电子邮件。
ftplib模块 ———— 定义了FTP类和一些方法,用以进行客户端的ftp编程。我们可用python编写一个自已的ftp客户端程序,用于下载文件或镜像站点。如果想了解ftp协议的详细内容,请参考RFC959。
xmpppy模块 ———— Jabber服务器采用开发的XMPP协议,Google Talk也是采用XMPP协议的IM系统。在Python中有一个xmpppy模块支持该协议。也就是说,我们可以通过该模块与Jabber服务器通信,是不是很Cool。
下面这些就不详细介绍,只列出名字和功能
adodb ———— ADO数据库连接组件
bsddb3 ———— BerkeleyDB的连接组件
chardet ———— 编码检测
Cheetah ———— 构建和扩充任何种类的基于文本的内容
cherrypy ———— 一个WEB framework
ctypes ———— 用来调用动态链接库
Cx-oracle ———— 连接oracle的工具
DBUtils ———— 数据库连接池
django ———— 一个WEB framework
DPKT ———— raw-scoket网络编程
docutils ———— 用来写文档的
dpkt ———— 数据包的解包和组包
feedparser ———— rss解析
Kodos ———— 正则表达式调试工具
Mechanize ———— 爬虫连接网站常用
pefile ———— windows pe文件解析器
py2exe ———— 用来生成windows可执行文件
pycurl ———— URL处理工具
pydot ———— 画图的,graphiz
pyevent ———— Python的事件支持
pylint ———— 培养良好的编码习惯
Pylons ———— 又一个web framework
pypcap ———— 抓包的
pysqlite2 ———— SQLite的连接组件
python-dnet ———— 控制网络安全的其他设备
pythonwin ———— Python的Windows扩展
pywmi ———— 省了好多折腾功夫
reportlab ———— Python操作PDF的Libary。
scapy ———— 网络包构建分析框架,可编程的wireshark,有兴趣的google “Silver Needle in the Skype”
scons ———— 项目构建工具,写好了模板用起来还是很方便的
sendpkt ———— Python发包
setuptools ———— 一套python包管理机制
simplejson ———— JSON的支持
sqlalchemy ———— SQL数据库连接池
SQLObject ———— 数据库连接池
twisted ———— 巨无霸的网络编程框架
winpdb ———— 自己的程序或者用别的库不太明白的时候就靠它了
wxPython ———— GUI编程框架,熟悉MFC的人会非常喜欢,简直是同一架构

真的很多,学习之路漫长。。

6、连接 

 7、股票的选择以及使用的一些方法思路。。

猜你喜欢

转载自www.cnblogs.com/RR-99/p/10403766.html
今日推荐