023. 常见编码简记

ASCII (American Standard Code for Information Interchange):美国信息交换标准代码是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,到目前为止共定义了128个字符 。ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号,以及在美式英语..
分类: 其他 发布时间: 02-28 09:49 阅读次数: 0

024.(7.15-7.16)Scrapy框架 初步学习

参考书籍:《Python 3网络爬虫开发实战》Scrapy框架 初步学习介绍架构数据流项目结构Scrapy 爬取流程创建项目创建Spider创建Item解析ResponseScrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。介绍架构数据流注意!只有当调度器中不存在任何request了,整个程序才会停止,(也就是说,对于下载失败的URL,Scrapy也会
分类: 其他 发布时间: 02-28 09:49 阅读次数: 0

025. (7.17-7.19) Scrapy :Selector、Spider、Middleware

参考书籍:《Python 3网络爬虫开发实战》Scrapy 进阶:Selector、Selector(选择器)使用直接使用结合ScrapySelector(选择器)除了Beautiful Soap、pyquery、正则表达式等工具能提取网页数据,Scrapy 还提供了自己的数据提取方法,即 Selector(选择器)。 Selector 是基于lxml来构建的,支持XPath 选择器、CSS选择器以及正则表达式(均自带),功能全面,解析速度和准确度非常高。使用直接使用Selector 是一个可以
分类: 其他 发布时间: 02-28 09:49 阅读次数: 0

026.(7.23-7.24)scrapy爬取牛客网招聘信息

RDC暑假项目需求:爬取牛客网招聘信息前言codescrapy爬取,保存csv文件乱码问题暑假工作室的合作项目,需求是爬取牛客网计算机行业岗位信息,第一次用scrapy做合作项目,代码有瑕疵还请指教!前言Author: Ray数据来源:牛客网 (https://www.nowcoder.com/)搜索条件筛选:实习,广州搜索量:由于牛客网搜索机制的原因,为了让结果更可能的准确,页面最多为5页搜索项:前端、后端,后台、Android、大数据,算法(搜索结果中多为字节跳动的JD,可能与牛客网有合
分类: 其他 发布时间: 02-28 09:48 阅读次数: 0

027. (7.25) sklearn线性回归基本方法

划分训练集和测试集:X_train,X_test, y_train, y_test = sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.25, random_state=0,stratify=y_train)# train_data:所要划分的样本特征集# train_target:所要划分的样本结果# test_size:样本占比,如果是整数的话就是样本的数量# random_sta
分类: 其他 发布时间: 02-28 09:48 阅读次数: 0

028. (7.27) scrapy爬取IMDb TOP250电影基本信息

爬取IMDb TOP250电影基本信息主要代码注意事项提前分析网页正则表达式提取小括号里的字符串error: 'FeedExporter' object has no attribute 'slot'copy.deepcopy(item)主要代码items:import scrapyclass ImdbItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field()
分类: 其他 发布时间: 02-28 09:48 阅读次数: 0

029. (7.30) Ajax数据爬取

Ajax数据爬取Ajax 分析方法我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的来源有多种,可能是通过 Ajax 加载的,可能是包含在 HTML 文档中的,也可能是经过 JavaScript 和特定算法计算后生成的。对于 Ajax 加载(即异步
分类: 其他 发布时间: 02-28 09:48 阅读次数: 0

030. (8.4-8.5)Scikit-Learn 简介

Scikit-Learn 数据表布局机器学习是从数据创建模型的学问,因此你首先需要了解怎样表示数据才能让计算机理解。Scikit-Learn 认为数据表示最好的方法就是用数据表的形式。示例:Scikit-Learn的评估器API主要遵照的设计原则:统一性:所有对象使用共同接口连接一组方法和统一的文档。内省:所有参数值都是公共属性。限制对象层级:只有算法可以用 Python 类表示。数据集都用标准数据类型(NumPy 数组、Pandas DataFrame、SciPy 稀疏矩阵)表
分类: 其他 发布时间: 02-28 09:47 阅读次数: 0

031. SVM 支持向量机

决策树的难点在于如何设计每一步的问题。过拟合其实正是决策树的一般属性——决策树非常容易陷得很深,因此往往会拟合局部数据(易受噪声影响),而没有对整个数据分布的大局观。换个角度看这种过拟合,可以认为模型训练的是数据的不同子集。随机森林回归其实随机森林也可以用作回归(处理连续变量,而不是离散变量)。随机森林回归的评估器是 RandomForestRegressor,其语法与我们之前看到的非常类似。小结随机森林是一种强大的机器学习方法,它的优势在于以下几点:• 因为决策树的原理很简单,所以它的训
分类: 其他 发布时间: 02-28 09:47 阅读次数: 0

032.(8.17-8.18)K-Means 算法

应用(也可用于分离不佳的簇)原理生成初始聚类中心后,进行内循环:第一步:簇分配第二步:移动聚类中心如果存在一个没有点的聚类中心,常见做法是将它移除掉(K-1),也有重新随随机初始的做法。...
分类: 其他 发布时间: 02-28 09:47 阅读次数: 0

033. (8.27-9.1) 主成分分析

PCA简介使用1.用PCA降维2.成分的含义3. 选择成分的数量PCA 是一种非常基础的降维算法,也是应用最广的无监督算法之一,尤其适用于数据可视化、噪音过滤、特征抽取和特征工程等领域。简介以两变量为例,在主成分分析中,一种量化两变量间关系的方法是在数据中找到一组主轴,并用这些主轴来描述数据集。这些向量表示数据主轴,上图的箭头长度表示输入数据中各个轴的“重要程度”——更准确地说,它衡量了数据投影到主轴上的方差的大小。每个数据点在主轴上的投影就是数据的“主成分”。使用1.用PCA降维用 PC
分类: 其他 发布时间: 02-28 09:47 阅读次数: 0

034.(9.2)核

核简介补充说明参考:机器学习中的核函数与核方法(是什么?为什么?怎么做?)简介核方法:对于非线性问题,通过引入核函数:对特征进行映射 (如上图的二维到三维。通常映射后的维度会更高),就是将一个空间中的特征转换到另外一个空间,这就是空间转换(映射)的意义,即可以将原来线性不好分的数据转换到另外一个空间,在这个空间中可以用一个超平面线性可分。而核函数就等于就是高维空间的内积,也是低维空间中内积的某个函数。补充说明为什么用核函数? 在机器学习中,求解的过程常用到内积,而变换后的高维空间的内积我们
分类: 其他 发布时间: 02-28 09:46 阅读次数: 0

035.(9.5)凸问题

凸问题凸函数
分类: 其他 发布时间: 02-28 09:46 阅读次数: 0

036.(9.6)拉格朗日乘子法

拉格朗日乘子法原理方法阐述源问题:求一个多元函数 f 在约束条件 g=a 下的 极值。注意:虽然主体目标是f ,但是定义域却是约束条件下的定义域主要思想(以这类问题的简单形式为例): 引入一个新的参数 λ ,即拉格朗日乘子,将约束条件函数与原函数联系到一起。原理由等高线图,显然当 f 与 g 相切时,f 取得极值。又根据梯度与等高线的切线垂直,可得:二维条件下,在相切点,目标函数的梯度向量和约束曲线的梯度向量平行。(多约束条件下:目标函数的梯度向量 与 约束函数梯度向量的线性组合平行)
分类: 其他 发布时间: 02-28 09:46 阅读次数: 0

037.(9.19)蚁群算法基础知识梳理

蚁群算法基础知识梳理定位有关信息素算法基本流程相关公式改进版定位蚁群算法(ACO)是一种智能优化算法(现代算法),概率、图论与矩阵是其理论主要组成部分。ACO是对蚁群凭借信息素标识,从而寻找食物这一过程的借鉴,可以用来寻找优化路径。有关信息素1.长路径上的信息素浓度低2.蚂蚁会留下信息素,而信息素自身也会挥发。一般规定一轮迭代(所有蚂蚁周游完一次)后更新一次信息素算法基本流程(1)根据具体问题设置多只蚂蚁,分头并行搜索。(2)每只蚂蚁完成一次周游后,在行进的路上释放信息素,信息素量与解的质
分类: 其他 发布时间: 02-28 09:46 阅读次数: 0

038.(-10.12)特征工程 额外笔记

特征工程 额外笔记数据预处理1.缺失值处理1.1 多项式插值1.2 lagrange插值(拉格朗日)1.3 预测填充1.4 具体分析2.离群值处理2.1 标准差法2.2这一版笔记,是进一步阅读特征工程相关博客时补充记录的,继于篇号为017的博客。数据预处理1.缺失值处理1.1 多项式插值已知n+1个互异的点,由此可得到最高项不超过n次的多项式方程。公式:Y=AX,A=X^(-1) * Y其中A为系数矩阵,X为特征的多次项矩阵,Y为目标值矩阵。如果test_x 也存在空值,一般在缺失值的前几
分类: 其他 发布时间: 02-28 09:45 阅读次数: 0

039. (9.12) 数模国赛C题 中小微企业的信贷决策 第三题思考

C 中小微企业的信贷决策 第三题思考思考查阅特征工程改进模型改动方面企业的生产经营和经济效益可能会受到一些突发因素影响,而且突发因素往往对不同行业、不同类别的企业会有不同的影响。思考正则化提取打标签:类别太多,难分,如果要用这种方法的话只能给出一定数量的类别匹配,然后把其他剩余的类别归为一类;(如个体经营)购买方数量也可能有助于企业分类,如生活用品公司的销售对象往往更加分散、数量更多;(优点:有些日常类型的企业如家居企业、物流行业等,确实在大多数突发情况下仍能保持较为稳定的运行;缺点:有些
分类: 其他 发布时间: 02-28 09:45 阅读次数: 0

040.(10.20)初识随机森林

决策树的难点在于如何设计每一步的问题。过拟合其实正是决策树的一般属性——决策树非常容易陷得很深,因此往往会拟合局部数据(易受噪声影响),而没有对整个数据分布的大局观。换个角度看这种过拟合,可以认为模型训练的是数据的不同子集。随机森林回归其实随机森林也可以用作回归(处理连续变量,而不是离散变量)。随机森林回归的评估器是 RandomForestRegressor,其语法与我们之前看到的非常类似。小结随机森林是一种强大的机器学习方法,它的优势在于以下几点:• 因为决策树的原理很简单,所以它的训
分类: 其他 发布时间: 02-28 09:45 阅读次数: 0

041.(10.23)集成学习之学习策略与多样性

常见学习策略回归问题平均法加权平均由于数据中样本不充分或噪声的影响,学出的权重有可能不靠谱,这时该方法未必优于普通平均法。分类问题绝对多数投票法标记过半,则预测为该标记。相对多数投票法预测为得票最多的标记。若存在得票数目相同的标记,则随机选择一个。加权投票法注意,不同类型的输出值不能混用(如基学习器异质),可以看看是否有相应的转换技术。学习法当训练数据很多时,可通过另一个学习器进行结合,stacking是其中的代表。这里把用于结合的学习器称为次学习器或
分类: 其他 发布时间: 02-28 09:45 阅读次数: 0

042(11.7)初识AdaBoost

这里写目录标题引入:bagging中原有的 Weightd Base AlgorithmAdaBoost中u的选取AdaBoost 如何集成小结AdaBoost 即 Adaptive Boosting,通俗的讲,就是把许多“弱弱”的hypotheses(学习器)合并起来,变成很强的预测模型。引入:bagging中原有的 Weightd Base AlgorithmWeightd Base 算法如下图,目的是最小化bootstrap-weighted error。(每一个学习器的优化目标)其中,u
分类: 其他 发布时间: 02-28 09:44 阅读次数: 0