[特征工程]数据预处理的方法和技巧

目录 一、数据的抽取要正确反映业务需求 二、处理缺失值和异常值 2.1 缺失值处理 2.2 异常值处理 三、数据转换 3.1 改善变量分布的转换 3.2 数据标准化 四、筛选有效的输入变量 五、变量共线性问题 工业界有一个大家公认的看法,“数据和特征决定了数据挖掘项目的上限,而算法只是尽可能地逼近这个上限”。在实战中,特征工程几乎需要一半以上的时间,是很重要的一个部分,因而本文对数据处理的主要步骤和方法进行梳理和总结。 一、数据的抽取要正确反映业务需求 一个数据挖掘需求一旦确定后,工程师接下来
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

[数据挖掘案例]逻辑回归LR模型实现电商商品个性化推荐

目录 一、问题描述 二、数据摸底 三、数据清洗和特征筛选 3.1 数据抽取和清洗 3.2 特征筛选:决策树 3.3 特征分布转换 3.4 特征共线性检查 四、模型搭建 4.1 数据集 4.2 模型训练 4.3 模型验证 五、模型上线效果跟踪 一、问题描述 在电商平台中,有海量的商品,如何为用户挖掘出感兴趣的商品,真正实现千人千面具有重要的意义。商品得分排名,在电商平台个性化推荐排序具有重要的应用。 用户对商品偏好得分受哪些因素的影响,以及这些因素最终如何共同决定商品得分?本文总结了一个实际电商
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

设计模式--复合模式

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86772999 设计模式--复合模式 复合模式原理 ·什么是复合模式 模式常一起使用,组合在一个设计解决方案中 复合模式在一个解决方案中结合两个或多个模式 能解决一般性或一系列的问题 某些模式结合使用,并不就是复合模式 ·复杂鸭子项目 多种鸭子,不同鸭子叫声、飞行、游泳方式不同--策略模式 鹅,需要加入几只普通的鹅--适配器模式 要统
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

设计模式--桥接模式

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86773794 设计模式--桥接模式 •桥接模式原理 遥控器项目的设计 极简设计方案 代码: Control public interface Control { public void On(); public void Off(); public void setChannel(int ch); public voi
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

[spark]计算商品相似度

一、商品相似度定义 基于物品的协同过滤算法是业界应用最多的算法,它的思想是给用户推荐那些和他们喜欢的物品相似的物品,主要分为两个步骤:一,计算物品之间的相似度;二,根据物品相似度和用户的历史行为给用户生成推荐列表。 物品i和物品j的相似度可定义为: 其中,分母是喜欢物品i的用户数,分子是同时喜欢物品i和物品j的用户数。 在电商网站中,用户前后的消费行为有很强的关联性,如上图所示,两个用户userA,userB在易购上面的消费记录(https://www.jianshu.com/p/00a281
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

设计模式--生成器模式

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86775243 设计模式--生成器模式 生成器模式原理 •度假计划生成项目设计 度假计划生成项目介绍 度假计划的因素:时间、门票、餐厅、住宿、特殊活动等 一个计划就是一个具体对象,要便于扩展 思考怎么做 复杂对象生成问题 •生成器模式原理 生成器模式:封装一个复杂对象构造过程,并允许按步骤构造。 •代码讲解 VacationDay
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

[机器学习算法]逻辑回归模型、优缺点及spark ml机器学习库实现LR

目录 一、逻辑回归模型-log损失函数 1.1 模型定义 1.2 损失函数 1.3 梯度下降求解参数 二、利用最大似然估计求解逻辑回归模型参数 三、逻辑回归模型优缺点分析 四、spark ml机器学习库实现逻辑回归模型 五、离散特征作为模型输入 一、逻辑回归模型-log损失函数 1.1 模型定义 1.2 损失函数 1.3 梯度下降求解参数 迭代直至收敛 二、利用最大似然估计求解逻辑回归模型参数 事件发生概率为: 训练样本的似然函数为: 利用梯度下降优化似然函数: 三、逻辑回归模型优缺点分析 优
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

设计模式--蝇量模式(享元模式)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86776640 设计模式--蝇量模式 •蝇量模式原理 •景观设计软件项目遇到的问题 树:XY坐标,树的大小,外观,需要很多树 10000000棵树 思考如何设计 传统方式: Tree public class Tree { private int xCoord, yCoord, age; public Tree(int xCo
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

[spark性能调优]spark submit资源参数调优及amazon集群示例

目录 一、spark作业基本运行原理 二、资源参数调优 Spark内存管理: 三、amazon集群资源参数示例 一、spark作业基本运行原理 资源申请与分配: 我们使用spark-submit提交一个spark作业后,这个作业会启动一个对应的Driver进程。根据使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动(client mode),也可能在集群中某个工作节点启动(cluster mode)。Driver进程本身根据我们设置的参数,占有一定数量的内存和CPU
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

设计模式之--解释器模式

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86777532 设计模式之--解释器模式 •解释器模式原理 •大数据统计项目遇到的问题 按照计算模型对现有数据统计、分析、预测 一般的计算模型是一个或多个运算公式,通常是加减乘除四则运算 计算模型需要运行期编辑 设计方案要有高扩展性 思考怎么设计 •解释器模式原理 计算模型按正常算术方式书写,解释器处理语法逻辑 计算模型里有两类符号:
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

[机器学习算法]决策树CART和随机森林模型

目录 一、决策树CART 1.1分类决策树 1.2回归决策树 1.3 决策树优点与缺点 1.4 决策树剪枝算法 二、随机森林RF 2.1随机森林的生成 2.2 随机森林的特点 一、决策树CART CART分类回归树是一种典型的二叉决策树,可以处理分类或者回归问题。如果待预测结果是离散型数据,则CART生成分类决策树;如果待预测结果是连续型数据,则CART生成回归决策树。 1.1分类决策树 选择GINI系数作为分裂节点的依据。 对于给定的样本集合D,其基尼指数为 Gini系数表示该数据集中样本属
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

设计模式--访问者模式

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86826371 设计模式--访问者模式 •雇员管理系统遇到的问题 雇员管理系统遇到的问题: 需要添加一些新的操作功能 思考如何设计 Employee public class Employee { private String name; private float income; private int vacationD
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

梯度提升树GBDT模型原理及spark ML实现

目录 一、GBDT模型原理 1.1 GB(Gradient Boost)算法 1.2 GBDT模型 二、spark ML机器学习库中GBDT使用案例 三、GBDT与Boost算法比较 四、 GBDT与RF比较 一、GBDT模型原理 1.1 GB(Gradient Boost)算法 GB算法直观理解,将损失函数的负梯度在当前模型的值,当做下个模型训练的目标函数(第3,4步)。沿着损失函数负梯度方向迭代,使得损失函数越来越小,模型偏差越来越小。 1.2 GBDT模型 GBDT模型将决策树CART放
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

设计模式--最后总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86829728 设计模式--最后总结 •设计模式的三个分类 •什么是设计模式 模式:在某些场景下,针对某类问题的某种通用解决方案 场景:项目环境 问题:约束条件,项目目标等 解决方案:通用、可以复用的设计,解决约束,达到目标 •设计模式的三个分类 创建型模式:对象实例化的模式,创建型模式解耦了对象的实例化过程 结构型模式:把类或对象结
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

spark共享变量:累加器与广播变量

累加器 累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法。累加器一个常见用途是,在调试时对作业执行过程中的事件进行计数。 执行行动操作后,累加器的值才会更新; 累加器的值只有在驱动程序才能访问,从工作节点上任务的角度看,累加器只是一个只写变量。在这种模式下,累加器的实现可以更加高效,不需要对每次更新操作进行复杂的通信。 广播变量 广播变量可以让程序高效地向所有工作节点发送一个较大的只读值,以供一个或多个spark操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,或者是
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

软考中项---十六---项目变更管理

分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

XGBoost模型理解(python实现)与GBDT/RF模型对比

目录 一、XGBoost模型理解 1、损失函数定义 2、正则项 3、树结构 4、XGBoost算法总结: 二、XGBoost、GBDT、RF三种集成模型比较 三、XGBoost模型Python实现 一、XGBoost模型理解 监督学习的目标函数定义: 1、损失函数定义 损失函数通常有残差平方和(回归问题),log损失函数(分类问题),以下以残差平方和为例,log损失函数同理。 树集成模型的最优化问题,通常是固定已训练的模型,每次增添一个树: 第t次迭代树的目标函数为: 考虑目标函数的二阶泰勒展
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

软考中项---十七---信息系统安全管理

分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

[图]python实现图的遍历、最小生成树、最短路径

目录 1、图遍历 2、最小生成树-Prime算法 3、最短路径-Dijkstra算法 图的两种常用的表示方式是邻接矩阵和邻接表。以下以邻接矩阵为例,图的初始化定义: class Graph(): def __init__(self,nodeNum,sides,direction=False): self.nodeNum = nodeNum #顶点 self.amatrix = [[0]*(nodeNum+1) for i in range(nodeNu
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0

[个性化推荐]基于邻域的算法-协同过滤算法

目录 1、相似度的度量 2、基于用户的协同过滤算法 2.1 算法原理 2.2 用户相似度计算的改进 2.3 使用的场景 3、基于物品的协同过滤算法 3.1 算法原理 3.2 物品相似度计算的改进 3.3 使用的场景 4、userCF和itemCF比较 1、相似度的度量 欧氏距离,度量的是空间中两个点的绝对差异,适用于分析用户能力模型之间的差异: 余弦相似度,度量的是两个向量之间的夹角: 皮尔逊相似度,先对向量做了中心化,向量p和q各自减去向量的均值后,再计算余弦相似度,皮尔逊相似度计算结果在-
分类: 其他 发布时间: 02-09 20:00 阅读次数: 0