代码天地

[特征工程]数据预处理的方法和技巧

目录一、数据的抽取要正确反映业务需求二、处理缺失值和异常值 2.1 缺失值处理 2.2 异常值处理三、数据转换 3.1 改善变量分布的转换 3.2 数据标准化四、筛选有效的输入变量五、变量共线性问题工业界有一个大家公认的看法，“数据和特征决定了数据挖掘项目的上限，而算法只是尽可能地逼近这个上限”。在实战中，特征工程几乎需要一半以上的时间，是很重要的一个部分，因而本文对数据处理的主要步骤和方法进行梳理和总结。一、数据的抽取要正确反映业务需求一个数据挖掘需求一旦确定后，工程师接下来

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

[数据挖掘案例]逻辑回归LR模型实现电商商品个性化推荐

目录一、问题描述二、数据摸底三、数据清洗和特征筛选 3.1 数据抽取和清洗 3.2 特征筛选：决策树 3.3 特征分布转换 3.4 特征共线性检查四、模型搭建 4.1 数据集 4.2 模型训练 4.3 模型验证五、模型上线效果跟踪一、问题描述在电商平台中，有海量的商品，如何为用户挖掘出感兴趣的商品，真正实现千人千面具有重要的意义。商品得分排名，在电商平台个性化推荐排序具有重要的应用。用户对商品偏好得分受哪些因素的影响，以及这些因素最终如何共同决定商品得分？本文总结了一个实际电商

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

设计模式--复合模式

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86772999 设计模式--复合模式复合模式原理 ·什么是复合模式模式常一起使用，组合在一个设计解决方案中复合模式在一个解决方案中结合两个或多个模式能解决一般性或一系列的问题某些模式结合使用，并不就是复合模式 ·复杂鸭子项目多种鸭子，不同鸭子叫声、飞行、游泳方式不同--策略模式鹅，需要加入几只普通的鹅--适配器模式要统

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

设计模式--桥接模式

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86773794 设计模式--桥接模式 •桥接模式原理遥控器项目的设计极简设计方案代码： Control public interface Control { public void On(); public void Off(); public void setChannel(int ch); public voi

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

[spark]计算商品相似度

一、商品相似度定义基于物品的协同过滤算法是业界应用最多的算法，它的思想是给用户推荐那些和他们喜欢的物品相似的物品，主要分为两个步骤：一，计算物品之间的相似度；二，根据物品相似度和用户的历史行为给用户生成推荐列表。物品i和物品j的相似度可定义为：其中，分母是喜欢物品i的用户数，分子是同时喜欢物品i和物品j的用户数。在电商网站中，用户前后的消费行为有很强的关联性，如上图所示，两个用户userA,userB在易购上面的消费记录（https://www.jianshu.com/p/00a281

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

设计模式--生成器模式

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86775243 设计模式--生成器模式生成器模式原理 •度假计划生成项目设计度假计划生成项目介绍度假计划的因素：时间、门票、餐厅、住宿、特殊活动等一个计划就是一个具体对象，要便于扩展思考怎么做复杂对象生成问题 •生成器模式原理生成器模式：封装一个复杂对象构造过程，并允许按步骤构造。 •代码讲解 VacationDay

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

[机器学习算法]逻辑回归模型、优缺点及spark ml机器学习库实现LR

目录一、逻辑回归模型-log损失函数 1.1 模型定义 1.2 损失函数 1.3 梯度下降求解参数二、利用最大似然估计求解逻辑回归模型参数三、逻辑回归模型优缺点分析四、spark ml机器学习库实现逻辑回归模型五、离散特征作为模型输入一、逻辑回归模型-log损失函数 1.1 模型定义 1.2 损失函数 1.3 梯度下降求解参数迭代直至收敛二、利用最大似然估计求解逻辑回归模型参数事件发生概率为：训练样本的似然函数为：利用梯度下降优化似然函数：三、逻辑回归模型优缺点分析优

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

设计模式--蝇量模式（享元模式）

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86776640 设计模式--蝇量模式 •蝇量模式原理 •景观设计软件项目遇到的问题树：XY坐标，树的大小，外观，需要很多树 10000000棵树思考如何设计传统方式： Tree public class Tree { private int xCoord, yCoord, age; public Tree(int xCo

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

[spark性能调优]spark submit资源参数调优及amazon集群示例

目录一、spark作业基本运行原理二、资源参数调优 Spark内存管理：三、amazon集群资源参数示例一、spark作业基本运行原理资源申请与分配：我们使用spark-submit提交一个spark作业后，这个作业会启动一个对应的Driver进程。根据使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动（client mode），也可能在集群中某个工作节点启动（cluster mode）。Driver进程本身根据我们设置的参数，占有一定数量的内存和CPU

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

设计模式之--解释器模式

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86777532 设计模式之--解释器模式 •解释器模式原理 •大数据统计项目遇到的问题按照计算模型对现有数据统计、分析、预测一般的计算模型是一个或多个运算公式，通常是加减乘除四则运算计算模型需要运行期编辑设计方案要有高扩展性思考怎么设计 •解释器模式原理计算模型按正常算术方式书写，解释器处理语法逻辑计算模型里有两类符号：

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

[机器学习算法]决策树CART和随机森林模型

目录一、决策树CART 1.1分类决策树 1.2回归决策树 1.3 决策树优点与缺点 1.4 决策树剪枝算法二、随机森林RF 2.1随机森林的生成 2.2 随机森林的特点一、决策树CART CART分类回归树是一种典型的二叉决策树，可以处理分类或者回归问题。如果待预测结果是离散型数据，则CART生成分类决策树；如果待预测结果是连续型数据，则CART生成回归决策树。 1.1分类决策树选择GINI系数作为分裂节点的依据。对于给定的样本集合D，其基尼指数为 Gini系数表示该数据集中样本属

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

设计模式--访问者模式

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86826371 设计模式--访问者模式 •雇员管理系统遇到的问题雇员管理系统遇到的问题：需要添加一些新的操作功能思考如何设计 Employee public class Employee { private String name; private float income; private int vacationD

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

梯度提升树GBDT模型原理及spark ML实现

目录一、GBDT模型原理 1.1 GB(Gradient Boost)算法 1.2 GBDT模型二、spark ML机器学习库中GBDT使用案例三、GBDT与Boost算法比较四、 GBDT与RF比较一、GBDT模型原理 1.1 GB(Gradient Boost)算法 GB算法直观理解，将损失函数的负梯度在当前模型的值，当做下个模型训练的目标函数(第3,4步)。沿着损失函数负梯度方向迭代，使得损失函数越来越小，模型偏差越来越小。 1.2 GBDT模型 GBDT模型将决策树CART放

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

设计模式--最后总结

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/xiao__jia__jia/article/details/86829728 设计模式--最后总结 •设计模式的三个分类 •什么是设计模式模式：在某些场景下，针对某类问题的某种通用解决方案场景：项目环境问题：约束条件，项目目标等解决方案：通用、可以复用的设计，解决约束，达到目标 •设计模式的三个分类创建型模式：对象实例化的模式，创建型模式解耦了对象的实例化过程结构型模式：把类或对象结

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

spark共享变量：累加器与广播变量

累加器累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法。累加器一个常见用途是，在调试时对作业执行过程中的事件进行计数。执行行动操作后，累加器的值才会更新；累加器的值只有在驱动程序才能访问，从工作节点上任务的角度看，累加器只是一个只写变量。在这种模式下，累加器的实现可以更加高效，不需要对每次更新操作进行复杂的通信。广播变量广播变量可以让程序高效地向所有工作节点发送一个较大的只读值，以供一个或多个spark操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，或者是

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

软考中项---十六---项目变更管理

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

XGBoost模型理解（python实现）与GBDT/RF模型对比

目录一、XGBoost模型理解 1、损失函数定义 2、正则项 3、树结构 4、XGBoost算法总结：二、XGBoost、GBDT、RF三种集成模型比较三、XGBoost模型Python实现一、XGBoost模型理解监督学习的目标函数定义： 1、损失函数定义损失函数通常有残差平方和（回归问题），log损失函数（分类问题），以下以残差平方和为例，log损失函数同理。树集成模型的最优化问题，通常是固定已训练的模型，每次增添一个树：第t次迭代树的目标函数为：考虑目标函数的二阶泰勒展

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

软考中项---十七---信息系统安全管理

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

[图]python实现图的遍历、最小生成树、最短路径

目录 1、图遍历 2、最小生成树-Prime算法 3、最短路径-Dijkstra算法图的两种常用的表示方式是邻接矩阵和邻接表。以下以邻接矩阵为例，图的初始化定义： class Graph(): def __init__(self,nodeNum,sides,direction=False): self.nodeNum = nodeNum #顶点 self.amatrix = [[0]*(nodeNum+1) for i in range(nodeNu

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

[个性化推荐]基于邻域的算法-协同过滤算法

目录 1、相似度的度量 2、基于用户的协同过滤算法 2.1 算法原理 2.2 用户相似度计算的改进 2.3 使用的场景 3、基于物品的协同过滤算法 3.1 算法原理 3.2 物品相似度计算的改进 3.3 使用的场景 4、userCF和itemCF比较 1、相似度的度量欧氏距离，度量的是空间中两个点的绝对差异，适用于分析用户能力模型之间的差异：余弦相似度，度量的是两个向量之间的夹角：皮尔逊相似度，先对向量做了中心化，向量p和q各自减去向量的均值后，再计算余弦相似度，皮尔逊相似度计算结果在-

分类: 其他发布时间: 02-09 20:00 阅读次数: 0

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)