从roc曲线到auc

1.为什么我们要用roc曲线进行评价 用传统的识别率来评价模型的话会有下面的缺陷: 在类不平衡的情况下, 如正样本90个,负样本10个,直接把所有样本分类为正样本,得到识别率为90% 而如果正样本识别对75个,负样本识别对5个,得到的识别率为80%。 但是这样的识别率评价指标导致高分模型不具有鲁棒性(即该模型在类别平衡下表现不好) 所以我们要换一种评价指标就有了roc曲线 2.那么roc曲线到底是什么呢? 对于一个二分类问题,我们有如下图4种情况 i. 预测为正,真实为正(预测正确)即下图的:
分类: 编程语言 发布时间: 12-04 23:27 阅读次数: 0

Dataset schema

/** * Returns the schema of this Dataset. * * @group basic * @since 1.6.0 */ def schema: StructType = queryExecution.analyzed.schema QueryExecution.scala lazy val analyzed: LogicalPlan = { SparkSession.setActiveSession(sparkSes
分类: 编程语言 发布时间: 12-04 23:27 阅读次数: 0

2072 Problem F 放苹果

问题 F: 放苹果 时间限制: 1 Sec 内存限制: 32 MB 提交: 29 解决: 25 [提交][状态][讨论版][命题人:外部导入] 题目描述 把M个同样的苹果放在N个同样的盘子里,允许有的盘子空着不放,问共有多少种不同的分法?(用K表示)5,1,1和1,5,1 是同一种分法。 输入 第一行是测试数据的数目t(0 <= t <= 20)。以下每行均包含二个整数M和N,以空格分开。1<=M,N<=10。 输出 对输入的每组数据M和N,用一行输出相应的K。 样例输入 2 6 3 7 2
分类: 编程语言 发布时间: 12-04 23:27 阅读次数: 0

Spring Boot 命令启动时指定配置文件

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/poem_2010/article/details/84786894 有以下场景: 副总经理需要去部署系统, 系统使用的是spring boot + gradle 写的, 但是是按照模块写的, 打包出来是 war 包, 使用 java -jar xxx.war 问题来了 , 数据库配置要修改, 端口要修改, 各种地址修改, 但是配置文件在包里, 改不了.所以需要使用命令来指定外部的配置文件来直接指
分类: 编程语言 发布时间: 12-04 23:26 阅读次数: 0

Python 提取字符串中的数字

版权声明:请让我看到你翘起来的嘴角 https://blog.csdn.net/qq_43402573/article/details/84786966 方法*正则表达式. re.findall >>> import re >>> str1="this book is 99 yuan 8" >>> a=re.findall(r'\d',str1) #在字符串中找到正则表达式所匹配的所有数字,a是一个list >>> a #取出str1中所有数字,并放入list a中 ['99','8']
分类: 编程语言 发布时间: 12-04 23:26 阅读次数: 0

rmAppManager.submitApplication详解(详见1)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83590826 rmAppManager.submitApplication详解 先简述两个点: 1.ResourceManager是有main函数的,是用hadoop启动脚本启动的. 2.因为rmAppManager是属于RM端的,rmAppManager.submitApplication前,submitApplication最开始提交端在
分类: 其他 发布时间: 12-04 23:26 阅读次数: 0

RMAppNewlySavingTransition(详见2)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83591378 RMAppNewlySavingTransition(基于hadoop 2.7.6) 经过RMAppNewlySavingTransition后,RMApp的状态由NEW转为NEW_SAVING.根据提交上下文创建应用程序状态数据结构(主要是提交时间,启动事件,提交上下文,提交用户等),然后触发RMStateStoreEvent
分类: 其他 发布时间: 12-04 23:25 阅读次数: 0

ApplictionId的生成

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/84341650 ApplictionId的生成 ApplicationId主要包括两部分:clusterTimestamp和id. 是在客户端提交应用程序前,随着rpc方法getNewJobID获取jobId时生成的.而JobID只是applicationId的简单包装. 其中clusterTimestamp是ResourceManager的启
分类: 其他 发布时间: 12-04 23:25 阅读次数: 0

StoreAppTransition(详见3)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83591780 StoreAppTransition(基于hadoop 2.7.6) 主要实现了两个逻辑: 1.将应用程序application的结构数据存储到ZK上(存储目录:/rmstore/ZKRMStateRoot/RMAppRoot/$appId). 2.用rmDispatcher全局调度器触发RMAppEventType.APP_N
分类: 其他 发布时间: 12-04 23:25 阅读次数: 0

AddApplicationToSchedulerTransition(详见4)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83592058 AddApplicationToSchedulerTransition(基于hadoop 2.7.6) 主要逻辑是触发了SchedulerEventType.APP_ADDED事件,该事件会由CapacityScheduler.handle处理. AddApplicationToSchedulerTransition转换处理器后
分类: 其他 发布时间: 12-04 23:25 阅读次数: 0

Capacity Scheduler--APP_ADDED事件的处理(详见5)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83616615 Capacity Scheduler(基于hadoop 2.7.6) Capacity Scheduler 主要功能: 1.应用程序初始化 应用程序提交到ResourceManager后,ResouceManager会向Capacity Scheduler发送一个SchedulerEventType.APP_ADDED事件,Ca
分类: 其他 发布时间: 12-04 23:24 阅读次数: 0

SchedulerApplication类图

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/84346497 基于hadoop2.7.6
分类: 其他 发布时间: 12-04 23:24 阅读次数: 0

StartAppAttemptTransition(详见6)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83621048 StartAppAttemptTransition(基于hadoop 2.7.6) StartAppAttemptTransition是对RMAppEventType.APP_ACCEPTED事件的转换处理,转换处理后RMApp状态由SUBMITTED变为ACCEPTED. 主要逻辑: 1.创建RMAppAttempt,RMAp
分类: 其他 发布时间: 12-04 23:24 阅读次数: 0

AttemptStartedTransition(详见7)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83621436 AttemptStartedTransition(基于hadoop 2.7.6) 主要逻辑: 1.向ApplicationMasterService注册AppAttempt(在ApplicationMasterService服务中以attemptId为键占个坑,后面ApplicationMaster通过allocate发送心跳时
分类: 其他 发布时间: 12-04 23:24 阅读次数: 0

向ApplicationMasterService注册AppAttempt

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83622821 向ApplicationMasterService注册AppAttempt 1.实例化应答类AllocateResponse,将ResponseId初始化-1. 2.在ApplicationMasterService服务中根据attemptId占个坑,后面ApplicationMaster通过allocate发送心跳时,会检查其
分类: 其他 发布时间: 12-04 23:23 阅读次数: 0

Capacity Scheduler--APP_ATTEMPT_ADDED事件的处理(详见8)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83624242 Capacity Scheduler(基于hadoop 2.7.6) Capacity Scheduler 主要功能: 1.应用程序初始化 应用程序提交到ResourceManager后,ResouceManager会向Capacity Scheduler发送一个SchedulerEventType.APP_ADDED事件,Ca
分类: 其他 发布时间: 12-04 23:23 阅读次数: 0

基于Yarn的应用程序提交流程图

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/84389088 详见1 详见2 详见3 详见4 详见5 详见6 详见7 详见8 详见9
分类: 其他 发布时间: 12-04 23:23 阅读次数: 0

ScheduleTransition(详见9)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83745175 ScheduleTransition(基于hadoop 2.7.6) 主要逻辑: 1.将当前启动AM所需要的amReq需求更新维护到(FiCaSchedulerApp)application里的(Map<Priority, Map<String, ResourceRequest>>)requests列表. CapacitySch
分类: 其他 发布时间: 12-04 23:23 阅读次数: 0

CapacityScheduler --ApplicationMaster资源分配

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/84319940 CapacityScheduler --ApplicationMaster资源分配(基于hadoop 2.7.6) 资源分配是被动分配的方式,在数据节点发送心跳(NODE_UPDATE)时,根据数据节点汇报的资源情况进行调度分配. 先贴下: ApplicationMaster启动需要的资源多少(memory和virtualcor
分类: 其他 发布时间: 12-04 23:22 阅读次数: 0

AM启动--ContainerStartedTransition(一)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhusirong/article/details/83782644 ContainerStartedTransition(基于hadoop 2.7.6) 经过ContainerStartedTransition转换器处理后,RMContainerState状态由NEW转换为ALLOCATED. 单纯,代码清单: private static final class ContainerStarte
分类: 其他 发布时间: 12-04 23:22 阅读次数: 0