sql优化之count distinct vs. count group by

很多情况下,尤其是对文本类型的字段,直接使用count distinct的查询效率非常低,而先做group by再count往往能提升查询效率。但是,实验表明,对于不同的字段,count distinct与count  group by的性能并不一样,而且其效率与目标数据集的数据重复度相关。举例:分别使用count distinct 和 count group by对 bigint, macadd...
分类: 其他 发布时间: 07-08 23:52 阅读次数: 0

Raspberry Pi AP功能改进: systemd服务封装以及dnsmasq的使用

在上一篇《Raspberry pi 设置自动拨号搭建无线路由环境》一文中,笔者利用hostapd和udhcpd程序,创建无线热点,实现地址分配以及
分类: 其他 发布时间: 07-08 23:52 阅读次数: 0

MySQL数据加密以及安全维护

数据库可谓公司核心了,你是否对公司的数据有有效的安全措施呢?你是如何有效管理你的MySQL呢?这里不探讨其它数据库和云数据库,
分类: 数据库 发布时间: 07-08 23:52 阅读次数: 0

CentOS 7.2下RPM方式安装MySQL5.6

Linux 环境RPM 安装MySQL5.6步骤记录。 系统环境 CentOS7.2
分类: 数据库 发布时间: 07-08 23:52 阅读次数: 0

sql之 if 与 like 关键字

like:    从上面的 "Persons" 表中选取居住在以 "N" 开始的城市里的人:    sql语句:select * from Persons where City like ‘N%’    注:"%" 可用于定义通配符(模式中缺少的字母)if:    表达式为:IF( expr1 , expr2 , expr3 )    expr1 为true,则返回expr2 ,否则返回expr3...
分类: 其他 发布时间: 07-08 23:52 阅读次数: 0

Oracle如何查看执行计划

在Oracle数据库里,我们通常可以使用如下方法(包括但不限于)得到目标SQL的执行计划: explain plan 命令 DBMS_XPLAN包 SQLPLUS中
分类: 数据库 发布时间: 07-08 23:52 阅读次数: 0

Oracle 10046事件 介绍(二) ---tkprof

收集10046 trace不是最终的目的,能够读懂并且通过分析10046 trace进而分析相应sql的性能问题才是10046 trace真正发挥作用的地方
分类: 其他 发布时间: 07-08 23:52 阅读次数: 0

sql之 <>与 !=

<> 这个是最早的用法。!=是后来才加上的。两者意义相同,在可移植性上前者优于后者故而sql语句中尽量使用<>来做不等判断
分类: 其他 发布时间: 07-08 23:52 阅读次数: 0

三分钟看懂大数据风控中用户行为数据的采集、分析及应用( 转 )

据统计,目前银行传统的风控模型对市场上70%的客户是有效的,但是对另外30%的用户,其风控模型有效性将大打折扣。大数据风控作为传统风控方式补充,主要利用行为数据来实施风险控制,用户行为数据可以作为另外的30%客户风控的有效补充。那么,大数据风控运营中,会主要分析用户的哪些行为数据,怎么分析?1.行为数据的采集和分析用户行为数据:主要包含用户在网站和移动App中的浏览/点击/发帖等行为,行为数据其实...
分类: 其他 发布时间: 07-08 23:51 阅读次数: 0

数据挖掘or数据分析?

关于数据挖掘与数据分析的区别和联系,我在网上搜集了一些,自己挑选了几种形象利于理解的答案简单罗列如下:(1)从实际工作角度:数据分析更侧重业务,数据挖掘则更侧重技术数据分析强调基于新的发现支持业务决策,关键是要转换到业务行动中发挥数据价值;数据挖掘关注焦点在于技术创新而非业务含义,当业务问题转化为数据问题后,建模工作主要是寻求可行的技术解决方案,过程中业务人员起的是辅助作用。另外,数据挖掘从实验室...
分类: 其他 发布时间: 07-08 23:51 阅读次数: 0

正则表达式(长期更新)

1.  *、+、?*:匹配前面的子表达式零次或多次+:......一次或多次?:......零次或一次,或指明一个非贪婪限定符2.贪婪与非贪婪
分类: 其他 发布时间: 07-08 23:51 阅读次数: 0

分页原理及意义

网站建设中网页排列方式一般分为两种:(1)单页面显示所有内容(2)单页面无法显示所有内容,此时就需要多分页来显示实现分页的解决方案有两种:(1)一次查询出数据库中的所有记录,然后在每页中显示指定的记录。(2)对数据库进行多次查询,每次只获得本页的数据并显示先如今网站建设中的数据都是海量的,若按方案1执行:无疑会加大服务器内存的负载,降低系统运行速度,因而大家都会使用方案2。如今,分页方式又有了新的...
分类: 其他 发布时间: 07-08 23:50 阅读次数: 0

HDFS中数据块概念及设置大小的学问

sss
分类: 其他 发布时间: 07-08 23:50 阅读次数: 0

Hadoop系统中的单点故障解决方案总结

相较与Hadoop1.0,Hadoop2.0提供了比较完整的单点故障解决方案(Hadoop HA)Hadoop2.0内核由三个分支组成:HDFS、MapReduce和YARN,其他的Hadoop生态系统组件比如:HBase、Hive、Pig等,均是基于这三个系统开发的。因此在Hadoop2.0,存在着三个子系统的单点故障问题。正式介绍解决方案之前,先简要回顾这三个子系统:(1)HDFS:即分布式存...
分类: 其他 发布时间: 07-08 23:50 阅读次数: 0

数据结构---图---知识点总结

转自:https://blog.csdn.net/Ontheroad_/article/details/72739380图的存储结构1.邻接矩阵:两个数组,一个数组保存“顶点集”,一个数组保存“边集”。无向图中:有向图中:2.邻接表:数组与链表相结合的存储方法。对于带权值的网图,可以在边表结点定义中再增加一个weight的数据域,存储权值信息即可。图的遍历1.深度优先遍历(DFS):类似于树的先序...
分类: 其他 发布时间: 07-08 23:50 阅读次数: 0

使用virtualenvwrapper安装配置python虚拟环境

实际项目中,依赖python版本不同,例如有的基于python2.7,然而越来越多的程序则基于python3环境开发。正常情况下,系统是可以配置多个版本的开发环境。但是这样就会产生一个问题,如果不同项目的依赖包混合在一起,可能会引起意想不到的错误。因此,我们可以使用虚拟环境的方式,隔离不同的开发环境,使其共存。传统方法是安装virtualenv,安装方法参考https://www.cnblogs....
分类: 其他 发布时间: 07-08 23:49 阅读次数: 0

hive---基本类型中,varchar(20)与char(20)的区别

Hive中varchar与char都是用来存储字符串。两者区别是:varchar属于可变长的字符类型。char属于固定长度的字符类型。假定声明了varchar(20)与char(20)两种数据类型,当存入的字符占用小于20时,声明为varchar的字符只占用足够表示它的那些字符空间;而char则仍然占满20个字节空间,用空格填充。...
分类: 其他 发布时间: 07-08 23:49 阅读次数: 0

hive---nvl函数

nvl函数:空值转换函数函数形式:nvl(expr1,expr2),类似于mysql-nullif(expr1,expr2)作用:将查询为Null值转换为指定值。若expr1为Null,则返回expr2,否则返回expr1。适用于数字型、字符型和日期型,但是expr1和expr2的数据类型必须为相同类型。...
分类: 其他 发布时间: 07-08 23:49 阅读次数: 0

hive---常用内置函数总结

数学函数:round(四舍五入):ceil(向上取整):floor(向下取整):上面的结果变为45字符函数:lower(转小写):upper(转大写):length(字符串长度,字符数):concat(字符串拼接):substr(求子串):substr(a,b):从字符串a中,第b位开始取,取右边所有的字符substr(a,b,c):从字符串a中,第b为开始取,取c个字符注意:空格算占用一个字符的...
分类: 其他 发布时间: 07-08 23:49 阅读次数: 0

理解多线程的实际意义和优势

首先理解并行和并发的区别:并行:指在同一时刻,有多条指令在多个处理器上同时执行;并发:指在同一时刻,只能有一条指令执行,但多个进程指令被快速轮换执行,使得在宏观上具有多个进程同时执行的效果。大部分操作系统都支持多进程并发运行:程序员一边使用开发工具写代码,一边打开网页在查API,同时还开着网易云听歌······还没完,每台电脑运行时还有大量的底层支撑性程序在后台运行······这些进程看上去像是在...
分类: 其他 发布时间: 07-08 23:48 阅读次数: 0