MySQL8.0发布,你熟悉又陌生的Hash Join?

MySQL8.0发布,你熟悉又陌生的HashJoin?大数据技术与架构大数据技术与架构昨天下午在查资料的时候,无意间点到了MySQL的doc。发现MySQL发布了一个新版本。Mysql这个数据库有没有人不熟悉?不用的?没有吧。2019年末,MySQL发布的8.0.18GA版本,带来了一些新特性和增强功能。其中最引人注目的莫过于多表连接查询支持HashJoin。还是老样子,建议英文好的同学直接看这里
分类: 编程语言 发布时间: 04-04 11:02 阅读次数: 0

新型冠状病毒来袭,非典期间的一段回忆

新型冠状病毒来袭,非典期间的一段回忆一位读者大数据技术与架构最近的新型肺炎病毒甚嚣尘上,已经成了大众最瞩目的事件,整个国家层面反应也算迅速,毕竟我们是一个十几亿人口的国家。公众号的一个读者和我分享了一段03年非典期间的故事,感慨颇深。经原亲历者同意,分享给大家。以下简称"我"。距离非典过去已经17年了,相信很多95后的读者那时候还在读小学,记忆没有那么深刻。当时我在读初中。非典
分类: 编程语言 发布时间: 04-04 11:02 阅读次数: 0

年轻人你渴望力量吗 | 我读过的一些书推荐

年轻人你渴望力量吗|我读过的一些书推荐群主大数据技术与架构本文总结了一些读书的时候和工作后看过的书,这些书是从我的书单中挑出来的。不完全统计我个人在京东、当当、亚马逊和Kindle上共买了几百本书,当然算起来其实没有花多少钱,有大量的书都是搞活动买到的。我挑了其中一些个人认为很值得看的书,大家可以搜一下,其实大部分书都可以在网上找到电子版。如果你打算仔细看看,推荐还是买基本纸质书籍,比如我个人其实
分类: 编程语言 发布时间: 04-04 11:02 阅读次数: 0

远程办公初体验-巧克力味儿的shi

远程办公初体验-巧克力味儿的shi群主王知无大数据技术与架构1首先祝大家开工大吉。2020年2月3日是一个值得很多上班族纪念的日子。你们的群主因为钉钉爆炸已经被工单压迫到爆炸了。我是临时小群主,嘻嘻。因为今天很多很多人第一次体验了【远程办公】的感觉。钉钉和企业微信也经历了自己的【双十一】。果不其然,第一次双十一都以【爆炸】结束。小群主也经历了远程办公的初体验。由于功力太浅,感觉远程办公就像【巧克力
分类: 编程语言 发布时间: 04-04 11:02 阅读次数: 0

Spark源码阅读的正确打开方式

Spark源码阅读的正确打开方式群主王知无大数据技术与架构Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,吊打其他的大数据处理框架。Spark至今只经历过1.x、2.x和3.x三个大版本的变化,在核心实现上,我们在Github能看到的最早的实现是0.5版本,这个版本只有1万多行代码,就把Spark的核心功能实现了。当然我们
分类: 编程语言 发布时间: 04-04 11:01 阅读次数: 0

数据资产管理在腾讯游戏的实践

数据资产管理在腾讯游戏的实践陈才大数据技术与架构本文是由来自腾讯的陈才进行的分享。作者专注数据资产管理,自动化运维,AIOps。腾讯游戏大数据运营概况每日传输量:17000亿条,约260TB,总存储量为100PB+,公司占比为20%。在游戏大数据管控中,面临着众多问题与痛点:数据多样化,缺少统一标准计算逻辑理解一不致,导致统计结果有偏差数据全链路质量问题,层次复杂、不能快速定位问题游戏数据管控的问
分类: 编程语言 发布时间: 04-04 11:01 阅读次数: 0

原创 | 混沌工程(Chaos Engineering)初识

Chaos Engineering is the discipline of experimenting on a distributed system in order to build confidence in the system's capability to withstand turbulent conditions in production.——Principles of Cha
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

混沌工程的陷阱

本文来自Nora Jones于2019年3月28日在第4届混沌工程大会上的分享,原文地址参考资料2。Nora Jones 是《Chaos Enginering》一书的作者之一,曾在Netflix、Jet.com、Slack等公司实施和落地混沌工程,同时她也在Lund University攻读人因工程及系统安全专业的硕士学位,这也恰好给了她关于混沌工程结合人因相关的观点。我花了几天时间去分析和理解这
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

跟Kafka学技术-缓冲池的使用

作者简介:黄益明,来自滴滴出行kafka团队,对Kafka有一年多的研究和实践,负责滴滴内部云平台的架构设计和Kafka特性研发工作。大家都知道Kafka是一个高吞吐的消息队列,是大数据场景首选的消息队列,这种场景就意味着发送单位时间消息的量会特别的大,那么Kafka如何做到能支持能同时发送大量消息的呢?答案是Kafka通过批量压缩和发送做到的。我们知道消息肯定是放在内存中的,大数据场景消息的不断
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

Paxos、Raft不是一致性算法/协议?

作为互联网中的一员,我们时常沉浸在“分布式”的氛围当中——高可用、高可靠、高性能等等词汇随处可见,CAP、BASE、2PC、Paxos、Raft等等名词也能信手捏来。不过,有些词在我们“并不严谨”的传播中逐渐被误用了,或者说含糊不清了。今天,我们来简单聊聊“Consistency”这个词,即一致性。Paxos、Raft等通常被误称为“一致性算法”。但是“一致性(Consistency)”和“共识(
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

你是那个最会写情诗的Python猿吗?

关注是最长情的告白你有对象吗?Python猿还想找对象?以为写Python的程序猿就不浪漫?不,我不服!用Python写几句三行诗了解一下?你不能拒绝巧克力就像你不能拒绝爱情Youcannotrefusechocolatejustasyoucannotrefuselove整理了一下看过的比较动人的情话:Iwassilent,nohopeforloveyou.我曾默默无语,毫无指望的爱你ThenIm
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

Raft当初为什么会被命名为Raft?

Raft 是用来管理复制日志(replicated log)的共识算法。(共识,即consenus,关于consistency和consensus的争论可以参考《Paxos、Raft不是一致性算法/协议?》。)Raft 跟 multi-Paxos 作用相同,效率也相当,但是它的组织结构跟 Paxos 不同,Raft 也比 Paxos 更容易理解并且更容易在工程实践中实现。为了使 Raft 协议更易
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

还不赶快用Python分析一下你喜欢的球员?

         背景12011年12月27日,尼克斯用一份无保障合同签下林书豪,23场比赛中,他总共只出场55分钟。2豪哥在采访中说到,“你找我来连练习场都不让上,更不用说正式比赛了”3母亲祷告:“God, if this is your will for him to NBA,you need to show us!”2月4号的比赛中,主力球员受伤,豪哥临危受命。至此,林疯狂来袭。下面分析一下
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

数据分析之Pandas VS SQL!

AbstractPandas是一个开源的Python数据分析库,结合 NumPy 和 Matplotlib 类库,可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。对于数据开发工程师或分析师而言,SQL 语言是标准的数据查询工具。本文提供了一系列的示例,说明如何使用pandas执行各种SQL操作。Pandas简介 Pandas把结构化数据分为了三类:Series,可以理解为一个一维的数组,
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

这些祝福和干货比那几块钱的红包重要的多!

                祝各位家人身体健康。老友都在,猪事顺利。单身狗的祝暗恋的女神、男神每天都给你早晚安已有狗的祝你和你的狗永远美滋滋,早生贵子!赚钱、赚很多钱、无论是人民币还是美刀。各种牛皮,开挂,就是走位贼6的那种。前戏在利用pandas做数据分析的时候,经常会利用mean,sum,median等统计量对数据做整体的初步分析,但简单的累计方法只可以对数据集有一个粗略的认识
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

只要8个问题就知道你Python的水平!

前戏首先题外话之歌曲推荐,歌词真的感同身受。大家边听边用几分钟的时间看一下今天的内容。         > 今天在写Python程序的时候发现有一段代码跟自己想的输出不一样,后面就去查找了一下相关的坑并总结了一下比较重要常用的几个,下面开始入坑。(底部见答案看是否和想的一样)>> 1 还是 2? 答案见底部> 2-1> 2-2>  2-3> 2-43&gt
分类: 编程语言 发布时间: 04-04 10:52 阅读次数: 0

Python模拟社会财富分配。

前戏进入今日主题之前先来了解一下蒙特卡洛方法,在机器学习或统计计算领域,常常遇到这样一类问题:即如何求取一个定积分?可能求解一些积分有解析解的方程式是可以直接积分得,但是会遇到很多问题无法用分析的方法来求得精确解。遇到这种情况,常会采用一些方法去得到近似解,本文谈的蒙特卡罗方法随机模拟就是这一类近似求解的方法。蒙特卡洛蒙特卡洛人名吗?第一次看到“蒙特卡洛”的时候我还以为是个人名,其实蒙特卡洛不是个
分类: 编程语言 发布时间: 04-04 10:51 阅读次数: 0

面试必备之Python深、浅拷贝。

       聊Python的浅拷贝深拷贝问题之前,先举一个例子:现在你有一份家族名字的列表,你家里人想让你们加入Ed家族但是要保证之前的家族名字列表保持不变,你可能会写一个Python程序如下如:你发现你确实使得家族名字前面都加上了“Ed”,但与此同时你把原始的家族名字列表也给修改了,这是什么问题导致的呢?下面请看。变量、引用、对象开场白:在Python中,有一句话:“一切皆为对象,一切皆为对象
分类: 编程语言 发布时间: 04-04 10:51 阅读次数: 0

都说了解PCA,那你知道ICA吗?

Backgroud做一个数据分析业务之前,往往需要对反映事物的多个特征变量进行大量的观测,收集大量数据以便进行分析寻找规律。多个特征变量确实会提供丰富信息,但是很多情况下变量之间可能会存在相关性,如果用全部特征变量去拟合模型,可能在训练集的效果上会表现的很好,但是在测试集的效果上可能很差。这就存在模型“过度自信”的问题。因此需要找到一种合理的方法,在减少需要分析的特征变量同时,尽量减少特征变量包含
分类: 编程语言 发布时间: 04-04 10:51 阅读次数: 0

线性回归只能用sklearn实现吗?

前戏某房地产公司老板给了小李一份数据是关于公司不同地区不同的房价数据,数据中包括房屋的大小,面积,所处商业位置等信息。而后老板想让小李预测一下在另一个商区的某几套房子的价格大概能卖多少钱。拿到数据后的小李想这我怎么知道具体怎么做呀?不慌,下面介绍如何用Python结合回归模型具体实现。通用性理论步骤大框架:    探索性数据分析    数据清洗    建模分析    模型评估01回归理论简介利用数
分类: 编程语言 发布时间: 04-04 10:51 阅读次数: 0