大数据和云计算技术周报(第99期)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zNZQhb07Nr/article/details/89464819


导语

本期会给大家奉献上精彩的:HBase、Elasticsearch、spark、MongoDB、AI+机器学习、实践案例、基础技术。全是干货,希望大家喜欢!!!


特别提醒,文末有惊喜!


以下是正文,限于众编辑水平有限,不保证大家都喜欢。(如果链接不能点开  请用二维码  谢谢


1HBase

本文由一个phoenix异常报错开始,介绍如何分析问题,优化源码,最终将遇到问题的SQL的物理执行计划,由14000个并发任务优化为32个。

https://mp.weixin.qq.com/s/t1KFJjn8jU9bYI37fXzkTA



本文将为大家介绍为什么keyvalue分开存储能够有效的降低写放大,然后聊聊几个 key value 分离系统的结构,包括两篇影响比较广泛的学术论文,以及 HBase key value 分离方面的设计思想。

https://mp.weixin.qq.com/s/GU9z7F-XWT_Mdcwj7NDTRQ


2MongoDB

本文讲述了MongoDB在海量数据的分页及其当大数据量分页时如何通过避免skip操作性能优化方案

http://www.mongoing.com/archives/25469


3Elasticsearch

分享一篇以漫画形式解读Elasticsearch的文章,对小白来说更容易理解

https://mp.weixin.qq.com/s/ySfjjd0R4H17IuqU_OmtmQ  


4Spark

本次分享来自旧金山Strata Data Conference会议,包括了对 Apache Spark 2.4 回顾以及对 Apache Spark 3.0 的展望。

https://mp.weixin.qq.com/s/uPoePesjhFvRuYi60c7dhQ


如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPUFPGA TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后,来自 DatabricksNVIDIAGoogle 以及阿里巴巴的工程师们正在为 Apache Spark 添加原生的 GPU 调度支持,该方案填补了 Spark GPU 资源的任务调度方面的空白,有机地融合了大数据处理和 AI 应用,扩展了 Spark 在深度学习、信号处理和各大数据应用的应用场景;本详细Apache Spark 3.0 内置 GPU 调度。

https://www.iteblog.com/archives/2519.html


5AI+机器学习

本次报告曾老师主要分享了携程金融风控算法从0-1的发展进程,以时间为主线,经历了数据样本由少到多,特征由粗到细,模型由简单到复杂,效果由坏到好的全过程,重点以申请评分模型和反欺诈模型进行阐述,是一次很好的风控模型实践报告。

https://mp.weixin.qq.com/s/MGHFGWsqFdQGw83AYOHEaw


本文提出了一种 Dynamic Re-read 机制,通过对重点内容的自动选择和反复阅读,从而实现对语义的精确理解。

https://mp.weixin.qq.com/s/Xnea50Eisq9rzhGFa1iTFA


6实践案例

经过半年多的时间,我们看到 TiDB 也能够支持金融场景了。从侧面来讲,分布式数据库技术,确实已经到达了一定的成熟度。

https://mp.weixin.qq.com/s/iSYVDEJkyvfGQO04cufYPg



数字冰雹的智慧城市大数据可视化决策分析系统,能够将城市运行核心系统的各项关键数据进行可视化呈现,从而对包括应急指挥、城市管理、公共安全、环境保护、智能交通、基础设施等领域进行管理决策支持,进而实现城市智慧式管理和运行。

https://mp.weixin.qq.com/s/TXw2mNbYahbOoRj_E5WReA



作为一家高度数字化和技术驱动的公司,美团非常重视数据价值的挖掘。在公司日常运行中,通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持。经过多年的发展,美团酒旅内部形成了一套完整的解决方案,核心由数据仓库+各种数据平台的方式实现。其中数据仓库整合各业务线的数据,消灭数据孤岛。

https://mp.weixin.qq.com/s/aCHnpIXmrMgmG-n7e9dq_A



7基础技术

看待一个“分布式系统”的时候,内在胜于表象。以及,只要涉及多个进程协作才能提供一个完整功能的系统,就是“分布式系统”

https://mp.weixin.qq.com/s/UlR6DLcC1bXXpOAc3Wx99A


微软重磅发布新语言Bosque,超越结构化编程

https://mp.weixin.qq.com/s/M2wv1DPVsQPIkbaJ2wgQBQ

8开心一刻

程序员爱情观:爱情就是死循环,一旦执行就陷进去了;爱上一个人,就是内存泄漏–你永远释放不了;真正爱上一个人的时候,那就是常量限定,永远不会改变;女朋友就是私有变量,只有我这个类才能调用;情人就是指针用的时候一定要注意,要不然就带来巨大的灾难。

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞


猜你喜欢

#大数据和云计算机技术社区#博客精选(2017)

NoSQL 还是 SQL ?这一篇讲清楚

阿里的OceanBase解密

#大数据和云计算技术#: "四有"社区介绍

大数据和云计算技术周报(第56期)

新数仓系列:Hbase周边生态梳理(1)

《大数据架构详解》第2次修订说明

简单梳理跨数据中心数据库

云观察系列:漫谈运营商公有云发展史

云观察系列:百度云的一波三折

云观察系列:阿里云战略观察

超融合方案分析系列(7)思科超融合方案分析

加入技术讨论群

《大数据和云计算技术》社区群人数已经6000+,欢迎大家加下面助手微信,拉大家进群,自由交流。

640?wx_fmt=jpeg


喜欢QQ群的,可以扫描下面二维码:

640?wx_fmt=jpeg

欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过200+):

640?wx_fmt=jpeg



猜你喜欢

转载自blog.csdn.net/zNZQhb07Nr/article/details/89464819