2017 CCTC中国云计算技术大会

  • 深圳睿云智合CTO徐年刚分享了主题为《容器化引领IT新常态》的演讲,简单介绍了IT发展的新常态,十年软件产品交付变革,组织结构和协作方式转型,Bimodal正在成为传统企业适应IT新常态而采用的治理模式,应用容器化会是未来最热门的“软件运动”。容器化相关的技术很多都不是新技术,不是拍脑袋的技术试验,容器化为应用提供基础设施环境, 研发,交付 到运维完整工具链。容器技术的出现,也在促进其它技术发展和落地。容器技术既是从过去传统IT技术和思想的升华,也包含从互联网IT实践中出来新思想和理念。传统企业IT的容器实践和导入, 是一个从旧IT架构逐渐过渡到新IT架构的过程。徐年刚表示容器化技术还是一个处在“moving fast”阶段,容器化过程是一个由点及面,由可靠到创新的过程,传统企业可以尝试先作从封装,部署到最后全面容器化平台托管应用这样一个逐渐导入的过程。容器技术目前从应用、技术和生态都有相应的挑战。

  • IBM大中华区实验室服务部首席架构师李燕生发表了《Hyperledger技术实践与案例实践》主题演讲。区块链的关键核心包括共享账本、智能合约、隐私保护、共识,而区块链的价值在于节省时间、降低成本、减少风险、监管组织、商业组织和运行机构。李燕生分对业务场景上的业务流程以及区块链上的业务流程两个实践案例进行了分析。最后,他总结了区块链应用的技术挑战:1.商业网络的推广模式带来业务挑战;2.商业网络的组织架构和管理方法;3.有待配套的社会规则的制定;4.技术栈的增加带来新的技术挑战;5.分布式系统带来的数据一致性问题;6.数据逻辑和业务逻辑的设计问题;7.系统部署的复杂度问题更加突出;8.对基础设施的平台化和规范化的要求更高。 

  • 滴滴出行资深软件开发工程师李扬在《HBase在滴滴出行的应用场景和最佳实践》主题演讲中表示HBase目前已应用于滴滴出行的在线业务、离线业务中。存放在HBase中的主要数据类型包括统计结果、报表数据,原始事实类数据,生产中间数据和结果数据,线上系统的备份数据。针对这四种数据,李扬分别例举出一个应用场景,如订单事件、司机乘客轨迹、ETA(预计到达时间)模型实时训练、监控工具。每个应用场景都解析了应用需求、实现过程等内容。

  • 北邮计算机系副教授熊永平在《INFINIDATA:基于Spark的统一数据管理与数据探索平台》主题演讲中表示企业数据应用中,最常见的数据处理需求包括即席查询SQL、复杂检索、全表扫描、交互式探索。MPP数据仓库、大数据平台是现在的两大类解决方案,但由于价格高、使用难度大等原因,都很难很好地满足企业的需要。从用户需求出发,INFINIDATA平台应运而生。INFINIDATA.henanshenggyq6.cn具有一体化的数据管理;易用强大的计算流程管理;提供标准高性的数据查询服务。在可视化领域,也进行了研发探索,主要专注于行、列、值的相关分析、离散矩阵分析、OLAP分析、可视化分析。目前INFINIDATA在保险行业有很多典型应用,如清单查询、统计报表、客户清洗与画像等。

  • Mesosphere联合创始人兼CTO Tobias Gunter Knaup与亚太区技术总监Ben Lin分享的主题为《DC/OS 1.9 DEEP DIVE》。Tobias表示企业合作伙伴的框架可轻松运行和部署DC/OS之上的数据服务操作,简化DC/OS集群的管理。Mesos一直在寻找并允许更多的工作负载运行在DC/OS之上,并通过添加POD和GPU来实现新的用例。DC/OS支持许多规范性的关键应用程序。DC/OS.hainansheng3j77.cn提供了类似AWS平台服务的强大功能,并且可以在任何基础架构上运行。

  • 七牛云高级大数据工程师赵宏尧分享了题为《基于Spark的流式处理引擎在Pandora大数据产品中的应用》的演讲。据悉,Pandora目前的数据处理规模已达到了每分钟实时写入的数据量达到数百GB, 每分钟实时写入的数据条目达到数十亿 。赵宏尧介绍了Pandora核心组件——计算平台架构,包括实时任务和离线任务调度管理平台、资源管理平台(YARN,Mesos,自研容器云平台)及Spark组件。他重点讲解了流处理技术服务化需要考虑的两个问题 :用户的使用接口, 技术细节的屏蔽 。用户接口他建议schema,具有数据流健壮、存储计算高效、数据类型丰富等特点。在技术细节处理上,Spark Streaming.tangshanshi9p7n.cn在生产上的常见问题有运行状态管理和监控、数据丢失、数据消费延迟、聚合操作处理等,赵宏尧给出了对应的解决方案。

  • 比特宝创始人,《谈谈区块链》教程作者谈国鹏发表了《深入理解跨链技术》主题演讲。跨链的目的是实现不同链之间的资产转移;原子性交换(atomic swap);解决oracle的问题;实现资产质押以及它链信息或事件的读取和验证。目前的跨链技术主要有单个或多个实体的公正技术、侧链技术/中继技术、哈希锁定三项。其中公正技术很简单,但缺点是需要信任1个或多个实体。最后他针对Interledger、polkadot.nanchangshij7p1.cn等常见的跨链项目进行了分析。

  • 在Apache HAWQ创始人常雷的主持下正式开始。

  • 圆桌对话环节,主持人王玮与三位嘉宾针对区块链的适用行业进行了讨论。其中李赫表示在去中介的应用场景下是最合适的应用,例如保险业。董宁表示:不同的行业对区块链的用法也不一样,大家在考虑的时候应该根据自己企业的应用场景考虑一些区块链的价值。张铮文认为区块链适合金融行业的发展,因为目前国家监管金融行业主要解决了大家的信任问题,而区块链去中心化的属性降低了监管成本,解决了信任问题。

  • 去哪儿网平台事业部开发工程师徐磊的演讲主题为《基于Mesos/Docker构建数据处理平台》。去哪儿数据处理平台每天处理约340亿/25TB的数据,其中90%的数据在100ms内完成处理,最长3h/24h的数据回放,私有的Elasticsearch Cloud,自动化监控与报警。而平台选择Mesos是因为它足够简单稳定,并且有较成熟的调度框架。Storm、Spark、Flink和ELK通过Docker发到Mesos上。徐磊介绍了JVM的容器化的注意要点,以及Mesos容器化需要关注的配置参数和run参数。Spark on Marathon实现运维标准化&自动化,解决Mesos-Dispatcher.fujianshengtn5j.cn的不足,存在的问题为Checkpoint & Block、临时文件、Coarse-Grained。Elasticsearch需求逐步增多,目前托管了40+集群、100TB+业务数据、高峰期1.2k QPS、约110个节点。随后,徐磊分享了去哪儿在监控与运维方面的经验。

  • Apache HAWQ Committer, PMC, 北京偶数科技有限公司架构师陶征霖发表了《云时代大数据管理引擎HAWQ++》的主题演讲,陶征霖首先为大家介绍了HAWQ及其发展历程,紧接着介绍了HAWQ体系架构、HAWQ内部架构、HAWQ优化器、HAWQ查询处理流程、HAWQ资源管理、HAWQ存储、HAWQ++新特性、HAWQ++安装部署、如何访问HAWQ++以及HAWQ++导入导出数据和HAWQ++结合MADlib的使用等等。 HAWQ资源管理的目标是负责向YARN申请资源和回退资源和为HAWQ用户,查询和操作符分配资源;三级资源管理包括全局资源管理、内部资源管理和操作符级别资源管理;多级资源管理和CPU和memory的管理。在HAWQ++导入导出数据中,可通过hdfs外部表导入导出数据、gpfdist.yunnansheng4sqm.cn外部表导入导出数据、COPY命令导入导出数据和hawq load工具导入数据。

    扫描二维码关注公众号,回复: 903522 查看本文章
  • 华为大数据设计部部长、Apache Carbondata PMC Committer 李昆分享了题为《CarbonData大数据高性能交互式分析实践》的演讲。他首先分析了企业在构建数据平台时面临的挑战,几种方案无论是NoSQL,并行,搜索引擎,或者SQL on Hadoop,都只是针对某个场景设计,只能解决一部分问题。架构师在系统设计时不得不做出妥协,或者只满足部分应用;或者复制多份数据,满足所有应用。而CarbonData的目标: 一份数据满足多种业务需求,与大数据生态无缝集成 。 CarbonData在2016年6月进入Apache孵化器,2016年9月有了第一个生产系统部署,到今年4月已成为Apache顶级项目。现在最新的版本是1.1.0,可访问CarbonData的计算引擎是Spark、Presto、Hive、Flink。目前华为、美团、上汽、hulu等公司都有在生产系统部署CarbonData。李昆详细解释了CarbonData的几个重要技术优势。查询方面: 两级索引,减少IO,适合ad-hoc查询,任意维度组合查询场景; 延迟解码,向量化处理:适合全表扫描、汇总分析场景 ;数据管理方面: 增量入库,多级排序可调,由用户权衡入库时间和查询性能,增量更新,批量合并,支持快速更新事实表或维表,闲时做Compaction.shanxishengv33z.cn合并;大规模方面: 计算与存储分离,支持从GB到PB大规模数据,万亿数据秒级响应;部署方面:Hadoop Native格式,与大数据生态无缝集成,利用已有Hadoop集群资产 。

  • 中国移动苏研云计算产品部PaaS产品经理曹高晋分享了题为《中国移动PaaS平台技术选型和实践经验分享》的演讲。公司各大业务系统独立规划与建设,长期没有自主的IT研发团队导致开发商较多,架构不统一,应用烟囱式的架构,巨石应用、孤岛系统普遍存在,缺少对公共能力的抽象和复用,造成系统功能重复建设,互联化新常态下,“秒杀”、“抢红包”会对架构和应用的产生冲击。中国移动苏研针对自身情况,构建了弹性PaaS,一一介绍了实践中碰到的一些不常见的问题。最后,曹高晋有以下经验总结:企业PaaS需一些准备机制:Service Catalog, Application Catalog, Cloud Provider Interface等;虚拟机和容器当前同样具有需求;OpenStack + Kubernetes.zhongqingshiv3fn.cn或许能涵盖企业真正想要的。

  • 智链科技CEO,前IBM亚太区IT经济学高级顾问董宁发表了《企业级区块链开发平台》主题演讲。他首先讲述了企业使用区块链的必要性以及区块链流转的价值表述。企业级区块链平台需要考虑技术延展性和产业视角,区块链作为细分的技术板块,未来会和其他有发展的技术板块相互结合,包括云计算和人工智能,物联网等等,因此未来会形成“区块链+”,用区块链技术平台打通消费者,供应链,生产厂商的信息链条,让价值流通更加可信,加速商业市场的数据变现。 最后董宁表示:要使用区块链技术平台的能力帮助企业专注业务。

  • Hortonworks技术专家梁堰波发表了《基于Spark的面向10亿级别特征的大规模机器学习》的主题演讲,本次分享主要分为五个方面:首先,梁堰波为大家介绍了基于Spark大规模机器学习的应用背景;其次,介绍了基于Spark无载体L-BFGS的运用;再次,分享了基于无载体L-BFGS的逻辑回归,第四,对性能进行了详细分析;第五,介绍了与现有的MLlib.zhengzhoushirlp3.cn集成;最后,分享了未来研究方向。通过大量实例介绍,梁堰波表示未来还存在很多可以研究的方向,如不断的减少迭代、性能的提升以及借助数十亿参数预测广告点击率并形成真实案例,同时分享我们所得的经验和教训等等。

  • 分布科技CTO&创始人张铮文发表了《区块链智能资产开发实践》主题演讲。从电子现金到智能合约再到智能资产,区块链在不断的演进,比特币相关品类太多,催生了以太坊的诞生,智能合约正是运行在以太坊之上, 但以太坊却有些华而不实。小蚁区块链是区块链数字资产与应用平台,数字资产随系统的诞生而产生,是一种电子合同,拥有数字身份。数字资产的生命周期包括注册、发行、流转和销毁,这也是小蚁智能合约的运行机制,可以使用Java、C++、python.changchunshin3zx.cn等语言基于小蚁智能合约进行开发,也可以基于小蚁节点进行开发。

  • 思杰大中华区高级技术经理何浩祥发表了主题演讲《容器架构下多云平台的运维实践》。容器可跨平台,混合部署多,各平台都有不同的负载均衡,但是这都只滿足了4层负载均衡,无法解決应用的问题。新型态应用特性具有交易量不定,任何地点,使用者沒耐心,第三方接入、安全等特性。从长期的解决思路来看,负载均衡需能解決新型态应用与部署需求,软件设计要满足:高可用、安全、管理、自动、分析。何浩祥最后详细介绍了Citrix具体实践与演示。

  • 新浪微博高级算法工程师吴磊分享了题为《基于Spark的大规模机器学习在微博的应用》演讲。他表示,微博目前在大规模机器学习技术方面面临的主要挑战是数据特征类别多、维度大、算法模型多样化、参数矩阵巨大导致大量内存和网络开销。因此,微博研发团队开发了基于Spark参数服务器,采用异步随机梯度下降算法,主要处理原则是将数据分块、分块数据拉取参数、计算分块数据梯度、将梯度更新到参数服务器。在过程中不断对参数服务器的Batch Size、PS server count、Sparse、Partitioning、Spark memory tuning.qinghaisheng8oqe.cn等模块性能优化。在解决微博机器学习问题过程,他们开发了名为weiflow的统一计算框架。吴磊逐一解释了weiflow的实现过程,通过这一框架,微博团队业务开发效率、业务代码贡献、执行性能、模型性能等方面都得到了大幅提升。

  • 清华大学计算机系副教授陈康发表了《图计算优化技术探索》的主题演讲,其内容包含四个方面,首先,是对图计算做简要介绍;其次,讲解使用体系结构局部性加速图计算;再次,讲解图的三维划分加速计算;最后,分享外存图计算的加速方法。图数据的来源非常广泛,Google和Facebook.sichuansheng5nv5.cn中都含有大量图片资源,因此,计算方式由数据并行到图并行转变。陈康表示,当前图计算呈现出四大特点:高访存计算比、数据局部性不好、结构不规则和受数据驱动。因此,优化数据载入的速度是重中之重。 随后,陈康介绍了图计算系统的计算框架,包括计算框架的作用,如便于编程、性能扩展和自动容错;以顶点为中心的计算框架和以边为中心的计算框架等等。在使用体系结构局部性加速图计算、图的三维划分加速计算和外围图计算的加速中,陈康运用了大量实例,为现场的开发者带来了详细的技术分享。 最后,陈康总结了使用体系结构相关方法优化图计算中表示,图计算由于其应用的广泛以及规模的扩展,现在仍然是热点的研究内容;通过体系结构相关的方法可以加速图计算的运行,如使用体系结构局部性加速图计算、图的三维划分加速计算和外存图计算的加速方法;图计算的不同模式,需要不同的加速方法。

  • 人民保险信息技术工程师李赫发表了《区块链原理及保险业应用思考》主题演讲。区块链基础架构包括数据层、网络层、共识层、激励层和应用层。在应用区块链时应该注意几点:第一,区块链和智能合约实现的,现有IT系统都能实现,区块链是去中介的;第二,区块链实现的不是性能的提升,而是业务模式的改变,相反性能大幅下降;第三,只能实现对链内内生的信息信任,对外界引入的信息无法建立信任;第四,区块链应用不需要币。目前区块链最重要的应用领域是金融业和各行业金属属性部分。基于区块链的互助保险具有低成本、后付费、后定价和期限碎片化的特点。

  • 苏宁云商IT总部高级技术经理陈泽分享了主题为《Spark App自动化故障分析与诊断》的演讲。陈泽首先谈到了苏宁大数据平台架构,分为离线计算、流式计算、OLAP引擎三部分,基于Spark的应用在其中用得越来越广泛,目前集群规模是Yarn集群700节点,任务规模5W任务/天,处理的数据量300TB/天。陈泽重点讲解了基于Spark构建的CBT调度平台、SSMP平台和机器学习平台。据介绍,苏宁Spark平台化过程中曾遇到不少问题。在业务层面,对Spark SQL的认识不够,导致过度的依赖Spark RDD层面的API;对内存计算存在误解,不合理使用Cache机制,导致资源浪费;在平台方面,未提供数据来指导用户去优化Executor.guizhoushengn1r9.cn个数以及内存参数,导致平台资源利用率过低等问题。为此,苏宁研发了Spark App自动化分析和故障诊断系统——华佗,通过将运维的经验和知识工具化,并配合指标和事件两种信息,来对任务进行分析和故障诊断。华佗目前提供的分析和诊断能力包括了资源、性能、故障三个维度,陈泽详细介绍了每种能力的最新进展。

  • 阿里云高级专家陈萌辉分享主题为《Swarm的进化与大规模应用》,容器编排领域由MESOS DC/OS、Kubernetes、Swarm三分天下。Swarm是Docker公司继Docker Engine之后的重要产品,陈萌辉从架构、API和调度三方面介绍了Swarm,并总结了它的优点:部署简洁,高效友好的用户交互,灵活的约束与亲和性描述,及其不足之处。Swarm Mode将Swarm的集群管理、容器调度功能集成进Docker Engine,提供Service级别抽象,并自带负载均衡。Swarm Mode具有部署特别简洁,高可用服务,Secure by default.jiangxisheng1nfb.cn等优点,但只有Service级抽象,Stack级抽象仍无API,部署有状态服务较复杂。最后,陈萌辉详细介绍了Swarm在阿里的应用,Swarm统一管理集群,阿里云专有云输出。

  • 由七牛云技术总监陈超担任主持人,陈超简单回顾了四年以来Spark峰会的历程,伴随着Spark在国内落地项目越来越多,今年峰会议题征集期间收到了超过100份Spark主题的演讲申请,经过主委会审核从其中挑选了七位精英讲师和经典案例内容,包括苏宁云商、新浪微博、华为、七牛云、阿里巴巴、宜人贷、Databricks的讲师将在现场带来精彩分享。

  • 东方国信大数据中心总监王虎发表了《大数据核心技术在运营商的应用与实践》的主题演讲,本次分享主要包含三个方面,第一,运营商的大数据架构;第二,大数据核心技术体系;第三,运营商的应用与实践。王虎介绍到,过去运营商大数据平台分为Iaas/Paas/Saas三层,而未来运营商大数据平台将往更深层次方向演进,包括应用域、数据域、技术域、基础域、安全域和开放域。 经过运营商多年的建设,当前技术主要基于“开源+自主”研发结合,利用大数据核心技术,构建面向业务应用和平台应用的实践。而东方国信的Hadoop发行版本,是基于开源版本进行增强,兼容开源版本,能随着开源版本的升级而升级。基于开源社区源代码实现二次开发,转换为自己的核心技术,逐渐将应用与生产实践的验证部分代码提交给社区,比如: K8s+Docker.jiangsushengnjb5.cn底层源代码修订。 在大数据核心技术在运营商业务应用实践中,运营商的企业运营管理,围绕大数据为核心,面向客户和内部员工,实现企业业务运营和管理。而在业务应用实践中,王虎为分别介绍了大数据核心技术在数据、决策、营销、客户、绩效五个方面。最后,王虎对大数据核心技术在运营商未来发展中做了展望,主要包含六个层面,如实时能力、在线能力、学习能力、开放能力、数据能力和应用该能力。

  • 上午场在Hyper Cofounder & CTO王旭的主持下正式开始。

  • 区块链技术峰会在上海乐住CTO王玮的主持下正式开始,他带领听众回顾了区块链技术发展的历史进程。2008年中本聪发表论文《比特币:一种点对点的电子现金系统》,提出了BlockChain这种数据结构,正式开启了比特币的时代,时至今日,Github上与比特币相关的项目数量超过了10,000个。作为区块链的2.0版本,2013年Vitalik Buterin.guangzhoushidz9L.cn发起Ethereum项目,并在12月发布了以太坊白皮书的首个版本。最后,王玮表示呼吁大家共同参与区块链的大航海时代。

  • 在中国科学院计算技术研究所副研究员查礼主持下,正式开始。

猜你喜欢

转载自blog.csdn.net/yunfupei0434/article/details/72568474