看场景、重实操,实时数仓不是“纸上谈兵”

本文转载自阿里云Hologres产品负责人合一在ITPUB的访谈,谈谈他眼中的实时数仓 这两年,企业IT领域掀起实时数仓热潮。然而,只要稍做梳理就会发现,实时数仓格局未定,各种流派群雄逐鹿,还有很多需要进一步探讨的话题方向。 比如:实时数仓是什么?如何从概念上去定义?有人认为,传统数据仓库做了实时化,就是实时数仓;有人认为,云数仓、湖仓一体是实时数仓;还有人认为,HTAP是解决实时数仓需求的一个重要手段! 再比如:实时数仓是一款产品,还是一个解决方案?99%的企业都会认为是一个解决方案,1%的
分类: 其他 发布时间: 01-10 01:29 阅读次数: 0

算法 KECP 被顶会 EMNLP 收录,极少训练数据就能实现机器阅读理解

作者:王嘉宁、汪诚愚、邱明辉、石秋慧、王洪彬、黄俊、高明 近日,阿里云机器学习平台 PAI 与华东师范大学高明教授团队合作在自然语言处理顶级会议 EMNLP2022 上发表基于 Prompt-Tuning 的小样本机器阅读理解算法 KECP(Knowledge Enhanced Contrastive Prompt-tuning)。KECP 是一种面向机器阅读理解的小样本学习算法,采用 Prompt-Tuning 作为基础学习范式,在仅需要标注极少训练数据的情况下,在给定文章中抽取满足要求的文
分类: 其他 发布时间: 01-10 01:28 阅读次数: 0

Span 抽取和元学习能碰撞出怎样的新火花,小样本实体识别来告诉你!

作者:王嘉宁、汪诚愚、谭传奇、邱明辉、黄松芳、黄俊、高明 近日,阿里云机器学习平台PAI与华东师范大学高明教授团队、达摩院机器智能技术NLP团队合作在自然语言处理顶级会议EMNLP2022上发表基于Span和元学习的小样本实体识别算法SpanProto。这是一种面向命名实体识别的小样本学习算法,采用两阶段的训练方法,检测文本中最有可能是命名实体的Span,并且准确判断其实体类型,在仅需要标注极少训练数据的情况下,提升预训练语言模型在命名实体识别任务上的精度。 论文: Jianing Wang,
分类: 其他 发布时间: 01-10 01:28 阅读次数: 0

PAI-Diffusion模型来了!阿里云机器学习团队带您徜徉中文艺术海洋

作者:汪诚愚、段忠杰、朱祥茹、黄俊 导读 近年来,随着海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提升,AI生成内容(AI Generated Content,AIGC)的应用呈现出爆发性增长趋势。其中,文图生成(Text-to-image Generation)任务是最流行的AIGC任务之一,旨在生成与给定文本对应的图像。典型的文图模型例如OpenAI开发的DALL-E和DALL-E2、Google提出的Parti和Imagen、基于扩散模型的Stable Diffusi
分类: 其他 发布时间: 01-10 01:27 阅读次数: 0

模型精度再被提升,统一跨任务小样本学习算法 UPT 给出解法!

近日,阿里云机器学习平台PAI与华东师范大学高明教授团队、达摩院机器智能技术NLP团队合作在自然语言处理顶级会议EMNLP2022上发表统一多NLP任务的预训练增强小样本学习算法UPT(Unified Prompt Tuning)。这是一种面向多种NLP任务的小样本学习算法,致力于利用多任务学习和预训练增强技术,在仅需要标注极少训练数据的情况下,提升大规模预训练语言模型在多种场景下的模型精度。 论文: Jianing Wang, Chengyu Wang, Fuli Luo, Chuanqi
分类: 其他 发布时间: 01-10 01:27 阅读次数: 0

BEVFormer-accelerate:基于EasyCV加速BEVFormer

作者:贺弘 夕陌 谦言 临在 导言 BEVFormer是一种纯视觉的自动驾驶感知算法,通过融合环视相机图像的空间和时序特征显式的生成具有强表征能力的BEV特征,并应用于下游3D检测、分割等任务,取得了SOTA的结果。我们在EasyCV开源框架(https://github.com/alibaba/EasyCV)中,对BEVFomer算法进行集成,并从训练速度、算法收敛速度角度对代码进行了一些优化。同时,我们进一步使用推理优化工具PAI-Blade对模型进行优化,相比于原始模型在A100配置下能
分类: 其他 发布时间: 01-10 01:27 阅读次数: 0

基于云原生的集群自愈系统 Flink Cluster Inspector

作者: 舟柒、楼台 1. 业务背景与挑战 1.1 实时计算集群现状 关于热点机器处理一直是阿里云 Flink 集群运维的一大痛点,不管在日常还是大促都已经是比较严重的问题,同时这也是分布式系统的老大难问题。而在今年整个阿里云成本控制的背景下,随着集群水位的逐步抬升,热点问题愈发严重。日均有上千次的热点机器出现,并且在晚上业务高峰期,整个热点持续时间会超过 60min,对于业务以及对于平台影响是比较大的。 这里的影响是体现在稳定,成本,效率三方面的,首先热点会导致作业的部分节点延时,高 SLA
分类: 其他 发布时间: 01-10 01:26 阅读次数: 0

vivo 推荐业务 x DeepRec:全链路优化实践

作者: vivo - 人工智能推荐团队:何鑫、李恒、周健、黄金宝 背景 vivo 人工智能推荐算法团队在深耕业务同时,也在积极探索适用于搜索/广告/推荐大规模性稀疏性算法训练框架。分别探索了 tensornet/XDL/tfra 等框架及组件,这些框架组件在分布式、稀疏性功能上做了扩展,能够弥补 tensorflow 在搜索/广告/推荐大规模性稀疏性场景不足,但是在通用性、易用性以及功能特点上,这些框架存在各种不足。 DeepRec 是阿里巴巴集团提供的针对搜索、推荐、广告场景模型的训练/预测
分类: 其他 发布时间: 01-10 01:26 阅读次数: 0

weidl x DeepRec:热门微博推荐框架性能提升实战

微博推荐团队:陈雨、韩楠、蔡小娟、高家华 1.项目背景 热门微博是新浪微博的重要功能之一,包含热门流、热点流、频道流、小视频后推荐、视频社区等场景。 推荐首页 发现页推荐 沉浸视频 weidl机器学习框架为热门微博在线学习提供模型训练和推理服务,推荐全链路中在线推理服务的性能一直是weidl框架优化迭代的重要目标。在线学习系统依托于weidl框架。其服务的吞吐量、平均响应时间、承接上游QPS、机器资源占用等指标相互制衡,其中weidl框架推理计算的性能至关重要,与推荐服务全链路的整体性能指标及
分类: 其他 发布时间: 01-10 01:26 阅读次数: 0

阿里灵杰:与开发者一起推动AI创新落地

对于人工智能领域而言,“AIGC”无疑是贯穿2022年的热点。12月16日,Science杂志发布了2022年度科学十大突破,AIGC赫然在列。以文生图,对话机器人等AI创新应用的落地,引发一轮又一轮的全民狂欢热潮。AI技术蓬勃发展,如何才能更好的实现AI创新落地、迈向新的增长呢?AI创新的落地,离不开对数据计算分析、模型开发部署、在线训练推理、应用开发运维等各种环节进行全周期管理。而这恰恰是阿里灵杰——阿里云大数据+AI一体化产品体系所擅长和不断夯实的。 12月22日,2022阿里灵杰AI开
分类: 其他 发布时间: 01-10 01:25 阅读次数: 0

阿里云开源大数据平台EMR全面升级 性能最高可提升6倍

12月27日,阿里云正式发布云原生开源大数据平台EMR 2.0,升级后的开源大数据平台在成本持平的情况下,扩缩容性能最高可提升6倍。 据悉,阿里云EMR2.0为用户提供了全新的平台、开发、资源形态、分析场景等更优的产品体验,通过EMR Doctor健康检查、全面的服务巡检和事件通知、节点故障补偿等运维能力的升级,预估运维成本可降低20%-30%。新平台致力于为客户快速构建高性价比、安全可靠、兼容生态的开源大数据平台。 EMR2.0与EMR1.0弹性扩容速度对比 云原生趋势下,开源大数据处于重构
分类: 其他 发布时间: 01-10 01:25 阅读次数: 0

ROMA Connect: 5大联接能力+4大集成能力,推进企业数字化转型

摘要:ROMA Connect是一个全栈式的应用与数据集成平台,源自华为数字化转型集成实践,聚焦应用和数据连接,适配多种企业常见的使用场景。 本文分享自华为云社区《数据融合集成平台ROMA Connect,推进企业数字化转型》,作者:华为云PaaS服务小智 。 前言 高新科技突飞猛进的今天,企业不断开发新的应用以提升效率,但仍有部分旧的应用会根据业务需求继续服务。Gartner报告显示,到2025年,90%的存量应用将会继续使用,而其中的大部分得不到足够的应用现代化投资;到2025年,技术债务
分类: 其他 发布时间: 01-10 01:24 阅读次数: 0

《迷你世界》亿级玩家都在用的游戏场景推荐系统长啥样?

摘要:通过使用华为云企业级KV数据库GaussDB(for Redis),《迷你世界》的推荐业务不仅成本降低了60%,而且提升了画像数据承载量,让玩家更容易、更快速找到自己喜欢的游戏场景。 本文分享自华为云社区《《迷你世界》亿级玩家都在用的游戏场景推荐系统长啥样?》,作者:GaussDB数据库。 提到推荐系统,很多人都在电商购物、资讯或娱乐平台中体验过。比如,你刚在某电商APP买了一部手机,过两天再登录时,首页推荐中必定有耳机、手机壳等手机配件。 本质上,推荐系统是互联网世界的资源调度系统,决
分类: 其他 发布时间: 01-10 01:24 阅读次数: 0

细数华为云云原生产品及五大开源实践

摘要:华为云已向CNCF贡献多个首创开源项目,包括云原生边缘计算平台项目KubeEdge,云原生批量计算项目Volcano,云原生多云容器编排项目Karmada,今年,华为云又开源了两个云原生领域的项目Kurator和Kappital,收到广大开发者的追捧。 本文分享自华为云社区《细数华为云云原生产品及五大开源实践》,作者: 华为云社区精选。 今天的内容主要包括四个方面:云原生发展阶段和趋势,会涉及一些云原生领域的历史发展进程和技术趋势。然后我会介绍5个华为云主要的云原生产品和5个华为在云原生
分类: 其他 发布时间: 01-10 01:23 阅读次数: 0

能将三次握手讲到这个程度,不给你offer给谁!

摘要:在后端相关岗位的入职面试中,三次握手的出场频率非常的高,甚至说它是必考题也不为过。 本文分享自华为云社区《能将三次握手理解到这个深度,面试官拍案叫绝~》,作者:龙哥手记。 在后端相关岗位的入职面试中,三次握手的出场频率非常的高,甚至说它是必考题也不为过。一般的答案都是说客户端如何发起 SYN 握手进入 SYN_SENT 状态,服务器响应 SYN 并回复 SYNACK,然后进入 SYN_RECV,...... , 吧啦吧啦诸如此类。 但我今天想给出一份不一样的答案。其实三次握手在内核的实现
分类: 其他 发布时间: 01-10 01:23 阅读次数: 0

CSV:简单格式下隐藏的那些坑

摘要:本文将盘点处理CSV数据时我遇到的一些坑。 本文分享自华为云社区《CSV—简单格式下隐藏的那些坑》,作者:aKi。 前言 CSV(Comma-Separated Values),是一种通用的、相对简单的文件格式。其文件以纯文本形式存储表格数据,文件可由任意数目的记录组成,记录间以换行符分隔,每条记录由字段组成,字段间的分隔符是特定字符或字符串,最常见的是以逗号作为分隔符。 例如:下面是一个含有三行内容的csv文件。 CSV格式广泛应用于程序之间转移表格数据,这些程序在格式上是不兼容的,在
分类: 其他 发布时间: 01-10 01:23 阅读次数: 0

用100W+行代码贡献经验,带你了解如何参与OpenHarmony开源

摘要:截至2022年11月,深开鸿共计参与共建OpenAtom OpenHarmony(以下简称OpenHarmony)社区16个SIG,其中4个为深开鸿主导,并累计贡献代码量超过百万行。 本文分享自华为云社区《用100W+行代码贡献经验,带你了解如何参与OpenHarmony开源》,作者:华为云社区精选。 截至2022年11月,深开鸿共计参与共建OpenAtom OpenHarmony(以下简称OpenHarmony)社区16个SIG,其中4个为深开鸿主导,并累计贡献代码量超过百万行。巴延兴
分类: 其他 发布时间: 01-10 01:22 阅读次数: 0

Python从0到1丨细说图像增强及运算

摘要:本文主要讲解常见的图像锐化和边缘检测方法,即Roberts算子和Prewitt算子。 本文分享自华为云社区《[Python从零到壹] 五十七.图像增强及运算篇之图像锐化Roberts、Prewitt算子实现边缘检测》,作者: eastmount。 一.图像锐化 由于收集图像数据的器件或传输图像的通道存在一些质量缺陷,或者受其他外界因素的影响,使得图像存在模糊和有噪声的情况,从而影响到图像识别工作的开展。一般来说,图像的能量主要集中在其低频部分,噪声所在的频段主要在高频段,同时图像边缘信息
分类: 其他 发布时间: 01-10 01:22 阅读次数: 0

Serverless时代的微服务开发指南:华为云提出七大实践新标准

摘要:本文结合华为云在Serverless Microservice方面的实践,总结提炼出七大Serverless Microservice开发 “实践标准”,为加速全域Serverless产业升级、推动企业应用开发框架从微服务向Serverless演进提供一些思考。 作者信息—— 历川:华为云 Serverless 研发专家 丙真:华为云中间件 Serverless 产品经理 冯嘉:华为云中间件首席专家 一、背景 分散治理、数据去中心化、基础设施自动化等优秀设计原则,使得微服务架构在过去几年
分类: 其他 发布时间: 01-10 01:22 阅读次数: 0

一文详解RocketMQ的存储模型

摘要:RocketMQ 优异的性能表现,必然绕不开其优秀的存储模型。 本文分享自华为云社区《终于弄明白了 RocketMQ 的存储模型》,作者:勇哥java实战分享。 RocketMQ 优异的性能表现,必然绕不开其优秀的存储模型 。 1 整体概览 首先温习下 RocketMQ 架构。 整体架构中包含四种角色 : Producer :消息发布的角色,Producer 通过 MQ 的负载均衡模块选择相应的 Broker 集群队列进行消息投递,投递的过程支持快速失败并且低延迟。 Consumer :
分类: 其他 发布时间: 01-10 01:21 阅读次数: 0