揭秘内存暴涨:解决大模型分布式训练OOM纪实

武汉源创会回归,4月20聊聊大模型” 在现代深度学习开发中,我们通常依赖其他模块,像搭积木一样构建复杂的软件系统,这个过程往往快速且有效。然而,如何在遇到问题时迅速定位和解决问题,由于系统的复杂性和耦合性,一直困扰着深度学习系统设计和维护者。 作为爱奇艺后端技术团队的一员,我们详细记录了一次解决深度学习训练内存相关问题的过程,希望为正努力解决棘手问题的同行提供一些启示。 01 背景 过去的一个季度中,我们一直在A100集群观察到随机的cpu内存oom现象。随着大模型训练的引入,oom更加的令人
分类: 其他 发布时间: 04-15 23:04 阅读次数: 0

爱奇艺数据湖实战 - 基于数据湖的日志平台架构演进

武汉源创会回归,4月20聊聊大模型” 01 背景 为了满足公司内日志实时查询分析的需求,爱奇艺大数据团队自研了Venus日志服务平台,负责爱奇艺各服务日志的采集、存储、处理、分析等场景。早期采用基于ElasticSearch的存储分析架构,随着数据规模的不断扩大,出现了成本高、管理困难、稳定性差等问题。 数据湖技术近几年快速发展,其采用了统一大数据存储底座和存算分离的架构,提供了一种适合于日志这种大量写入、少量查询场景的解决方案。因此,Venus进行了基于数据湖的架构改造,并推动日志入湖。入湖
分类: 其他 发布时间: 04-15 22:54 阅读次数: 0

Apache Spark 在爱奇艺的应用实践

武汉源创会回归,4月20聊聊大模型” 01 Apache Spark 在爱奇艺的现状 Apache Spark 是爱奇艺大数据平台主要使用的离线计算框架,并支持部分流计算任务,用于数据处理、数据同步、数据查询分析等场景: 数据处理:在数据开发平台中支持开发者提交 Spark Jar 包任务或Spark SQL 任务对数据进行ETL处理。 数据同步 :爱奇艺自研的BabelX数据同步工具基于Spark 计算框架开发,支持 Hive、MySQL、MongoDB 等 15 种数据源之间的数据交换,支
分类: 其他 发布时间: 04-15 22:44 阅读次数: 0

数据湖在爱奇艺数据中台的应用

武汉源创会回归,4月20聊聊大模型” 01 我们眼中的数据湖 作为爱奇艺的数据中台团队,我们的核心任务是管理和服务公司内的大量数据资产。在实施数据治理的过程中,我们不断吸收新的理念,引入尖端的工具,以精细化我们的数据体系管理。 “数据湖”作为近年来数据领域广泛热议的概念,其技术层面也受到了业界的广泛关注。我们的团队对相关数据湖的理论和实践进行了深入研究,我们认为,数据湖不仅是一种治理数据的全新视角,更是一种集成和处理数据的极具前景的技术。 02 数据湖是一种数据治理的思想 实施数据湖的主旨,在
分类: 其他 发布时间: 04-15 22:34 阅读次数: 0

爱奇艺效果广告双出价优化历程

武汉源创会回归,4月20聊聊大模型” 01 项目背景 效果广告的投放是一个博弈的场景:媒体平台希望流量卖出最高的价格,客户希望广告的投放成本和后端效果达标。随着效果广告行业的发展,客户不再满足于仅考核唤醒、激活等浅层转化的效果,越来越多的广告主向媒体平台表达优化后端效果的诉求。后端效果包括次留率、付费率、首日付费ROI等多种深层转化类型。 这篇文章,我们将回顾讲述,效果广告在出价模式上的优化历程。 广告媒体平台一般采用双出价模式来同时保障广告主的浅层转化成本和后端效果。广告主的投放诉求有浅层转
分类: 其他 发布时间: 04-15 22:24 阅读次数: 0

爱奇艺大数据离在线混部

武汉源创会回归,4月20聊聊大模型” 混部作为一种提高资源利用率、降低成本的的方案,被业界普遍认可。爱奇艺在云原生化与降本增效的过程中,成功将大数据离线计算、音视频内容处理等工作负载与在线业务进行了混部,并且取得了阶段性收益。本文重点以大数据为例,介绍从 0 到 1 落地混部体系的实践过程。 01 背景 爱奇艺大数据支持了公司内运营决策、用户增长、广告分发、视频推荐、搜索、会员等重要场景,为业务提供数据驱动引擎。随着业务需求的增长,计算需要的资源量与日俱增,成本管控和资源供给面临着较大的压力。
分类: 其他 发布时间: 04-15 22:14 阅读次数: 0

爱奇艺H5专题页打造原生体验优化实践

武汉源创会回归,4月20聊聊大模型” 01 项目背景 H5专题及活动页面一直是公司大剧热综宣传、App拉新促活的重要承载方式,其在各个业务领域中扮演着至关重要的角色。与此同时,也存在着一些弊端而广受诟病。比如页面打开速度慢,白屏现象、端内H5顶部标题栏与页面内容割裂等。我们针对这些问题与webview团队深入合作,沟通尝试各种解决方案,着重优化用户体验和页面性能,目前已经取得一定进展,现将一些实践经验分享给大家,以供参考。 02 性能优化 乐趣H5专题页的加载和渲染过程大抵如下: 我们对每个环
分类: 其他 发布时间: 04-15 22:04 阅读次数: 0

TV端Web页面性能优化实践

武汉源创会回归,4月20聊聊大模型” 01 背景 随着互联网技术的持续创新和电视行业的高速发展,通过电视观看在线视频已经逐渐成为大众的重要娱乐方式。奇异果App作为在TV设备上用户活跃度最高的应用之一,为广大用户提供了丰富的内容播放服务,除此之外,同样有会员运营、专题活动等上线效率要求极高的服务提供给用户。为满足后者的诉求,我们调研了目前主流的动态化和跨端技术:H5、Flutter 和 React Native,最终从开发效率、人力成本、动态能力和性能上选择用H5方案,目前,H5页面承担了奇异
分类: 其他 发布时间: 04-15 21:54 阅读次数: 0

微服务不死 — 共享变量在策略引擎项目的落地详解

武汉源创会回归,4月20聊聊大模型” 01 背景 1、共享变量的提出 前段时间,来自亚马逊 Prime Video 团队的一个案例研究在开发者社区中掀起了轩然大波。大体是这样一件事,作为一个流媒体平台,Prime Video每天都会向客户提供成千上万的直播流。为了确保客户无缝接收内容,Prime Video需要构建一个监控工具来识别客户所查看的每个流中的质量问题,这提出了极高的可扩展性要求。 对此,Prime Video团队优先考虑了微服务架构。由于微服务能够将单体应用分解为多个模块,这不仅能
分类: 其他 发布时间: 04-15 21:44 阅读次数: 0

工信部发布2023移动互联网应用服务能力优秀案例 爱奇艺两项目入选

武汉源创会回归,4月20聊聊大模型” 2024年1月,工业和信息化部通信管理局公布2023年移动互联网应用服务能力提升优秀案例名单。“爱奇艺主动式合规风险处置平台——覆盖APP全业务流程的风险监测与处置”“爱奇艺全生命周期隐私保护方案”,分别入选“完善制度规程,加强全流程合规管理”和“研发部署技术手段,增强风险防范能力”领域优秀案例。同期获选优秀案例的公司包括华为、中国移动等。 据悉,工信部本次评选旨在推荐企业先进经验和做法,推动提升移动互联网应用全流程服务感知及全链条管理能力,营造争先创优、
分类: 其他 发布时间: 04-15 21:34 阅读次数: 0

奇异果投屏的进化之路

武汉源创会回归,4月20聊聊大模型” 笔者按:奇异果投屏伴随奇异果TV一路发展至2022年,日活用户已达300多万,用户和我们都对投屏的功能和性能提出了更多的诉求和更高要求,因此2022开始系统地对投屏功能和性能做了扩展和优化。本文立足于TV端,为大家介绍爱奇艺站内投屏优化过程中面临的困难和解决方案,虚心以待您的指正和建议。 01 优化历程回顾 自2022年初接手投屏功能,先后开展了功能扩展、报障处理提效等工作,至2022年底仍深感投屏功能迭代和问题处理效率不高。投屏功能作为连接手机和电视的桥
分类: 其他 发布时间: 04-15 21:24 阅读次数: 0

爱奇艺图片格式演进

武汉源创会回归,4月20聊聊大模型” 01 背景 图片是爱奇艺APP页面的主要视觉元素,对整体用户体验有着至关重要的影响。同时,由大量启动带来的图片CDN峰值带宽成本也有待降低。因此,在努力提升用户体验的同时,优化图片CDN峰值带宽成本已成为一项关键任务。而决定图片显示质量和文件体积的编解码格式,就是优化的关键所在。 1、图片格式简介 爱奇艺APP中使用了各种各样的图片格式,具体对比如下: 格式 是否支持透明 是否支持动图 爱奇艺APP使用场景 JPG 否 否 视频封面图、一般素材图 PNG
分类: 其他 发布时间: 04-15 21:14 阅读次数: 0

稀疏大模型在爱奇艺广告排序场景中的实践

武汉源创会回归,4月20聊聊大模型” 01 背景与现状 1、广告领域数据特点 广告领域数据可以分成:连续值特征和离散值特征。不同于 AI 图像、视频、语音等领域,广告领域内的原始数据大多以 ID 形式呈现,比如用户 ID、广告 ID、与用户交互的广告 ID 序列等,而且 ID 规模较大,形成了广告领域数据高维稀疏的鲜明特点。 连续值特征 既 有静态的(比如用户的年龄),也有基于用户行为的动态特征(比如用户点击某行业广告的次数)。 优点是具备良好的泛化能力。 一个用户对行业的偏好可以泛化到对这个
分类: 其他 发布时间: 04-15 21:04 阅读次数: 0

爱奇艺数据湖实战 - Hive数仓平滑入湖

武汉源创会回归,4月20聊聊大模型” 爱奇艺基于 Hive 构建了传统的离线数据仓库,支持了公司运营决策、用户增长、视频推荐、会员、广告等业务需求。近几年,随着业务对数据实时性的更高要求。我们引入了基于 Iceberg 的数据湖技术,大幅提升数据查询性能及整体流通效率。从性能和成本角度考虑,将现有的Hive表迁移到数据湖是必要的。然而多年来,大数据平台上已经积累了数百 PB 的 Hive 数据,如何将 Hive 迁移到数据湖,成为我们面临的一大挑战。本文介绍了爱奇艺从 Hive 平滑迁移到 I
分类: 其他 发布时间: 04-15 20:54 阅读次数: 0

爱奇艺 CTR 场景下的 GPU 推理性能优化

武汉源创会回归,4月20聊聊大模型” 01 背景介绍 GPU 目前大量应用在了爱奇艺深度学习平台上。GPU 拥有成百上千个处理核心,能够并行的执行大量指令,非常适合用来做深度学习相关的计算。在 CV(计算机视觉),NLP(自然语言处理)的模型上,已经广泛的使用了 GPU,相比 CPU 通常能够更快、更经济的完成模型的训练和推理。 CTR (Click Trough Rate) 模型广泛使用在推荐、广告、搜索等场景中,用来估算用户点击某个广告、视频的概率。在 CTR 模型的训练场景中已经大量使用
分类: 其他 发布时间: 04-15 20:44 阅读次数: 0

从编译器、游戏引擎到游戏掌机——我是这样做独立游戏的

武汉源创会回归,4月20聊聊大模型” 引言   自己开发制作游戏是一个儿时起就有的梦,特别是长时间接触魔兽争霸3世界编辑器后,我对游戏引擎和开发工具也有着特别的兴趣。学生时代接触编程以后,梦的外延开始扩散,不满足于使用各式编程语言做开发,开始维护一门自己喜欢的写游戏业务逻辑的编程语言项目 Yuescript,因为学习图形学和作为练手项目重写 Cocos2d-x 有了 Dora SSR 游戏引擎。工作后因为对游戏掌机的喜爱,开始与伙伴合作研发自由开放的可编程游戏掌机设备——吉祥机,实现自己游戏梦
分类: 其他 发布时间: 04-15 20:34 阅读次数: 0

AI 版权第一案:我用 AI 做的图,版权归我吗?

武汉源创会回归,4月20聊聊大模型” 最近,一个跟 AI 相关的案子引起了全国同行的围观,原因是一个百家号作者在网上写文章时,用了一张网上的 AI 图片当配图,结果被图片的生产者告侵权。这不禁让人紧张:以后 AI 产的图片,还能随便用吗?会不会侵权? 事情是这样的—— 2023年2月,李昀锴使用 Stable Diffusion 模型,通过在模型上输入数十个提示词,设置相关迭代步数、图片高度、提示词引导系数以及随机数种子等,生成了数张人像图片。随后,李昀锴以 “春风送来了温柔” 为名发布在社交
分类: 其他 发布时间: 04-15 20:24 阅读次数: 0

【直播预告】程序员逆袭CEO分几步?

武汉源创会回归,4月20聊聊大模型” 2024年,是充满未知和挑战的一年。AI 的发展日新月异,已经有人用它来写代码了,啥时候会替代程序员,可真不好说。另一方面,程序员扎堆的 IT 互联网行业却进入了平台期甚至下行期,降本增效成为行业主流,裁员缩招的声音不绝于耳。在这种前有狼后有虎的年头,作为程序员,又该何去何从? 程序员的职业生涯,真的只能走到35岁吗?我们该如何做,才能夯实自身,提高替代难度?又该如何学习,才能不断进步,勇立潮头?对于有创业梦想的人,又该如何规划,才能穿越牛熊,逆流而上?
分类: 其他 发布时间: 04-15 20:14 阅读次数: 0

国产数据库圈,为啥那么多水货?

武汉源创会回归,4月20聊聊大模型” 如今,在“国产化”的趋势下,国产数据库领域的创业浪潮一浪高过一浪。截至2023年底,中国市场上有将近300款数据库产品,约有100家数据库厂商。知名投资机构如红杉、高瓴、腾讯等纷纷下场,每家手上投资的数据库至少在3个以上,可见资本的青睐。 一些数据库凭借自身的实力,拿下了亿元融资,中标多个项目,节节高升,成功上市;可是也有一些数据库,还在经受市场的质疑。在16家国产数据库相关上市公司中,盈利的寥寥无几,不禁让人怀疑这种“亏钱赚吆喝”的模式能走到几时? 那么
分类: 其他 发布时间: 04-15 20:04 阅读次数: 0

国产数据库,是研发们的“离职创业咖啡店”吗?

武汉源创会回归,4月20聊聊大模型” 上周,《国产数据库圈,为啥那么多水货?》的讨论热度甚高,今天我们总结了一下直播嘉宾李令辉的看法,认同的不妨点个赞吧~ 分享嘉宾: 李令辉 云原生数据库 ClapDB 创始人,前乘法云 CTO,美洽 CTO,滴滴出行首席架构师。 目前致力于基于云上的基础设施新范式,提供新时代的分析型数据服务。 ClapDB 是一款重头开始基于云原生架构设计和实现的数据库,充分利用现代云原生技术优势。采用 C++ 开发,期望给予更高的性能,让您可以在任意规模的数据下轻松快速得
分类: 其他 发布时间: 04-15 19:54 阅读次数: 0