极客时间每日一课(十七)

19-05-18(05-27补)

爱奇艺深度学习云平台的实践及优化_周海维

爱奇艺AI应用场景

深度学习平台架构图

RUNONCE优缺点

Jarvis流程图

网络存储选择,训练任务容器,调试和状态查询,资源分配和管理

19-05-19(05-28补)

百度信息流产品动态降级以及故障自愈实践_郑焱

百度APP信息流——基于搜索和用户画像的个性化推荐产品

单机房容灾能力建设常见问题

信息流产品机房容灾能力具体实践

故障止损决策——理想模型抽象

信息流产品降级策略设计——从产品功能角度评估每一个请求的重要性

流量切换风险控制——风险最小策略以及分步流量调度

19-05-20(05-28补)

阿里搜索中台在DevOps&AIOps的思考及实践_柳明

DevOps基础调度框架,运维管控平台

AIOps在搜索的实践

AIOps——大促突发流量变化:弹性扩缩容;资源碎片:容器最优布局;数据量和流量自然变化:日常化容量评估;服务热点分布不均匀:数据智能搬迁;平台化建设

19-05-21(05-28补)

自动化运维加速无人车产品化_张一迪

研发流程中的痛点

运维目标:加速无人车产品化

无人驾驶后台的基础设施

加速交付,高速自动化的CI/CD流程

服务稳定性策略

监控与自愈

兼容未来需求的架构
s
19-05-22(05-28补)

基于kubernetes的网易云容器服务的持续升级实践_娄超

网易云容器发展演进

开源系统线上升级关键问题

定制k8s集群持续升级的挑战,kubernetes社区升级建议

容器“非主流”现象

是否存在热升级方案?

集群灰度升级流程

k8s升级踩坑经历,经验教训

19-05-23(06-01补)

苏宁大企业级立体式监控的构建_汤泳

监控体系化建设

基础设施监控

海量日志分析平台,调用链监控,实时告警引擎,用户体验监控

19-05-24(06-01补)

随手记统一监控平台:架构与实践_张越

统一监控平台的诞生背景

故障排查效果

故障排查模型设计

Focus整体设计,关联分析:全链路日志关联;存储设计

猜你喜欢

转载自www.cnblogs.com/LittleBugProducer/p/10960403.html