この記事ではチョーキノコストリート運転・保守管理共有です。
キノコストリートは、中国最大の女性のファッションのソーシャルビジネスプラットフォームです。杭州で2011年に設立し、本社は、現在の(2015.Q3)は11、1999 UV 2000万人以上の二重1.3億登録ユーザーを持っています。資金の2015.11。21 Dラウンドは、「一通りツインズ」戦略、杭州+北京、杭州部分的電気供給方向、北京部分ソーシャルメディアの方向の完了と実装を発表しました。
キノコストリートビジネスアーキテクチャ - ショッピングガイド期間(2011年から2012年)
初期の例運用・保守
初期の段階(2011-2012)
- 二桁のマシンでは、一桁のネットワーク機器
- いいえ、運用、保守、運用・保守のすなわち開発は、取得するには、高速なハードウェアとオープンソースのスクリプトツールに依存していません
キノコストリートビジネスアーキテクチャ - 移行(2013)
開発の運用・保守
中間段階(2013年 - 2014年)
- 3桁サーバー、二桁のネットワーク機器
- O&M 2-3のフルタイムの学生(ホスト&ネットワーク&DB&キャッシュ&......) - 応答作業の問題
- 運用・保守プラットフォームのツール
マシンのリソース管理(CMDBのプロトタイプ)
PHP配信システム
インデックス寸法監視システム(ホスト、QPS、RT、コールの数...)から
キノコストリートビジネスアーキテクチャ - 社会の電気の供給
私たちはどのようにすればいい
アイデア:
コア管理システム規格のようなアプリケーション・サービスの確立
ビルドCMDB、アプリケーション・プロセス、連続統合および自動化された操作および保守システムの一つではなく、孤立単一ポイントシステムとして監視
どこにでもサービス(API)、運用、保守機能などの操作やメンテナンス機能
アプリケーションサービス管理について
ケーススタディ
サーバ管理から見てみましょう - コードリリース - - ケースオンラインアプリケーションを監視
アプリケーションサーバ-Hestiaサービスとリソース管理で
ビジネス次元から中心的な概念ホストの管理に-CMDB
サポートの拡張、組立ライン上の従来のプロセス、機器保護、権利およびその他のアプリケーション
設定と自動化されたタスクの毛
サービス管理のアプリケーションでは、アプリケーションシステム-Mopsを処理
出版システム - アプリケーションサービス管理について
Trade_ordership_service標識するために、コードリリース
モニタリングシステムの歩哨 - アプリケーションサービス管理について
一般+カスタム監視、運用、保守+開発することができ、自分の状態やサービスの品質に常に注意を払います
現状の運用・保守
プロフェッショナル運用、保守チーム - システムの運用・保守
- アプリケーションの運用・保守 - DBA
- 運用・保守開発
• 运维的能力向平台化和服务化发展(DevOps,依赖于能力而不是人) – CMDB服务化平台
– PHP+Java持续集成发布平台
– 统一的监控平台
– 全链路服务质量分析平台 – 稳定性平台
– 容量评估平台(待做)
• 工作方式的改变
– 从问题响应式,向整体解决方案提供方向发展
双11技术保障,运维做了什么?
双11关键技术分享—全链路系统
全链路背景
复杂的分布式系统,页面上的一次链接点击,在后端 可能会产生几十次的RPC调用,Web、服务化、缓存、 消息、DB.......都有可能涉及,如果出了问题,如何快 速定位到故障点要扩容,如何合理评估
关键概念,全局唯一的TraceId
全链路技术架构
全链路应用-快速发现问题点和瓶颈点
全链路应用-调用合理性分析
没有明显的瓶颈点,每一次调用RT也很正常,但是全链整体的RT却很高, 问题又出在哪里了呢?
全链路使用后的收益和后续
使用全链路后的收益
– 提升问题的定位效率 – 准确的评估容量
后续
– Mogu-Watch,与前端打通,实现用户全链路的分析 – 压测做到平时,与容量评估平台和资源分配打通
– 引入云资源弹性扩容,避免应对峰值的批量机器采购
压测之后,关键技术改造-ATS静态化方案
静态化方案背景和简介
– 主链路(首页-详情&活动-交易-支付),降低RT,提升容量
– 资源类的如图片、CSS、JS等的静态化方案都会采用CDN技术
– 对于页面内容类的数据,如商品名称、商品详情等都属于静态数据,而 商品的库存、优惠等则需要获取动态结果
– 对于活动页面、H5活动推广页面等,则可以完全静态化
ATS(Apache Traffic Server)静态化技术方案-Cheetah
ATS静态化案例-商品详情页
ATS静态化使用后的收益和后续
• 使用静态化后的收益
– 详情页(全站流量的30%+)静态化在双11期间的命中率达到95%,换言之,减少了后端服务接近30%的流量压力
– RT从原来200ms降低到50ms,用户体验大大提升
– 容量提升,减少了后端服务器的数量
• 后续
– 借助云资源搭建云上的ATS,更贴近用户 – ATS Cluster方案
– 支持HTTPS
– 回源流控和容灾控制
限流&降级开关推送和WEB应急扩容方案
• 限流&降级开关
– 限流,Web层,防止被流量打垮
– 降级,App层(服务化),保障核心应用
• Web应急扩容方案
– 选择Docker 容器,批量生成效率高 – 启动速度快
– 资源利用率提升明显