技術と産業の著者自身の理解に基づいて、ビジネスの着陸で前提条件AIOps分析を探索します。
自動化された運用・保守、AIOps、技術的なオペレーションのPaaS、シロナガスクジラ:キーワードを含みます。
著者:張分
AIOpsコンセプト
それはAIOps、人工知能や運用・保守と組み合わされAIOpsの概念を提唱し、2020年には、AIOpsの普及率が50%に達するだろうと予測2016年ガートナー。
簡単に言えば、AIOpsは、さらなる方法、操作および既存のデータ(ログ、監視情報、アプリケーション情報など)の整備にと機械学習によりベースの問題を解決することはできません運用・保守を自動化することです。
いくつかの「アルゴリズム・ロジック」ソフトウェアは、実際のAIOpsを表すことがキーポイントは本当にされているかどうかを判断しないことAIOps:データを自動的に学習し、現在の環境政策の提言を与えるために法律を使用してから法律をまとめることができるかどうか。
ガートナーは、概念図を定義AIOps
AIOpsの概念:
インテリジェントな運用・保守は、コアとして、ビッグデータプラットフォームと機械学習(アルゴリズムプラットフォーム)です。
インテリジェントな運用・保守の必要性と監視、ヘルプデスク、自動連携システム、インテリジェントな運用・保守は、ユーザー指向サービスを提供するために、様々な監視システムからデータを抽出する必要があり、かつインテリジェントな自動化システムの運用・保守の意思決定モデルの実装を生成しました。
AIOpsアプリケーション:
インテリジェントな監視とインテリジェントな障害解析や処理、インテリジェントな地図やその他のIT知識の運用・保守を支援するためのデータの計算と分析を通して。
AIOps値:
従来の搬送動作と洪水のデータ次元顔のメンテナンス、すぐに停止すると、意思決定、人間の専門家の分析と判断がしばしば時間以上を要します。
AIOpsは、機械学習を経て掘削作業及び保守データを実行するために、人々の代わりに、人々がより効果的かつ迅速な意思決定を支援することです。
真の意味で、最終的に、そして、企業内の地面のインテリジェントな運用・保守は、SLAサービスシステムを改善し、ユーザーエクスペリエンスを向上させ、トラブルシューティングの時間を短縮するなど、ビジネスに価値をもたらすことができ、無人運用・保守。
AIOpsアプリケーション
現在、主要な伝統的な顧客は、探求し、主な内容は以下の通りである。周りAIOpsを構築します:
私たちは、問題が見つかりました:機械学習に基づく異常検出を。
例如,目前监控数据的异常阈值往往是静态的,无法有效规避变更时间、特殊节假日、业务正常的高低峰等,简单阈值、同环比算法的覆盖面有限,很容易漏警和误警。
基于历史数据或进行样本标记的KPI异常检测,能第一时间发现问题,检测模型能覆盖大多数曲线类型,能较好适应业务生命周期中的变化。
根因分析:基于机器学习的故障树挖掘,定位故障发生的根源以及其原因;
例如,首先实现故障精准定位,在多指标情况下的业务异常(多指标检测的异常),出现异常的原因具体是哪个指标导致的;然后根据故障树挖掘和知识图谱,实现故障的精准根因分析与定位。
预测未来:基于机器学习模型的指标预测;
例如,基于多种回归和统计方法,实现对不同级别粒度的业务数据的预测,包括业务指标预测、容量预测等,如双11业务对组件容量和资源容量的容量预测等。
IT辅助决策支持:深入运营场景,实现业务运营的IT辅助决策应用;
如营收预测、舆情分析与预测等场景。
算法层面则可以跟学术界进行合作或在社区中获取,在早期训练数据集和反馈数据量比较少的情况下,采用无监督学习,具体实现是用模式识别(pattern recognition)的技术来判断指标是否关联。关联性是通过时间序列曲线相似度(similarity distance)来衡量的。
机器学习算法库提供计算时间序列曲线相似度的各种算法,比如:欧几里德距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、明科斯基距离(Minkowski Distance)等。
在有足够数据集以后,算法演化成有:监督学习、随机森林(Random Forrest)、GBDT(Gradient Boosted Decision Tree) 、神经网络(Neutal Network)等。
AIOps对基础设施的要求
AIOps从技术层面来讲,需要数据、算法模型两个最为核心的要素,数据的支撑需要一套整体的运维大数据体系,而算法模型的支撑则需要一套整体的挖掘框架体系,以及执行决策的自动化系统。
运维大数据:
需要有集成多类数据源、一站式低门槛的数据开发、统一的多样化数据存储和查询等功能。
数据挖掘:
全流程、可视化数据建模,支持多种机器学习框架、交互式建模IDE、可视化样本标记等功能。
自动化系统:
需要集成企业CMDB、作业执行、编排引擎、自定义场景等功能。
更为核心的是这些功能模块之间应该有效交互,不能仅仅是独立的各个模块,需要有一套平台架构来去支撑各个个性化的场景,尤其是打破数据烟囱、功能烟囱,这样才能实现有效的智能运维生命周期落地:
数据采集→数据建模→机器学习挖掘→自动化执行→反馈
而腾讯蓝鲸,腾讯IEG自用的一套用于构建企业研发运营一体化体系的PaaS开发框架,则通过解耦原子能力与场景,能完全支撑AIOps的生命周期落地。
蓝鲸PaaS支撑AIOps落地
PaaS能力模块层:
1、管控模块负责通过Agent、通用协议和API接口等方式将公有云、私有云或者混合云中的服务器、存储、网络、虚拟化平台、数据库、中间件、基础应用、业务应用、云管平台、容器等企业所有需要统一运维的IT资源进行纳管;有统一的管道进行接入数据、有统一的管道执行命令。
2、平台层中的每个原子平台都是一个或者多个相关功能的集中实现:
配置模块(CMDB):
企业所有IT对象配置信息的集中存储和消费中心。
作业模块:
针对IT对象进行脚本执行和文件分发层面的自动化编排的作业中心。
编排模块:
跨系统编排及调度引擎,实现覆盖全生命周期场景的运维工作。
数据接入、开发与存储:
运维大数据平台,针对运维和运营数据进行大数据接入、清洗、存储、实时和离线计算、展示以及数据消费的中心,是实现数据运维和辅助运营的关键。
AI挖掘:
通全流程、可视化数据建模,支持多种机器学习框架、交互式建模IDE、可视化样本标记,并支持自己写入算法。
PaaS架构层
iPaaS层:
API GateWay(统一接入模块),将配置管理(CMDB)平台、作业平台、数据平台、挖掘平台等原子平台统一接入、集成、驱动和调度,供上层运维场景SaaS驱动和调用。
aPaaS开发者中心:
开发者中心提供完整的前后端开发框架,当企业在未来出现新的运维需求的时候,企业可以快速利用开发者中心完成相应的运维系统开发,并一键部署。
运维场景应用层
平台所有的运维场景的实现运行在这个层次,包含配置管理与消费、IT监控与故障自愈、运维自动化、运维流程管理、数据分析和智能运维场景。
腾讯蓝鲸原子平台数据平台架构
腾讯蓝鲸原子平台挖掘模块示例
AIOps落地前提条件探索
从整体上来讲,AIOps的引入和使用需要具备一定的条件,但并不需要企业把所有东西准备好才能动工。
例如很多企业觉得应该准备好数据完整性和人才才能开始应用AIOps,但是,数据的完整性取决于探索之后才知道怎样的数据才是完整的;AIOps人才更为关键的在于了解智能运维场景;算法也只有根据实际情况不断调优才能有更好的应用效果。
只要有痛点,和通过智能运维带来价值,AIOps就可以先引入,并逐步带动企业智能化运维的发展。
总结来讲,AIOps落地的前提条件应该分为三个方面:
但是三个条件都不是指必须完全准备好才能开始实践:
基础设施平台:
可以从自动化能力,以及数据一体化能力进行起步建设,而不是一开始就建设一套于运维人员简单易用的模型设计框架;
算法:
学界、コミュニティとテンセントこれらのアルゴリズムは、アルゴリズムの導入後に協力する着陸当事者の実務経験を持って提供するために使用することができ、操作やアルゴリズムの共通領域のメンテナンスの多くはすでにありますが、より正確な比率を持つために最適化された一定のデバッグを必要と企業を人自作のアルゴリズムことができますが、アルゴリズム自体は、科学の分野に属する、ビジネスの観点から、総合的な費用対効果から考えることができます。
組織内の人々:
人事組織を準備し、より多くの注目は、技術分野全体の包括的な運用・保守担当者である必要があり、彼らは実際にはない知性と知性に、問題を解決することができ、より良い運用・保守のシナリオ、およびインテリジェントな運用・保守を知っています。
以上、いくつかの参照や研究情報の著者であるだけでなく、ビジネスの経験と組み合わせて、いくつかの個人的な感情や理解がメッセージを議論するために歓迎されています。