2023年MathorCup 高校数学建模挑战赛-D 题 航空安全风险分析和飞行技术评估问题-思路详解及代码分享

一、题目简析

背景信息较长,关于航空安全数据的真实背景。其中给出了不少提示需要注意。本质是数据分析题目,难度较低,适合小白。

关键知识:G 值是飞机飞行过程中过载情况的直接反应,在着陆安全分析中,G 值通常是描述落 地瞬间安全性的重要指标。着陆瞬间 G 值指的是飞机接地瞬间前 2 秒和后5 秒数据的最大 G 值。

二、逐问解题思路分析

问题1:有些 QAR 数据存在错误,需要对数据进行预处理,去伪存真,以减少错误数据对研究分析带来的影响。请你们的队伍对附件1的数据质量开展可靠性研究,提取与飞行安全相关的部分关键数据项,并对其重要程度进行分析。

(1)错误数据的识别与删除:对每列特征数据利用箱线图筛选出异常数据噪声点(分析离群原因)并剔除。

(2)数据质量可靠性研究:缺失情况、分布情况分析

(3)飞行安全相关数据提取:首先可以根据给出的特征说明附录直接人工选取一些明显相关的数据(比如计算空速),然后对于不确定的特征数据,通过方差过滤、卡方检验、皮尔逊相关系数等方法逐个分析与飞行安全的相关性。

(4)特征重要程度分析:可以建立一个打分模型,采用topsis熵权法对以上计算的各个相关计算量进行合并评价打分。或者直接用随机森林计算重要程度并排名,然后分析得到排名的实际意义。

问题 2:飞机在从起飞到着陆的整个飞行过程中,通过一系列的飞行 操纵确保飞行安全,这些操纵主要包括横滚操纵、俯仰操纵等。目前,国3内航空公司通过超限监控飞行操纵动作,这种监控方法虽然能够快速分辨出飞机的状态偏差,但是只能告诉安全管理人员发生了什么,而不能立刻得出发生这种偏差的原因。为此,可以通过操纵杆的过程变化情况来分析产生这种偏差的原因。根据附件 1,请你们对飞行操纵进行合理量化描述。 下图为 3 次着陆过程中的杆位变化曲线,其中红色曲线描述了一次重着陆 (着陆 G 值超过给定限制值)过程,该重着陆主要是由于飞行机组在低空 有一次不当松杆操纵所致,红色曲线中的接地前 5 秒有一个明显下凸,这就是需要进行量化描述的一次松杆操纵。

异常

本题重点是异常数据的识别与诊断,通过题目描述的例子,我们不难发现,发生异常的点时偏离正常样本较离谱的点(下凸)。于是我们需要通过操纵杆的过程变化数据找出偏离异常的点并定量描述异常怎样(什么时间出现了怎样的偏离)。

(1)异常点寻找:统计学筛选(3σ)、异常检测算法(如KNN/LOF)

(2)定量描述:异常点定位+偏移程度计算(与正常样本均值比较)

问题 3:导致不同超限发生的原因各不相同,有时是特定机场容易出现特定的超限,有时是特定的天气容易出现特定的超限,有时是特定的飞行员容易出现特定的超限。请研究附件 2 的数据,对超限的不同情况进行分析,研究不同超限的基本特征,如分析飞机在哪些航线或者在哪些机场容易出现何种超限等。

针对不同超限的类型(超限名称&等级)进行分类讨论。

统计各类超限发生机场、航线、天气、飞行员等的频次。

根据统计结果建立起对超限明显影响的特征树,然后通过机器学习分类算法对于特征进行聚类分析,绘制特征对应的分类二叉树,得到结论并简要分析。

问题 4:飞机运行数据的研究一般分为两大类,一类是通过航线运行安全检查(Line Operations Safety Audit,LOSA)获取的飞行员的运行表现,另外一类是根据相关学者建议,基于飞行参数开展飞行技术评估。根据附件 3,请你们建立数学模型,探讨一种基于飞行参数的飞行技术评估方法, 分析飞行员的飞行技术,数据表中的“不同资质”代表飞行员的不同技术级别。

评估方法若采用单一的评价模型会过于主观,所以建议采用评价模型+基于机器学习的评分模型融合的方式。

特征选取——明显跟技术挂钩的特征输入topsis熵权法评价模型/不够明显或者不能看出极大极小型的数据特征输入基于决策树的评分模型——两个模型的输出评分结果进行线性加权或者输入全连接层训练

问题 5:随着技术的进步,未来在民航客机上安装实时传输的 QAR 数 据记录系统已成为可能,这种“实时飞行数据”技术,可以在接近实时的情 况下把航班飞行数据传输到地面分析系统,极大地提高风险识别能力和预 防水平。假设飞行数据已能实现陆空实时传输,如果你是该航空公司的安全管理人员,请建立航空公司实时自动化预警机制,预防可能的安全事故发生,结合附件 1 的数据,给出仿真结果。

该题是综合题目,需要利用到前几问建立的模型/得到的结论。

目的的建立一个异常数据检测的模型同时能进行(0)异常数据诊断+(1)异常原因的分析+(2)事故类型的预判

其中(0)和(1)是问题2的模型,(2)是问题3的模型(还需要进行适当的数据转换和模型迁移)

在异常数据诊断后,还得判断一下是不是错误数据(严谨起见),这时可以直接用问题1里的错误数据判断模型。

把几个模型融合好后,整理出一个总的框架,直接输入附件1的数据(输入其中1~2份即可),然后分析模型输出的结果。

三、详细步骤及代码

具体解题步骤和参考代码放在评论区~如失效请私信!

散点图

箱线图

rf特征重要性

knn异常诊断

分类统计

评估

具体解题步骤和参考代码放在评论区~如失效请私信!

猜你喜欢

转载自blog.csdn.net/lichensun/article/details/130133552