2021美赛C题分析与思考

C题概述

一道数据见解领域的题,主要有图像数据、带有时间戳的文本、数值、地理位置数据,数据不算大,但是类型多,对数据处理清洗和挖掘的要求不低。

问题背景

2019年9月,在加拿大不列颠哥伦比亚省的温哥华岛上发现了学名亚洲大黄蜂的巢穴(外来入侵物种)。之后巢被迅速摧毁,但事件的消息迅速在整个地区传播。自那时以来, 在邻近的华盛顿州已经发生了几次确认的害虫目击事件,同时也有许多错误的目击事件。关与侦查,大黄蜂监视和公共目击的地图,如图所示(来自原题主要是亚洲大黄蜂的检测情况,以及大黄蜂监视和公共选址的位置)

在这里插入图片描述
之后是一段关于亚洲大黄蜂的背景资料balabala,主要习性:

  • 外来入侵物种,对本地蜂种、其他昆虫有危害;
  • 其生命周期与其他蜜蜂相似,(受精的)蜂后一般在秋天离开蜂巢,春天一般在元蜂巢30公里内的位置建巢;
  • 民众上报的报告消息有真有假,不一定是真的亚洲大黄蜂,而政府可调配的资源是有限的。

需要解决的问题

  • 讨论建立关于这种有害生物在一段时间内的传播模型,判断其是否可以预测以及其精确度;(物种传播模型:逻辑回归啥的)
  • 大多数被报道的目击事件都将其他黄蜂误认为是大黄蜂(Vespa mandarinia),只 用题目所提供的数据集文件和(可能)提供的图像文件来创建、分析和讨论一个预测错误分类大黄蜂的模型;(建分类机器学习模型)
  • 使用你的模型来讨论解决问题:分类分析关于如何优先调查最有可能是正面目击的报告(建分类机器学习模型)
  • 说明如何在一段时间内提供额外的新报告来更新您的模型,以及应该多久更新一 次。
  • 用自己的模型,判断有什么证据可以证明这种害虫已经在华盛顿州被消灭了?

最后的结果报告为两页的备忘录,总结关于华盛顿州农业部的研究结果。

相关数据集与资料

  • 来自宾夕法尼亚州立大学扩展名的描述该昆虫的背景信息;
  • 2021MCM_ProblemC_数据集.xlsx(带时间戳的文本、数值、地理位置数据)
    字段
    全球 ID:每个观察记录的唯一标签。 检测日期:报告的目击日期。 笔记:提交报告的人提供的评论。这可以是公众成员,也可以是国家雇员。 实验室状态:美国农业部经过分析后对这起目击事件的官方分类。阳性 ID 意味着 这是一只亚洲大黄蜂。阴性 ID 意味着它被排除在外。未处理意味着它还没有被分 类。未验证意味着由于缺乏信息而没有做出决定。 实验室意见:国家昆虫学实验室分析后添加到记录中的内容。 提交日期:向国家提交报告的日期。此日期可能明显晚于检测日期。 纬度(可视范围):这些数据是国家在转换报告提供的地址后提供的。 经度(可视范围):这些数据是国家在转换报告提供的地址后提供的。
  • 2021MCM\U 问题_文件(主要是图片和目击报告)
    图像数据
    密码:Af6SP7rdm33PxPJmDb4wZq7cw(图像识别)

思路见解

参考思路 文献 相关可以用到的源码

写在后面

以上内容仅为菜鸡笔者的个人思考,如有雷同,不胜荣幸,也希望对读者有所帮助,同时有进一步研究兴趣的小伙伴可以关注笔者的公众号:胸中有数 回复:【美赛资料】 可以获取最新的写作、建模、文献资料。(实时更新问题的参考文献、论文模板、部分落地源码等)

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Zengmeng1998/article/details/113674048