2023美赛Y题详细思路

问题

我把这个题目划分为五个问题进行解析,分别如下:

  • 问题一:建立一个数学模型,解释所提供的电子表格中每艘帆船的价格。包括任何你认为有用的预测器。你可以从其他方面了解某艘帆船的其他特性(如横梁、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠能力、净空、电子设备等)。以及按年份和地区分列的经济数据。识别并描述所使用的所有数据来源。包括对每个帆船变体的价格估计的精确性的讨论。
  • 问题二:使用您的模型来解释区域对上市价格的影响,如果有的话。讨论是否任何地区的影响是一致的所有帆船变体。讨论所指出的任何区域影响的实际和统计意义。
  • 问题三:讨论你对特定地理区域的建模如何在香港市场上发挥作用。从所提供的电子表格中选择一个信息丰富的帆船子集,分为单孔帆船和双体船,并从香港(特区)市场找到相应的上市价格数据。模型香港的区域影响,如果有一个,对每个帆船的价格在你的子集。双体船和单壳帆船的效果是一样的吗?
  • 问题四:确定并讨论你的团队从数据中得出的任何其他有趣的、信息丰富的推论或结论。
  • 问题五:为香港帆船经纪人准备一至两页的报告。包括精心挑选的图表,以帮助经纪人理解你的结论。

问题一思路

这里我暂时先不考虑其它因素,因为这个涉及到寻找数据等,较为繁琐。问题一是整个问题的最关键所在,一错步步错。

数据处理(单帆船,另一个同理)

首先我们可以看到数据是有缺失的:
在这里插入图片描述
由于缺失个别,数据总体多,所以删除即可。接下来我们看缺失值处理好后的数据:
在这里插入图片描述
这里我们的目标就是价格Listing Price,其它特征需要编码。所以得到如下结果:
在这里插入图片描述
似乎你认为已经完成数据处理了,但是你细看这些列类别变量有多少?
在这里插入图片描述
一个列里面有几十上百种的类别变量,你就这么拿到模型训练吗?细节决定你拿什么奖,我不在这个免费思路种提及,自己思考。

建立模型

注意:这个是回归问题,不是分类! 所以,你可以在这里使用各种回归算法,比如:

  1. 多元回归
  2. ElasticNet回归
  3. 随机森林回归
  4. 支持向量回归
  5. XGBoost回归
  6. LightGBM回归
  7. CatBoost回归

精确性讨论

就是上述模型的评估。

问题二思路

使用您的模型来解释区域对上市价格的影响,如果有的话。讨论是否任何地区的影响是一致的所有帆船品种。讨论所指出的任何区域影响的实际和统计意义。

思路: 使用问题一的模型预测每个帆船在不同地理区域的上市价格,并分析区域变量对预测价格的影响。

问题三思路

讨论你对特定地理区域的建模如何在香港市场上发挥作用。从所提供的电子表格中选择一个信息丰富的帆船子集,分为单孔帆船和双体船,并从香港(特区)市场找到相应的上市价格数据。模型香港的区域影响,如果有一个,对每个帆船的价格在你的子集。双体船和单壳帆船的效果是一样的吗?

思路:搜集香港地区对应的数据,应用问题一的模型,预测该数据。

问题四思路

确定并讨论你的团队从数据中得出的任何其他有趣的、信息丰富的推论或结论。

思路:

  1. 不同地理区域对帆船价格的影响肯定是显著的
  2. 同理:品牌、品种
  3. 市场经济

问题五思路

为香港帆船经纪人准备一至两页的报告。包括精心挑选的图表,以帮助经纪人理解你的结论

思路:这里就看写论文同学的能力了,看我加粗关键词。

付费思路代码获取方式

下方卡片添加,备注来意。

猜你喜欢

转载自blog.csdn.net/weixin_46211269/article/details/129876764