问题
我把这个题目划分为五个问题进行解析,分别如下:
- 问题一:建立一个数学模型,解释所提供的电子表格中每艘帆船的价格。包括任何你认为有用的预测器。你可以从其他方面了解某艘帆船的其他特性(如横梁、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠能力、净空、电子设备等)。以及按年份和地区分列的经济数据。识别并描述所使用的所有数据来源。包括对每个帆船变体的价格估计的精确性的讨论。
- 问题二:使用您的模型来解释区域对上市价格的影响,如果有的话。讨论是否任何地区的影响是一致的所有帆船变体。讨论所指出的任何区域影响的实际和统计意义。
- 问题三:讨论你对特定地理区域的建模如何在香港市场上发挥作用。从所提供的电子表格中选择一个信息丰富的帆船子集,分为单孔帆船和双体船,并从香港(特区)市场找到相应的上市价格数据。模型香港的区域影响,如果有一个,对每个帆船的价格在你的子集。双体船和单壳帆船的效果是一样的吗?
- 问题四:确定并讨论你的团队从数据中得出的任何其他有趣的、信息丰富的推论或结论。
- 问题五:为香港帆船经纪人准备一至两页的报告。包括精心挑选的图表,以帮助经纪人理解你的结论。
问题一思路
这里我暂时先不考虑其它因素,因为这个涉及到寻找数据等,较为繁琐。问题一是整个问题的最关键所在,一错步步错。
数据处理(单帆船,另一个同理)
首先我们可以看到数据是有缺失的:
由于缺失个别,数据总体多,所以删除即可。接下来我们看缺失值处理好后的数据:
这里我们的目标就是价格Listing Price,其它特征需要编码。所以得到如下结果:
似乎你认为已经完成数据处理了,但是你细看这些列类别变量有多少?
一个列里面有几十上百种的类别变量,你就这么拿到模型训练吗?细节决定你拿什么奖,我不在这个免费思路种提及,自己思考。
建立模型
注意:这个是回归问题,不是分类! 所以,你可以在这里使用各种回归算法,比如:
- 多元回归
- ElasticNet回归
- 随机森林回归
- 支持向量回归
- XGBoost回归
- LightGBM回归
- CatBoost回归
精确性讨论
就是上述模型的评估。
问题二思路
使用您的模型来解释区域对上市价格的影响,如果有的话。讨论是否任何地区的影响是一致的所有帆船品种。讨论所指出的任何区域影响的实际和统计意义。
思路: 使用问题一的模型预测每个帆船在不同地理区域的上市价格,并分析区域变量对预测价格的影响。
问题三思路
讨论你对特定地理区域的建模如何在香港市场上发挥作用。从所提供的电子表格中选择一个信息丰富的帆船子集,分为单孔帆船和双体船,并从香港(特区)市场找到相应的上市价格数据。模型香港的区域影响,如果有一个,对每个帆船的价格在你的子集。双体船和单壳帆船的效果是一样的吗?
思路:搜集香港地区对应的数据,应用问题一的模型,预测该数据。
问题四思路
确定并讨论你的团队从数据中得出的任何其他有趣的、信息丰富的推论或结论。
思路:
- 不同地理区域对帆船价格的影响肯定是显著的
- 同理:品牌、品种
- 市场经济
问题五思路
为香港帆船经纪人准备一至两页的报告。包括精心挑选的图表,以帮助经纪人理解你的结论。
思路:这里就看写论文同学的能力了,看我加粗关键词。
付费思路代码获取方式
下方卡片添加,备注来意。