2023数学建模美赛C题Predicting Wordle Results思路和程序分享

1:问题描述

Wordle is a popular puzzle currently offered daily by the New York Times. Players try to solve the puzzle by guessing a five-letter word in six tries or less, receiving feedback with every guess. For this version, each guess must be an actual word in English. Guesses that are not recognized as words by the contest are not allowed. Wordle continues to grow in popularity and versions of the game are now available in over 60 languages.

https://zhuanlan.zhihu.com/p/607174967

2:问题需求

《纽约时报》要求您对本文件中的结果进行分析,以回答几个问题。

问题1:报告结果的数量每天都在变化。开发一个模型来解释这种变化,并使用您的模型为2023年3月1日报告的结果数量创建一个预测区间。这个词的任何属性是否会影响报告的在困难模式下播放的分数的百分比?如果是这样,如何?如果不是,为什么不呢?

问题2:对于未来日期的给定未来解决方案词,开发一个模型,使您能够预测报告结果的分布。换句话说,预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。 哪些不确定性与您的模型和预测相关?举一个你对2023年3月1日EERIE这个词的预测的具体例子。你对你的模型的预测有多自信?

问题3:开发并总结一个模型来按难度对解决方案单词进行分类。识别与每个分类关联的给定词的属性。使用您的模型,EERIE这个词有多难?讨论分类模型的准确性。

问题4:列出并描述这个数据集的其他一些有趣的特征。

3:解题思路

针对问题1:先对数据进行可视化探索分析,可以以时间序列分析的思路(单个序列或多个序列),建立时间序列模型,预测2023年3月1日报告的结果数量的置信区间。针对数据的变化趋势,还可以建立非线性回归模型。针对单词的具体内容,需要先进行清洗,然后分析词的属性和困难模式下分数的百分比,得出结果。

例如:

针对问题2:

思路1:根据未来日期的单词,建立单词和预测百分比的关系。思路2:根据日期预测百分比的关系。根据举例可知,根据单词(字母)进行预测可能更合适。分析不同字母出现时,和预测百分比的关系,可以建立相关的机器学习模型进行预测,但是数据量不是很足,要注意模型的拟合方式。是一个有监督的机器学习问题。

针对问题3:

根据难度进行单词分类的问题,可以使用无监督的聚类算法解决。预测EERIE属于哪个簇,并且属于哪个难度。可根据每个字母的难度->单词的难度进行分析。

针对问题4:

开放性问题,对数据进行探索性分析,获得一些有趣的内容。

4:程序和处理后数据

目前,所有小问的程序和数据均已经更新完毕。使用分析程序为Python。

后台私信获得程序、数据、分析结果等内容。

猜你喜欢

转载自blog.csdn.net/daitulin/article/details/129089958
今日推荐