2020 MCM Weekend 2 Problem C,2020美赛C题思路整理版

问题一

问题原文

  1. Analyze the three product data sets provided to identify, describe, and support with mathematical evidence, meaningful quantitative and/or qualitative patterns, relationships, measures, and parameters within and between star ratings, reviews, and helpfulness ratings that will help Sunshine Company succeed in their three new online marketplace product offerings.
    分析提供的三个产品数据集,根据识别,描述和支持的数学证据,确定有意义的定量和/或定性的模式、关系、度量和参数,这些数据将在星级,评论和帮助等级之内和之间进行,这将有助于Sunshine 公司在他们的三个新的在线销售的产品取得成功。

参考思路

思路①:

分析数据集,将数据集中的文本进行文本数据分析,然后用Spss软件建立回归模型,自变量为 评价星级、有用性投票、评论,因变量为产品上线后是否会取得成功。

思路②:

首先,对数据集进行 完整性、冗余度等筛选,然后利用python或者MATLAB对评价的词频进行统计,最后再预测一个方程来拟合数据,得到每个评语对应的权重。总之,最重要的是先对评价做词频统计!

思路③:

运用数据挖掘和文本挖掘算法,利用python等对题中所给的数据库建立客户评价分析系统,最后得到产品上线后取得成功的概率。

问题二

问题原文

  1. Use your analysis to address the following specific questions and requests from he Sunshine Company Marketing Director:
    2.使用您的分析解决阳光公司市场总监的以下特定问题和要求:
  • a. Identify data measures based on ratings and reviews that are most informative for Sunshine Company to track, once their three products are placed on sale in the online marketplace.
    a. 一旦三种产品在在线市场上出售后,根据评级和评论来识别数据度量,这对于Sunshine Company最为有用。
  • b. Identify and discuss time-based measures and patterns within each data set that might suggest that a product’s reputation is increasing or decreasing in the online marketplace.
    b. 在每个数据集中识别并讨论基于时间的度量和模式,这些度量和模式可能表明产品在在线市场中的声誉在上升或下降。
  • c. Determine combinations of text-based measure(s) and ratings-based measures that best indicate a potentially successful or failing product.
    c. 确定最能表明潜在成功或失败产品的基于文本的度量和基于评级的度量的组合。
  • d. Do specific star ratings incite more reviews? For example, are customers more likely to write some type of review after seeing a series of low star ratings?
    d. 特定的星级评级是否会引发更多的评论?例如,在看到一系列的低星级评价后,客户更有可能写一些评论吗?
  • e. Are specific quality descriptors of text-based reviews such as ‘enthusiastic’,‘disappointed’, and others, strongly associated with rating levels?
    e. 基于文本的评论的特定质量描述符,如“热情”、“失望”等,是否与评级水平密切相关?

参考思路

2.a 思路

预测三种产品上市后,根据对阳光公司产品的数据追踪,确定最有用的评级(星级和帮助等级)和评论的组合。即用问题一中的模型求出什么星级加什么帮助等级和什么评论就是最有用的组合。或者通过数据分析假设出一种综合评价机制,类似于Google发明的一个名为 pagerank的量——它可以度量网页的重要程度,从而对用户想搜索的网页进行排序。

2.b 思路

在模型中添加时间这一度量模式。用拟合曲线预测随着时间的增长,客户选购物品时,评级和评价的变化趋势。再通过挖掘筛选后的数据绘画出随着年份的增加三种产品在在线市场上评级的高低(声誉的高低)。最重要的是一定要考虑到time-based这个概念,即你的指标应该是可以随时间表示或可视化的,并且还必须得是动态的。

2.c 思路

此问是求最能表明潜在成功或失败的产品的评级和文本(评论)的组合,与a有些相似。即从最有用的组合中通过对比挑选出最能表示成功和失败的评级和文本组合。这一问可以考虑用第一问做出的词频统计结合文本情感分析来做。

2.d 思路

此问主要讨论星级与评论之间的关系,还是会用到挖掘筛选过的文本数据。对数据进行统计分析,看各个星级与评论文本的相关性。这里需要划分文本类型,可以通过词频统计自己赋值权重,也直接粗暴地通过通过特征词语(good, bad)划分。

2.e 思路

最后一小问就是结合对对文本数据的分析,可以去d题连着一起做,只需要找出词频最高的一些词并与评级做相关性分析即可。

结语

2020美赛C题的思路就先写到这里了,今年的题目是一个较为开放的问题,对于数据的处理以及综合评价体系的假设与建模训练都是比较自由的,只需自圆其说即可,千万不要拘泥于某一种方法,只要能将数据处理后得到一个合理的综合评价机制,并且考虑基于时间变化的time-based概念就可以了。

发布了16 篇原创文章 · 获赞 36 · 访问量 5662

猜你喜欢

转载自blog.csdn.net/qq_41618424/article/details/104713880