实训第二周

第二周
第一天7.9
1、首先探究了一下逻辑回归的原理
原理:二分类,通过线性、非线性回归+sigmoid得到概率
其他:损失函数,梯度下降(梯度)
2、开始考虑模型的选择,这是一个分类问题,示例程序的思路很清楚,就是输入数据,处理数据,处理ELO,得到特征值,逻辑回归。
对于我们,最重要的是特征值的选择,预处理,还有分类算法和参数的调节。这里我打算把大部分分类算法都试一下。
示例程序的数据有很大的问题,首先是维数过高,用三个表连在一起,维数有六十多,但是其中起作用的并不多,导致正确率不高。还有没考虑最重要的球员变动问题。
这里还有别的思路,查到一种可以借鉴的思路,通过寻找常规赛分数、赢得场数与进入季后赛的关系,变成通过一些特征值用线性回归预测PTS得分,再得到是否进入季后赛。可以尝试一下。
还有选取特征值的方法,除了使用我们讨论的算法boruta,还可以通过减少特征值观察结果变化来手工选择。

第二天7.10
1、安装python,pycharm,pip install pandas,pip install scipy,pip install scikit-learn,机房的电脑配置不太一样,失败了很多次,最后终于成功了。
2、进行了小组讨论,确定特征值的选择的方法,我主张多试几种,毕竟想要通过一种方法一次得到好的结果是很难的。
3、测试了一下ELO这个数据的必要性, 跑了一下nba demo的数据,正确率如下,作为正确率的基准。发现它的一维实在是没什么作用,也就是说,这个算法费了很大的力气来算ELO,结果可能是因为比重太小,并没有什么作用。
这里写图片描述
打算在这个正确率的基准之上进行特征值的选择。但是今年有变化,原因是球员签约到期,布局可能有所变动影响对后的结果。

第三天:7.11
1、今天讨论有一个新想法,是在球队的基础上,用球员的指标对球员变动进行增减,从而得到比较好的训练集和测试集。还有一种是用效率值当做单独的一维,再用球队以往的战绩,主场优势,教练因素分别当做剩下几维。这两种方法都需要试一下。
2、除了逻辑回归,我打算先尝试knn,svm,bp这几种方法。不过还需要好的数据才能有好的结果。

第四天7.12
1、学习sklearn,写knn,svm,bp测试正确率
分析目前有的logic回归需要的输入,输出
了解sklearn的函数怎么用
写代码

暂时测一下正确率,还需要好的数据,还打算计算一下晋级队伍。
2、讨论了一下特征值的选择,现在意识到在数据方面要进行非常多的工作,好的数据才是得到更好结果的前提。

第五天7.13
1、组内分工手动得到了每个球队的人员变动,比如
这里写图片描述
2、现在考虑的就是把数据计算出来,然后用算法选择特征值,再放到前面写好的程序中跑。中间还有很多细节问题,比如程序还没有非常完整,而且只是常规赛,但是终于几个部分都有了进展。下周开始就可以把几部分进行组装,然后测试改进了,可能数据方面还需要改进,特征选择、算法选择,工作还是不少的,但是每一步的不同的想法对结果的影响都是很大的,关键还是要不断测试。

猜你喜欢

转载自blog.csdn.net/qq_34415866/article/details/81059291