实训第二周

第二周
第一天7.9
1、首先探究了一下逻辑回归的原理
原理：二分类，通过线性、非线性回归+sigmoid得到概率
其他：损失函数，梯度下降（梯度）
2、开始考虑模型的选择，这是一个分类问题，示例程序的思路很清楚，就是输入数据，处理数据，处理ELO，得到特征值，逻辑回归。
对于我们，最重要的是特征值的选择，预处理，还有分类算法和参数的调节。这里我打算把大部分分类算法都试一下。
示例程序的数据有很大的问题，首先是维数过高，用三个表连在一起，维数有六十多，但是其中起作用的并不多，导致正确率不高。还有没考虑最重要的球员变动问题。
这里还有别的思路，查到一种可以借鉴的思路，通过寻找常规赛分数、赢得场数与进入季后赛的关系，变成通过一些特征值用线性回归预测PTS得分，再得到是否进入季后赛。可以尝试一下。
还有选取特征值的方法，除了使用我们讨论的算法boruta，还可以通过减少特征值观察结果变化来手工选择。

第二天7.10
1、安装python,pycharm,pip install pandas,pip install scipy,pip install scikit-learn，机房的电脑配置不太一样，失败了很多次，最后终于成功了。
2、进行了小组讨论，确定特征值的选择的方法，我主张多试几种，毕竟想要通过一种方法一次得到好的结果是很难的。
3、测试了一下ELO这个数据的必要性，跑了一下nba demo的数据，正确率如下，作为正确率的基准。发现它的一维实在是没什么作用，也就是说，这个算法费了很大的力气来算ELO，结果可能是因为比重太小，并没有什么作用。
这里写图片描述
打算在这个正确率的基准之上进行特征值的选择。但是今年有变化，原因是球员签约到期，布局可能有所变动影响对后的结果。

第三天：7.11
1、今天讨论有一个新想法，是在球队的基础上，用球员的指标对球员变动进行增减，从而得到比较好的训练集和测试集。还有一种是用效率值当做单独的一维，再用球队以往的战绩，主场优势，教练因素分别当做剩下几维。这两种方法都需要试一下。
2、除了逻辑回归，我打算先尝试knn,svm,bp这几种方法。不过还需要好的数据才能有好的结果。

第四天7.12
1、学习sklearn，写knn,svm,bp测试正确率
分析目前有的logic回归需要的输入，输出
了解sklearn的函数怎么用
写代码

暂时测一下正确率，还需要好的数据，还打算计算一下晋级队伍。
2、讨论了一下特征值的选择，现在意识到在数据方面要进行非常多的工作，好的数据才是得到更好结果的前提。

第五天7.13
1、组内分工手动得到了每个球队的人员变动，比如
这里写图片描述
2、现在考虑的就是把数据计算出来，然后用算法选择特征值，再放到前面写好的程序中跑。中间还有很多细节问题，比如程序还没有非常完整，而且只是常规赛，但是终于几个部分都有了进展。下周开始就可以把几部分进行组装，然后测试改进了，可能数据方面还需要改进，特征选择、算法选择，工作还是不少的，但是每一步的不同的想法对结果的影响都是很大的，关键还是要不断测试。

猜你喜欢