一些关于蛋白质序列分类的总结

毕设题目是“基于神经网络的蛋白质分类器设计”

经过一些努力现在分类的精度到达了98%,但其实仍然不理想,导师其实希望我能做个100%精度的。

总结一下那2%失败的原因:

GPCR家族LEVEL2的分类里,有两类序列特别少,只有3条。我如果拿两条建模,一条测试,就会导致建模不准确,测试序列也无法正确分类,如果我拿全部的3条序列进行建模,模型是准确了,但没有用来测试的序列,谁会信你的模型是精确的呢?

但是好就好在,,别的类数量都挺多,我可以把别的类多抽出点,错误的这两条错就错吧,那样的话,正确分类的序列数量就多了,精度也就高了,,,虽然没有解决实际问题,但是吧,,最起码好看了些。

关于我具体是怎么提取蛋白序列特征段,以及如何使用神经网络工具制作分类器,等我最后答辩完了,我把论文放出来。也和大家相互学习进步吧。

猜你喜欢

转载自blog.csdn.net/xuqimm/article/details/71207592
今日推荐