Kaggle练习002--Predict survival on the Titanic(Titanic Disaster)

泰坦尼克之灾是Kaggle上的一个入门级比赛项目,主要是利用监督式机器学习,对样本进行训练,建立分类模型,对未标记样本进行分类。

通过对本项目的练习,可以将理论知识在实际程序中进行试验,既能熟悉工具的使用,也可以加深对理论的理解。

我已经将代码放到了我的Github上,会持续更新,逐步优化。

基于模块化的思想,我在编写程序时,将功能分到多个文件中,以后版本更新会尽量保持模块的稳定(主程序是main.py):

v0.1版本,使用sk-learn建立基本的模型,使用SGD和LR两种分类器对测试集进行预测。

作为最基本的模型,主要的目标是能够正常运行,因此本版本中使用的LR模型并未进行超参数调整,使用常规设置。

使用3折交叉验证,对训练样本的精度进行评估:[0.78787879 0.79124579 0.79124579]

最终上传到Kaggle上,准确率为:75.598%。

虽然准确率不是很高,但是此版本已经搭建好了基本的结构,为模型的进一步优化提供了良好的支撑。

扫描二维码关注公众号,回复: 6785743 查看本文章


猜你喜欢

转载自www.cnblogs.com/asenyang/p/11161521.html
今日推荐