数据挖掘实战项目-kaggle泰坦尼克号生还者预测–ing

kaggle泰坦尼克号生还者预测
泰坦尼克号：从灾难中学习机器
kaggle网站连接：链接: https://www.kaggle.com/c/titanic
在这里插入图片描述

一、实战项目描述

1、项目概述-泰坦尼克号：从灾难中学习机器

挑战-泰坦尼克号的沉没是历史上最臭名昭著的海难之一。
1912年4月15日，泰坦尼克号在首次航行期间撞上冰山后沉没，2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。虽然幸存下来有一些运气因素，但有一些人比其他人更有可能生存，比如妇女，儿童和上层阶级。在本文中将对哪些人可能生存作出分析，特别是运用Python和机器学习的相关模型工具来预测哪些乘客幸免于难，最后提交结果。从kaggle泰坦尼克生存预测项目下载相关数据。

2、要求-根据数据预测幸免于难的乘客

在这一挑战中，我们要求您建立一个预测模型来回答以下问题：“什么样的人更有可能生存？” 使用乘客数据（即姓名，年龄，性别，社会经济舱等）。
在本竞赛中，您将可以访问两个类似的数据集，其中包括乘客信息，例如姓名，年龄，性别，社会经济舱等。一个数据集名为“ train.csv”，另一个数据集名为“ test.csv”。。
Train.csv将包含一部分乘客的详细信息（准确地说是891位乘客），并且重要的是，它将揭示他们是否幸存下来，也被称为“地面真理”。
“ test.csv”数据集包含类似的信息，但没有透露每位乘客的“基本事实”。预测这些结果是您的工作。
使用您在train.csv数据中找到的模式，预测机上其他418名乘客（在test.csv中找到）是否还幸免于难。

3、数据集

数据已分为两组：
训练集（train.csv）
测试集（test.csv）
训练集应用于构建您的机器学习模型。对于训练集，我们为每位乘客提供结果（也称为“基本事实”）。您的模型将基于乘客的性别和阶级等“特征”。您还可以使用特征工程来创建新特征。
应该使用测试集来查看模型在看不见的数据上的表现如何。对于测试集，我们不提供每位乘客的基本情况。预测这些结果是您的工作。对于测试集中的每个乘客，请使用您训练的模型来预测他们是否在泰坦尼克号沉没中幸存了下来。
我们还包括gender_submission.csv，这是一组假设，假设所有女性乘客都可以幸存，作为提交文件的外观示例。
从Kaggle泰坦尼克号项目页面下载数据：: https://www.kaggle.com/c/titanic/data

二、项目数据挖掘流程分析

（一）数据读取
读取数据，并进行展示
统计数据各项指标
明确数据规模与要完成任务

（二）特征理解分析
单特征分析，逐个变量分析其对结果的影响
多变量统计分析，综合考虑多种情况影响
统计绘图得出结论

（三）数据清洗与预处理
对缺失值进行填充
特征标准化/归一化
筛选有价值的特征
分析特征之间的相关性

（四）建立模型
特征数据与标签准备
数据集切分
多种建模算法对比
集成策略等方案改进

代更。。。。。。

链接: link

【数据挖掘】数据挖掘比赛项目-kaggle泰坦尼克号