Kaggle 比赛 学习 作业

(先上简单粗暴的软件翻译,然后直接入手)Getting started with Python

上午来到实验室,装好anaconda+pycharm,准备用python练习,中间翻墙注册了Kaggle,大概内容已了解,先把要求软件直译了

Comprehensive Data Exploration with Python

  • Understand how variables are distributed and how they interact
  • Apply different transformations before training machine learning models
  • Covers both univariate and multivariate approaches
  • Includes visualizations using matplotlib and seaborn

用Python进行综合数据探索

了解变量是如何分布的以及它们是如何相互作用的

在机器学习模型训练前应用不同变换

涵盖单变量和多变量方法

包括使用matplotlib and seaborn的可视化

House Prices EDA

  • Learn to use visualization techniques to study missing data and distributions
  • Covers both continuous and categorical data
  • Includes correlation heatmaps, pairplots, and t-SNE to help inform appropriate inputs to a linear model

学会使用可视化技术来研究丢失的数据,分布包括连续数据和分类数据,包括相关热图、配对图和t-sne,以帮助为线性模型提供适当的输入信息。

A Study on Regression Applied to the Ames Dataset

  • Demonstrate effective tactics for feature engineering
  • Includes simplifying and combining existing features
  • Explore linear regression with different regularization methods including ridge, LASSO, and ElasticNet using scikit-learn

应用于Ames数据集的回归研究表明,特征工程的有效策略包括简化和结合现有的特征,使用Scikit-Learning,用不同的正则化方法(包括脊、拉索和ElasticNet)探索线性回归。(岭回归的方法可以直接参考)

Regularized Linear Models

  • Build a basic linear model
  • Try more advanced algorithms including XGBoost and neural nets using Keras

 正则化线性模型建立基本线性模型使用Keras尝试更先进的算法,包括XGBoost和神经网络(keras调用和XGBoost以及神经网络下个阶段再说)

界面中提供了问题描述(Overview),数据下载(Data),示例代码(Kernels),讨论区(Discussion),排行榜(Leaderboard),和规则(Rules).

OK,下载数据集,大概385kb:

  • train.csv - the training set   训练集
  • test.csv - the test set  测试集

data_description.txt:每一列的完整描述,最初由迪恩·德科克编写,但经过轻微编辑,以与此处使用的列名相匹配

sample_submission.csv:根据销售年份和月份、批次面积和卧室数量进行线性回归的基准提交材料。

打开看了一下,训练集测试集各1500个,特征大概79个,部分数据缺失(79个肯定大部分是无用的,关键影响因素并不多)

明天开始处理数据。

猜你喜欢

转载自blog.csdn.net/skywalker_123/article/details/81067262
今日推荐