Kaggle教程——大神教你上分 - 代码天地

Kaggle教程——大神教你上分

其他 2018-06-27 14:18:41 阅读次数: 2

本文记录笔者在观看Coursera上国立经济大学HLE的课程 How to win a data science competetion中的收获,和大家分享。课程的这门课的讲授人是Kaggle的大牛，内容详实，需要一定的python和机器学习基础。笔者只记录了一部分，许多细节都被省略了，详细内容各位看官还请移步课程链接

1. Week1

Feature Preprocessing 特征预处理

数值型 Numerical

Tree-Based 模型不依赖于归一化(scaling),Non-tree-based 很依赖归一化
2.最常用的归一化方法
- MinmaxScaler to [0,1]
- StandardScaler to mean==0,std==1
- Rank 让有序的值之间的间距相等
- np.log(1+x) 和 np.sqrt(1+x)缩放
  3.生成新的特征依赖于
- 业务知识
- 探索性的数据分析(Explotary data analysis)

分类型 Categorical

Ordinal的特征的顺序是有意义的
2.label encoding 能把categorical变成数值,什么是label encoding,见图1
3.Frequency encoding可以把类别变成频数
4,label encoding 和frequency encoding常用于 tree-based models
one-hot常用于非树的模型
categorical变量进行组合生成新的categorical变量,有助于线性模型和KNN
图1

时间和坐标
时间
从时间戳产生新的变量
- 周期性
- 某一事件之后经过了多久
- 日期差
坐标
从坐标产生新的特征
- 附近有意思的地方
- 聚集中心的坐标
- 聚合统计量
  
  缺失值
根据情况选择填补方法
常用方法:mean,median,-999
3.分类型变量"is_null"可能会有用
4.在生成特征前,避免fill na
5.xgboost能自己搞定Nans

特征处理

图像和文本
1.文本
使用bag of words
1. 预处理:stemming lowercase lemmazation stopwords
2. n-grams
3. tf-idf
  4.Word2vec
图像
1. 可以从网络的不同的层抽取特征
2. 精心选取pre-trianed 网络
3. 手工增加样本数量

猜你喜欢

转载自www.cnblogs.com/yuuken/p/9232477.html

Kaggle教程——大神教你上分

大神教你轻松驾驭Tomcat

大神教你：在Ubuntu上安装MongoDB数据库

大神教你用 autoplank 在多个显示器上使用 Plank 扩展坞

2018最新大神教你用Python玩转数据视频教程

PS教程：大神教你用PS制作《大鱼海棠》海报

大神教你在 Linux 中查看你的时区

大神教你自动发现监控mysql从库状态

大神教你在Linux中使用tcpdump命令

大神教你一招，如何使用Shell

大神教你Nginx常用基础配置方案

开会5分钟废话2小时？大神教你如何提升站会效率

干货分享：CDC实时数据复制，大神教你调性能

大神教你如果学习Python爬虫如何才能高效地爬取海量数据

大神教你：Lsyncd复制并实时同步到远程服务器

爬取网站总是被封？大神教你搭建Cookies池，以后远离IP被封

大神教你：xdebug和最重要的php调试技巧

CAD大神教你如何查找CAD图纸的ID座标位置？

大神教你在Linux中查找和删除重复文件

CAD初学者要如何学好CAD？CAD大神教你技巧

录屏软件哪个好？大神教你快速录制高清视频

大神教你JVM运行原理及Stack和Heap的实现过程

大神教你Debian GNU/Linux 9.7 “Stretch” Live和安装镜像开放下载

大神教你轻松玩转Docker和Kubernetes中如何运行MongoDB微服务

大神教你如何解决Linux系统80端口被占用

渗透大神教你用kali向心爱的妹子表白

2021最新 - 大神教你JAVA如何从0基础到月入过万（必看）

做影视剪辑如何避免侵权？大神教你的防侵权10大方法

算法大神教你写代码实现回文字符串检测

AI新时代-大神教你使用python+Opencv完成人脸解锁（附源码）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)