【机器学习】时序数据处理 - 代码天地

【机器学习】时序数据处理

编程语言 2018-12-26 12:45:03 阅读次数: 0

相关参考文献：

1.时间序列交叉验证

2.机器学习与时间序列预测

3.时序数据预测案例： O2O Coupon Usage Forecast

4.时间序列模型中样本时间窗口的选择-华泰期货

5.scikit-learn交叉验证时间序列数据的自定义拆分

6.Feature Selection for Time Series Forecasting with Python

一、背景

最近在做项目的时候，出现这样的情况：模型在随机划分的测试集上表现很好，却在按月划分的测试集上表现极其差；

分析发现样本集具有时序性，在模型训练时未将时间因素考虑在内，导致模型泛化能力差；基于此，调整模型调参时的交叉验证方式，由系统随机划分改为自定义按月划分。

二、自定义交叉验证数据集

具体Python代码如下：

1.自定义交叉验证划分规则：

# 自定义交叉验证（月）
def data2lst(lst):
    ret = []
    for i in lst:
        ret += i
    return ret

def createCv(x_train_month, x_train, y_train, n):
    groups = x_train.groupby(x_train_month).groups
    sorted_groups = [value.tolist() for (key, value) in sorted(groups.items())]
    cv = [(np.array(data2lst(sorted_groups[i:i+n])), np.array(sorted_groups[i+n])) for i in range(len(sorted_groups)-n)]
    return cv

2.测试

# 随机生成测试数据
import pandas as pd
import numpy as np
x_train = pd.DataFrame(list(range(100)), columns=['col0'])
y_train = pd.DataFrame([np.random.randint(0, 2) for i in range(100)], columns=['y'])
x_train_month = ['2018-01']*20 + ['2018-02']*20 + ['2018-03']*20 + ['2018-04']*20 + ['2018-05']*20

# 3个月训练，1个月验证    
n = 3
cv = createCv(x_train_month, x_train, y_train, n)  # 返回x_train的index
print(len(cv))
print(cv)

# 搭配GridSearchCV使用
param_test = {'max_depth': list(range(5,12,2))}
gsearch1 = GridSearchCV(
        estimator=XGBClassifier()
        , param_grid = param_test
        , cv=cv)

三、结果

1.能有效解决过拟合现象；

2.在测试集上的效果稍有提升；

3.某种程度上提升模型训练效率；

猜你喜欢

转载自blog.csdn.net/qq_34105362/article/details/85257254

【机器学习】时序数据处理

【python学习笔记】43：Pandas时序数据处理

Pandas时序数据处理入门！

padans 关于数据处理的杂谈 -- 时序数

机器学习-数据处理

时序数据的处理方法

Pandas处理时序数据

基于时序数据处理的分布式光伏功率预测系统

TDengine 用户案例合集 | 智能环保项目的时序数据处理难点与优化实践

时序数据有哪些应用场景？处理工具（系统）需要具备哪些功能？当前时序数据处理流行工具有哪些？

机器学习——Iris的数据处理

机器学习面试—海量数据处理

机器学习——简单的数据处理

机器学习之数据处理

机器学习基础数据处理

(一)机器学习数据处理

机器学习二：数据处理

为什么说 MongoDB 和 HBase 不适用于汽车行业的时序数据处理？

在ClickHouse中处理时序数据

【机器学习】【数据处理】Pandas 处理缺失值

机器学习之数据处理学习笔记

【机器学习】【数据处理】numpy.random.RandomState的用法

【机器学习】【数据处理】Pandas基础知识

机器学习_数据处理及模型评估相关资料

机器学习︱非平衡数据处理方式与评估

机器学习导图系列（1）：数据处理

python数据处理——机器学习树模型介绍

机器学习：数据处理、算法选择、算法验证

端到端的机器学习项目——数据处理部分

Python高光谱遥感数据处理与机器学习

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

使用Redis中间件解决商品秒杀活动中出现的超卖问题（使用Java多线程模拟高并发环境）

野指针及c++指针使用注意点

redis 3.0　新特性

(翻译)火狐操作系统javascript API

微信小程序开发入门

mysql数据查询之五子句(where、group by、having、order by和limit)

Codeforces Round #517 Div. 1翻车记

在caffe 中实现Generative Adversarial Nets（二）

企业级漏洞扫描工具

java byte数组与String互转

每日归档

更多

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)