【机器学习算法】三、集成算法:RF、AdaBoost、GBDT、XGBoost、LightGBM、Stacking模型融合

三、集成算法:RF、AdaBoost、GBDT、XGBoost、LightGBM、Stacking模型融合

1、集成算法的原理介绍

集成算法就是建立很多个弱评估器(也叫基评估器),然后以某种集成规则把这些弱评估的评估结果集成,从而达到比单个弱评估器更好的效果。核心思想就是三个臭皮匠顶个诸葛亮。

臭皮匠是谁?决策树、线性回归、逻辑回归、朴素贝叶斯、SVM、KNN等等都可以,就是这些单个评估器都可以当作基评估器。

三个臭皮匠能顶一个诸葛亮吗?假如有3个弱评估器,每个弱评估器的效果都是0.6,这里先简单的以少数服从多数的集成规则进行集成,集成后的准确率是0.6*0.6*0.6+3*0.6*0.6*0.4=0.6479999999999999。假如集成5个弱评估器,集成的准确率就是:0.6*0.6*0.6*0.6*0.6+5*0.6*0.6*0.6*0.6*0.4+10*0.6*0.6*0.6*0.4*0.4=0.68256。假如集成7个。。。不想算了,肯定集成后的准确率更高。
所以集成算法还是非常强大的,集成学习的代表算法有:随机森林、GBDT、Xgboost、LightGBM等,光听名字都觉得很强大。

目前都有哪些集成规则?主要有三种集成方法:

方法1:bagging法。
这个方法的典型代表就是随机森林,也是集成算法的入门算法。顾名思义,随机森林的基评估器是决策树,就是建立多棵决策树,如果是分类任务,就以少数服从多数的规则集成, 如果是回归任务,就用平均法集成。但是也没有这么简单,这里还有几个细节。

细节1,随机森林中的每棵树不是用所有的训练样本建立的,而是有放回的随机抽取部分训练样本fit成一棵树的。你反过来想,如果每个棵树都用的是全部样本,那每棵树不是长得一样了吗,所有树的预测结果都一样,那最后集成的结果不就是每棵树的结果嘛。所以生成每棵树的时候一定要只用部分样本来生成。

细节2,除了训练样本要抽样,训练特征也要抽样!就是每棵树的生成不仅要抽样样本还要抽样特征。这样做的目的就是生成各种不同的树。每棵树见的样本、特征都各异,那么每棵树就有自己不同的擅长点。所以,用bagging方法集成的时候一定要保证基分类器是相互独立的,是不相同的,才会有集成的效果。

细节3,这种随机有放回的抽样本方法,对于小样本量数据和少特征数据来说,每个样本、每个特征都有可能被抽到,被学习。但是对于训练集样本量很大的数据集来说,就有可能有的样本压根就抽不到!假如有n条样本,一条样本被抽到的概率是1/n,没被抽到的概率就是1-1/n,假如抽了m次,它都没被抽到的概率是(1-1/n)**m,当m、n都趋向很大时,这个概率就是趋向于1/e,也就是约有36.8%的样本一直没有被抽到。这些数据称为袋外数据out of bag data(oob),所以我们在使用随机森林时,我们可以不用划分测试集和训练集,只需要用袋外数据来测试我们的模型即可。当然前提是你数据量够多,有袋外数据。当你数据量不多时,就没有袋外数据,自然就没得用了。

小结:bagging法可以很大程度上减小单个模型选择不当的风险,Bagging可以获得一个方差比其单个基模型更小的强模型。所以当你使用bagging方法时,你的基模型最好是低偏差、高方差的基模型,此时集成模型会方差变小、模型更稳定。

方法2:boosting法。
boosting方法和bagging一样,其基模型都是同类的弱模型,但它不像bagging中各个弱模型都是独立的、并联的,boosting中的基模型都是严格有序的、串联的。
不同于bagging,boosting是着眼于生成一个偏差比其单个基模型更低的强模型,就是从前往后对一个个基模型进行筛选和打磨,让每个基模型都非常强大,并且还赋予各个基模型不同的权重来集成它们。通俗的说,就是使用各种手段,提高串联中的各个模型的效果,让每个弱模型都很强大,并且用加权的形式集成这些基模型,自然最后的结果就更加好了。基于这个目标和方向,boosting方法在基模型的样本选择、训练过程、集成规则等方面都有自己独特的地方。

boosting方法分自适应提升(adaboost)和梯度提升(gradient boosting)两种方式。

(1)adaboost 是自适应提升。什么是自适应提升呢?就是在一个一串的基模型中(基模型的顺序不能改变),每个基模型的训练集都是原训练集,只是训练集中每个样本的权重发生了变化,而这个权重是根据它上一个分类器的分类结果自动进行调整的。就是对上一个分类器分对的样本除以一个数,分错的样本乘以这个数,这样数据集的样本权重就变了,这也是为什么是自适应的原因了。然后把变了权重的训练集喂入下一个基模型。我们都知道,一个样本的权重越高,就意味着在损失函数中它对应的损失前面的系数也越大,那在损失函数的牵引下,这个样本会被重点学习,所以上一个分类器分错的样本,下一个分类器就会重点分这个样本。 除了基模型的训练样本权重不一样外,adaboost还使用加权规则来进行集成。如何加权集成呢?比如第一个基模型的训练结果先保存一下,开始训练第二个基模型时,除了给它调整样本权重外,还把它的训练结果也保存下,然后就再用比如线性回归,把两个预测结果和真实标签放一起线性回归一下,就得到这两个基模型的集成权重。开始训练第三个基模型时,同理除了调整样本权重外,还得把结果和前两个基模型的结果放一起和真实标签回归一下,如果第三个基模型对真实标签拟合没作用的话,那它的回归系数自然就是0了,就是说第三个基模型的权重是0,集成后的预测结果也没它啥事了,继续生成第四个基模型,以此类推,保证所有的添加的基模型都是对拟合标签是有贡献的。这也是boost的原因。自适应提升的典型代表算法是AdaBoost。鉴于不同的任务使用不同的集成规则,AdaBoost就有比如LogitBoost(分类)或L2Boost(回归)等变体。

(2)gradient boosting, 梯度提升,什么是梯度提升呢?梯度提升不是像adaboost那样变换样本权重,而是后面的基模型学习的都是前面模型的残差,当残差达到一定阈值时,就停止生成新的基模型,所以叫梯度提升。这种方法也不会牵扯什么集成规则,集成后的模型预测值是所有基模型的预测值之和。该方法效果非常好,和深度学习中残差网络的思路一样,都是直接拟合残差,效果超好。对应的典型算法是GBDT及其改进优化的工程版变体XGBoost,以及当前大火的微软开源的LightGBM,也是一个基于决策树算法的梯度提升框架。LightGBM以速度惊人、支持分布式、占用内存小等特点迅速成为当前机器学习算法中的新宠。

小结:当你使用boosting方法的时候,你的基模型一定是一些弱模型,就是欠拟合你的数据的模型。此时用boosting集成,效果就会大大提升。反之,如果你的基模型都是过拟合模型,还boosting啥呢,都没空间boosting了。其次boosting方法对噪声样本和异常样本比较敏感,当数据集不太好时,你的重点要先放在特征工程上,先在特征工程上做一些trick,然后再用boosting方法。

方法3:stacking法。
stacking则是使用不同的基评估器,然后集成的时候就按adaboost中的集成方法,把所有基评估器的结果再线性回归或者逻辑回归一下即可。

小结:bagging方法中的基评估器都是一样,而且地位也都一样,都是独立的,所以可以并联运行。boosting方法中的基评估器也是都是一样的,但它们是串联起来的,不能并行运行。stacking的基评估器也是可以并行训练的,只是最后要再回归一下。

2、准备数据:HiggsBoson数据集
(1)从kaggle上下载数据

(2)读取数据、简单探索数据、分训练集和测试集

import time
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

data = pd.read_csv(r'training.csv')
features = data.iloc[:, 1:-2]    #250000 rows × 31 columns
label = data.iloc[:, -1]
xtrain, xtest, ytrain, ytest = train_test_split(features, label, test_size=0.3, random_state=123)

3、所有模型先跑一遍看看数据底线

(1)决策树

start = time.time()
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier()
tree.fit(xtrain, ytrain)

ypred = tree.predict(xtest)
score_train = tree.score(xtrain, ytrain)
score_test = tree.score(xtest, ytest)
print('训练集:', score_train, '    ', '测试集:', score_test)
print(accuracy_score(ypred, ytest))
print(time.time()-start)
训练集: 1.0      测试集: 0.76444
0.76444
21.315803289413452

决策树不是集成算法,但是这里把它列出了是因为,后面的集成模型的基模型都是决策树,所以为了对比,我们看看单个树模型的效果。
从分值上看,单个树对训练集是全部预测正确,但是对测试的正确率只有0.76444,可见这个模型就是一个典型的过拟合模型。当然主要原因也是我们压根就没有调参,全部都是默认参数,如果好好调调超参数,消减一下过拟合,这个模型可能会好一点,但是模型极限也大概这个样子了。

(2)随机森林

start = time.time()
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=100)
clf.fit(xtrain, ytrain)

ypred = clf.predict(xtest)
score_train = clf.score(xtrain, ytrain)
score_test = clf.score(xtest, ytest)
print('训练集:', score_train, '    ', '测试集:', score_test)
print(accuracy_score(ypred, ytest))
print(time.time()-start)
训练集: 0.9999885714285714      测试集: 0.8369866666666667
0.8369866666666667
215.39269065856934

随机森林直接把分值从0.76提升到0.83,但是这个模型也是一个典型的过拟合模型,训练集几乎100%拟合。但是这个模型最主要的是速度太慢,用了3分多钟。

(3)AdaBoost

start = time.time()
from sklearn.ensemble import AdaBoostClassifier
ada = AdaBoostClassifier(n_estimators=100)
ada.fit(xtrain, ytrain)

ypred = ada.predict(xtest)
score_train = ada.score(xtrain, ytrain)
score_test = ada.score(xtest, ytest)
print('训练集:', score_train, '    ', '测试集:', score_test)
print(accuracy_score(ypred, ytest))
print(time.time()-start)
训练集: 0.8186114285714285      测试集: 0.8164266666666666
0.8164266666666666
158.35273146629333

adaboost和随机森林比起来不过拟合,训练集和测试集的分值差不多,测试集只比训练集稍稍差了一点点,非常正常。速度虽比随机森林有所提升,但也太慢。

(4)GBDT

start = time.time()
from sklearn.ensemble import GradientBoostingClassifier
gbdt = GradientBoostingClassifier(n_estimators=100)
gbdt.fit(xtrain, ytrain)

ypred = gbdt.predict(xtest)
score_train = gbdt.score(xtrain, ytrain)
score_test = gbdt.score(xtest, ytest)
print('训练集:', score_train, '    ', '测试集:', score_test)
print(accuracy_score(ypred, ytest))
print(time.time()-start)
训练集: 0.8342742857142857      测试集: 0.82964
0.82964
283.10672426223755

GBDT比ada的效果要好一点点,提升了一点点,而且也不过拟合,非常正常。但是速度实在是太慢太慢。慢的原因有很多,但效果好,所以后来的xgboost和lightGBM都是在它的基础上进行了原理层面以及工程层面的很大优化。

(5)XGBoost
XGBoost可以说是GBDT的工程化版本,得自己安装:pip install xgboost==1.0.1 推荐这个版本是因为这个版本稳定一些。

from xgboost import XGBClassifier
from sklearn.preprocessing import LabelBinarizer      #处理标签列

#读取源数据
data = pd.read_csv(r'training.csv')
features = data.iloc[:, 1:-2]    #250000 rows × 31 columns
label = data.iloc[:, -1]
xtrain, xtest, ytrain, ytest = train_test_split(features, label, test_size=0.3, random_state=123)  

#给标签列编码
binarized = LabelBinarizer()   
ytrain = binarized.fit_transform(ytrain).ravel()
ytest = binarized.fit_transform(ytest).ravel()

start = time.time()
#建模-训练-查看准确率
xgb = XGBClassifier(objective='binary:logistic')
xgb.fit(xtrain, ytrain)
ypred = xgb.predict(xtest)
score_train = xgb.score(xtrain, ytrain)
score_test = xgb.score(xtest, ytest)
print('训练集:', score_train, '    ', '测试集:', score_test)
print(accuracy_score(ypred, ytest))
print(time.time()-start)
训练集: 0.8675142857142857      测试集: 0.8398933333333334
0.8398933333333334
3.4247934818267822

可见,XGBoost比GBDT效果还要更好一点,而且也不过拟合。重点是速度提升了很多很多,速度几乎是GBDT的十分之一。

(6)LightGBM
目前的新宠LGB都不叫算法,叫框架。既然是框架,就表示更加复杂、更加庞大,所以要单独下载安装:pip install lightgbm
光LGB的参数说明都可以长篇大论写一篇博客了,网上也有很多,想抠细节的小伙伴自行百度其他博文吧,我这里侧重点是走通一个完整流程,了解大框架,所以其中的细节不再展开讲解。当然在你非常了解了决策树的生成和剪枝的细节、以及boost集成的操作思路后,相信在算法层面,你理解LGB应该已经不会太困难了,可能最大的障碍就是工程方面的优化会比较晦涩一些。

import time
import lightgbm
from sklearn.preprocessing import LabelBinarizer      #处理标签列
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
#读取源数据
data = pd.read_csv(r'training.csv')
features = data.iloc[:, 1:-2]    #250000 rows × 31 columns
label = data.iloc[:, -1]
xtrain, xtest, ytrain, ytest = train_test_split(features, label, test_size=0.3, random_state=123)  

#给标签列编码
binarized = LabelBinarizer()   
ytrain = binarized.fit_transform(ytrain).ravel()
ytest = binarized.fit_transform(ytest).ravel()

start = time.time()
# 将训练集和测试集整理成lgb要求的形式
lgb_train = lightgbm.Dataset(xtrain, ytrain) # 创建训练集,将数据保存到LightGBM二进制文件将使加载更快
lgb_test = lightgbm.Dataset(xtest, ytest, reference=lgb_train)  # 创建测试集

# 将参数写成字典下形式
params = {'task': 'train', 'boosting_type': 'gbdt', 'objective': 'binary', 'metric':'auc', 'is_unbalance':True, 'force_col_wise':True}

# 训练模型
gbm = lightgbm.train(params,lgb_train,valid_sets=[lgb_train, lgb_test])

#查看训练结果
score = gbm.best_score
print('训练集:', score['training'])
print('测试集:', score['valid_1'])

# 训练后保存模型到文件
gbm.save_model('model_gbm.txt') 
print(time.time()-start)
[LightGBM] [Info] Number of positive: 59977, number of negative: 115023
[LightGBM] [Info] Total Bins 7388
[LightGBM] [Info] Number of data points in the train set: 175000, number of used features: 30
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.342726 -> initscore=-0.651171
[LightGBM] [Info] Start training from score -0.651171
训练集: OrderedDict([('auc', 0.9174424819661972)])
测试集: OrderedDict([('auc', 0.9077815342580077)])
5.596917152404785

可见,强大的算法就是强大,只设置了几个必要的、通用的参数,细节完全没有调,就直接把分数拉到0.9以上了!而且速度也是可以接受的范围。

(7)Stacking模型融合
前面的这些集成算法,不管是bagging还是boosting,它们的基模型都是同类模型,就是都是树模型。但是stacking就不一样了,它是把几个异质的模型融合到一起,所以stacking方法是更加强大的方法,是数据竞赛中常用的模型融合方法。这里只简单跑通一个流程演示一下。

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

from sklearn.ensemble import StackingRegressor
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeRegressor

data = load_breast_cancer() 
features = data.data
target = data.target
xtrain, xtest, ytrain, ytest=train_test_split(features,target,test_size=0.2)

model1 = DecisionTreeRegressor()
model2 = LinearRegression()
stacking = StackingRegressor(estimators=[('dt', model1), ('lr', model2)], final_estimator=LinearRegression())
stacking.fit(xtrain, ytrain)
# 预测
y_pred = stacking.predict(xtest)
 
# 模型评价
print(stacking)
rmse = mean_squared_error(ytest, y_pred) ** 0.5
rmse
StackingRegressor(estimators=[('dt', DecisionTreeRegressor()),
                              ('lr', LinearRegression())],
                  final_estimator=LinearRegression())
0.2441514442707548

4、模型调优

 前面仅仅是模型跑通了,还得调优。调优就是组合一系列模型可能的参数取值,看哪组参数最适合我们的数据,就是哪组参数可以更好的学习我们的数据,就是哪组参数可以这个数据集上取得更高的分值,当然这个分值是要综合考虑训练集的分值和测试集的分值的,也就是要考虑过拟合问题。也所以模型调优的大前提就是,一是,你要对每个模型的背后原理和数学计算得非常非常清晰,你才有调优的方向。二是,你得知道一些调优工具,像我在上篇决策树文章最后给大家演示了两种调优方法,一个是学习曲线,一个是网格搜索。显然本篇将得这7个模型,用学校曲线都不行,因为学习曲线是针对单个参数调优,它不能联动调优。本篇的前6个模型推荐都用网格搜索,至于网格搜索的工具,如果你的数据量不是巨量的,电脑内存都可以,那你用sklearn中的GridSearchCV调调;如果你的数据是海量的,你不妨试试RandomizedSearchCV,如果你觉得RandomizedSearchCV效果不行,那你试试HalvingGridSearchCV。

本篇的前6个模型中,除了决策树,后面5个都是集成模型,尽管是集成模型,但它们都是单模型,但是第7个模型是模型融合,它的调优就更复杂,你可以试试HyperOPT优化,具体怎么使用你可以再继续百度,因为都不是几句话可以说明白的,你知道了这个方向,就可以自己探索了。  

写在最后,给大家简单通俗的介绍一下随机森林的参数,调优的前提是你对参数非常非常的了解嘛,其他模型也都是树模型的集成,相信你都可以自己猜的七七八八了,剩下的就是多看资料去印证。  

n_estimators  1、森林中要有几颗树模型,就是有几个基分类器  
criterion  不纯度指标的计算方法,这个指标是树模型进行分支的依据  A
splitter  默认是根据criterion的计算结果进行分支,这个参数也可以设置为随机划分,如果随机划分每棵树就会长得更深。B
max_depth  2、树的最大深度    C
min_samples_split  3、再分支的最小样本量   D
min_samples_leaf  4、叶节点的最少样本量   E
min_weight_fraction_leaf   叶节点的最小权重和   G
max_features  5、每次分支时要选择几个特征开始计算并分支   F
random_state  随机模式,和随机数种子类似,可以输入任何数字。当我们设定这个参数时,每次实例化后就会长出同一片森林,方便对比。  K
max_leaf_nodes  叶节点的最大个数,就是不能分太多的叶子节点   i
min_impurity_split  分支的最低不纯度,就是不纯度小于这个参数就不用再继续分支了  j
class_weight  各类标签的样本的权重,当样本不均衡时要考虑这个参数,增加少量标签的权重,让模型更加偏向少数类。H

前面表12345的这五个参数是调参频率最高的五个参数,就是我们一般都是调这五个参数,其他参数看情况调。  

ABFK:criterion 、splitter 、max_features、random_state  
当用一棵树来表示一个二维表格数据(行是一个个样本,列是一个个特征)的时候,也就是用一个树模型来拟合一个二维表格数据的时候,这3个参数就决定了你将生成一棵什么样的树。
criterion :我们在生成树的时候,最主要的就是按那个特征的哪个取值进行二分分支,也就是选取哪个特征作为节点,而且选取这个特征的哪个值进行分支。那这个依据就是不纯度指标,就是计算各个特征的不纯度,然后按照不纯度指标最低的那给特征进行分支,而根据这个特征的哪个值进行分支还是用这个指标来计算。
参数criterion就是不纯度的计算方法。如果是分类任务,不纯度可以用信息熵entropy或者基尼系数Gini Impurity(gini,也叫信息增益)两种方式来计算。如果是回归任务,不纯度可以用均方差mse或者平均绝对差friedman_mse来计算。所以这个参数是来控制一棵树如何生长的背后数学计算公式的。
参数splitter:有2种取值,当splitter='best'时,就是对所有特征进行不纯度计算后,找到不纯度值最低的那个指标,按照那个指标进行分支。但是当我们的特征有成千上万个后,这种方法计算量就很大,树模型的生成就很慢,此时我们可以用这个参数splitter='random',就是每次都随机选择几个特征进行计算并分支。但是这种情况随机性又太大。
所以,当我们的splitter='best'时,我们还可以通过调整参数max_features来控制每次计算的特征个数,以此来减小计算量。
默认max_features='None'表示计算所有特征;max_features='auto'或者“sqrt”都表示每次只计算根号N个特征的不纯度;max_features='log2'表示每次都只计算log2N个特征。
如果你的splitter=best,那你每次长的都是同一棵树。因为数据不变,计算不纯度是用的是全部特征,而全部特征又是不变的,所以每次按照哪个特征进行分支就会不变,最后生成的树结构也不变。但是如果你的splitter='random'或者max_features不是None,那你每次生成的树都是不一样的,那不是很难复现模型嘛,为了即使有随机也能复现,我们就用random_state参数来控制每次随机时的随机模式,这样每次随机的时候都是一样的模式,就可以复现了,方便你对比调参等工作。  

C:max_depth  :如果说ABFK合起来就可以生成一个完整的树,那么max_depth就是对这棵树进行暴力剪枝的参数。这个参数是限制树的最大深度。限制深度可以有效抑制过拟合。比如很极端,我生成的树模型细分到一个样本一个结果,那模型在训练集的准确率肯定是100%,但是这么深这么细的分支的树是一个过拟合模型,在测试集上肯定不行的,所以我们要抑制模型的过拟合现象。那这个参数就是最常用的一个参数。  

ij:max_leaf_nodes 、min_impurity_split:这两个参数也是从不同的角度对树模型进行微暴力剪枝的。目前自然也是为了抑制模型过拟合。一个是从叶子节点数方面进行暴力剪枝的;一个是从节点的不纯度角度进行的剪枝,当一个节点再进行分支后的样本的不纯度小于这个参数的值,就不要再分支了,这个节点自己就当作一个叶子节点吧。这两种剪枝方法我们一般不用,max_leaf_nodes 默认是None, min_impurity_split默认值是0。就是不用这两个参数。原因是这两个参数我们初次建模很难拿捏呀,除非你对这个数据集已经研究了很久,也已经建过很多个树模型了,你对最大叶子节点数量和最小不纯度有很高的把握了,你才知道怎么调整这两个参数。  

DE:min_samples_split 、min_samples_leaf 。如果说max_depth参数是暴力剪枝,max_leaf_nodes 、min_impurity_split是高手剪枝,那这两个参数就是我们普通人的精修操作了。
比如min_samples_split =5,表示如果当前的节点中的样本量小于5个,即使这5个样本的target不一样,也不用继续分支了。就是停止分支,就这样吧。
比如min_samples_leaf=3表示如果当前叶子节点中的样本量小于3个,这个叶子节点和它的兄弟节点都要删掉,只留下父节点即可。
D和E经常搭配一起,比如有个节点的样本有6个,那它是满足继续分支的条件的,但是如果这6个样本中有2个样本target是1,4个样本的target是2,那就不要分了,因为左分支样本量是2个,小于3了,就不要分了,还是让这6个样本的节点当作叶子节点吧。不要再继续分了。
这两个参数也是防止过拟合的,如果设置得太大,就阻止了模型的继续学习,如果参数设置得太小,就会过拟合。这两个参数和C搭配起来使用,有很好的抗过拟合效果。

GH:min_weight_fraction_leaf、class_weight  这两个参数是搭配使用的,主要是针对分类问题中的样本不均衡的情况。class_weight的默认值是None,就是不考虑样本均衡问题,就是样本基本均衡的情况。当class_weight=“balanced”时,算法会自动计算各类标签的样本权重的。此时各类样本是有不同的权重值的。而参数min_weight_fraction_leaf 的默认值是0就是不考虑权重问题,就是不管叶子节点里面的样本的权重值,是多少都行。如果设置了min_weight_fraction_leaf =0.01,就表示叶子节点中所有样本权重(各个样本的权重值是由class_weight提供的)的和,如果小于0.01,这个叶子节点就和它的兄弟节点一起被剪枝。
 

猜你喜欢

转载自blog.csdn.net/friday1203/article/details/135167457