2023年明星春季大会のYZ出題のアイデア+コード+モデル Y出題は、線形SVM、ハイパーパラメータ最適化SVM、最適化決定木、アンサンブル学習ブースティング木、最適化アンサンブル学習モデルを選択し、完全なコードと結果、 42ページのアイデアコード結果分析ドキュメントを含む

2023年の名祭もいよいよ大詰め!今度はプレーオフ!さあ、みんな!

2023美赛春季赛Z题全部思路+代码+模型:https://mbd.pub/o/bread/ZJeUk5xu

最も完全なデータ パッケージ + 実行可能コード + モデル構築 + 43 ページの PDF フルバージョンのアイデアの統合 2023 明才春季コンペティション Y の質問:

 2023美赛春季赛Y题全部思路+代码+模型:https://mbd.pub/o/bread/ZJeUk5xv

提供された「2023_MCM_Problem_Y_Boats.xlsx」ファイルによると、長さ、地域、製造年の異なる約 3,500 隻のヨットに関する情報が含まれており、モノハル ヨットとカタマラン ヨットの 2 つの表に分かれています。このデータを使用して、各ヨットのリスト価格を説明し、有用な予測因子を含む数学的モデルを開発できます。必要に応じて追加データを補足することができますが、「2023_MCM_Problem_Y_Boats.xlsx」ファイルに含める必要があり、使用される補足データのソースを完全に特定して文書化する必要があります。

 

出品価格を説明する数学的モデルを開発するには、ヨットの価格に影響を与える要因を考慮する必要があります。役立つ可能性のあるいくつかの予測変数を次に示します。

製造年: ヨットが建造された年は、その価値に影響を与える可能性があります.

長さ: ヨットの長さも重要な予測因子となります。一般的に、長さが長い帆船ほど価格が高くなる傾向があります。

地理的地域: 一部の地域ではヨット市場がより活発で価格が高いため、地理的地域もヨットの価格に影響を与える可能性があります。

製造元とモデル: ヨットの製造元とモデルも価格に影響を与える可能性があります。ヨットの特定のブランドは他のブランドよりも人気があり、したがってより高価になる可能性があるためです。

船体の素材: 船体の素材によっては、耐久性が高いものや高価なものがあるため、ヨットの価格に影響を与える可能性があります。

エンジンの使用年数: エンジンの使用年数もヨットの価格に影響を与える可能性があります。

電子機器: 特定の機器がヨットの価値を高める可能性があるため、電子機器も有用な予測因子になる可能性があります。

その他の要因: キャビンの数、換気、水処理、電力システムなどのその他の要因も、帆船の価格に影響を与える可能性があります。

これらの予測子を使用して、重回帰モデルを作成し、各ヨットのリスト価格を説明できます。欠落しているデータについては、補間を使用して埋めることができます。

最終的なモデルは、各ヨットのリスト価格の予測を提供できるようになります。その精度は、モデルの適合の精度とデータの品質によって影響を受ける可能性があります。

上記の要因に基づいて、帆船の価格を説明する重回帰モデルを構築できます。モデルは、次の形式を取る場合があります。

価格 = β0 + β1 長さ + β2 材料 + β3 変位 + β4 トン数 + β5 推進力 + β6 構造 + β7 機器 + β8 地域 + β9 年 + β10 市場条件 + ε

このうち、Price は船の価格を示す従属変数、Length、Material、Displacement、Tonnage、Propulsion、Structure、Equipment は船の特性を示す独立変数、Region は地理的条件を示すダミー変数です。船の位置; 年は船の製造年を示します; 市況は市況を表し、指標変数にすることができます; β0、β1、β2、β3、β4、β5、β6、β7、β8、β9、および β10は回帰係数、ε は誤差項です。

線形回帰モデルを使用して、リスト価格を予測するための数学的モデルを構築できます。線形回帰モデルは、予測変数と応答変数の間に線形関係があることを前提としています.既存のデータをフィッティングすることで予測変数の回帰係数を取得し、これらの係数を使用してヨットの上場価格を予測できます. 線形回帰モデルの式は次のとおりです。

ここで、$y_i$ は $i$ 番目のサンプルの応答変数 (つまり、定価) を表し、$x_{ij}$ は $i$ 番目のサンプルの $j$ 番目の予測変数 (長さ、地理的エリアなど) を表します。など) で、$\beta_j$ は $j$ 予測変数の回帰係数を表し、$\epsilon_i$ は誤差項を表します。既存のデータの長さ、地理的位置、年などの情報を予測変数として使用し、定価を応答変数として使用し、各予測変数の回帰係数を当てはめ、それらを上記の式に代入して予測値を得ることができます。定価。

多項式回帰は、独立変数 $X$ と応答変数 $Y$ の間の関係が次数 $n$ の多項式で記述できると仮定する線形回帰の拡張です。多項式回帰モデルの一般的な形式は次のとおりです。

このうち、$\beta_0、\beta_1、\beta_2、...、\beta_n$ は回帰係数、$\epsilon$ は誤差項です。

# 导入相关库
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
 
# 读取数据
df = pd.read_excel('2023_MCM_Problem_Y_Boats.xlsx', sheet_name='Monohull')
# 数据清洗
df.dropna(inplace=True)
df = df[df['Listing Price']>0]
# 特征提取
X = df[['Length (ft)', 'Year', 'Country/Region/State']]
X = pd.get_dummies(X)
y = df['Listing Price']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 模型训练
model = LinearRegression()
model.fit(X_train, y_train)
# 模型评估
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = model.score(X_test, y_test)
 
# 输出模型评估结果
print('MSE:', mse)
print('RMSE:', rmse)
print('R2 score:', r2)

具体的には、モデルの最適化のために、さらにいくつかのソリューションがあります。

より多くの特性を考慮する: タイトルに示されている列に加えて、ヨットの重量、年齢、機械の稼働時間、インテリア トリム、素材など、ヨットの価格に影響を与える他の特性がある場合があります。これらの機能を追加し、いくつかの機能選択方法を使用して、どの機能が最も関連性が高いかを判断できます。

欠損値の処理: データセットに欠損値が存在する可能性があり、補間法を使用して欠損値を埋めることができます。例えば、平均補間、中央値補間、K最近傍補間などを用いることができる。

外れ値の処理: いくつかの外れ値が存在する可能性があり、箱ひげ図検出、クラスターベースの外れ値検出などのいくつかの外れ値検出方法を使用して、これらの外れ値を識別して処理できます。

非線形関係の処理 非線形フィーチャ間には関係が存在する場合があり、多項式回帰、サポート ベクター マシン、ニューラル ネットワークなどの非線形モデリング手法を使用して、これらの非線形関係を取得できます。

地理的な場所を考慮する: 帆船の価格は地理的な場所の影響を受ける可能性があります.地理情報システム (GIS) 技術を使用して、帆船の場所と周辺環境の特性 (人口密度、周囲の数など) を組み込むことを検討してください。ポートなど) をモデルに追加します。

時系列モデルを使用する: 時系列モデルを使用して、時間の経過に伴うヨット価格の変化をモデル化することを検討できます。これには、時間の傾向、季節要因、休日の影響などが含まれる場合があります。

2023 年米国大会春季大会における Z 問題のすべてのアイデア + コード + モデル: https://mbd.pub/o/bread/ZJeUk5xu

 2023 年米国春季大会のすべてのアイデア + コード + 問題のモデル Y: https://mbd.pub/o/bread/ZJeUk5xv

 

おすすめ

転載: blog.csdn.net/ZHAIOJK/article/details/129888568
おすすめ