2023 Meisai Spring Competition의 YZ 질문에 대한 모든 아이디어 + 코드 + 모델 Y 질문의 경우 선형 SVM, 최적화된 하이퍼파라미터가 있는 SVM, 최적화된 의사 결정 트리, 앙상블 학습 부스팅 트리 및 최적화된 앙상블 학습 모델을 선택하고 코드 및 결과를 완성합니다. 42페이지 아이디어 코드 결과 분석 문서 포함

2023년 메이사이가 한창입니다! 이번엔 플레이오프다! 모두 어서!

2023美赛春季赛Z题全部思路+代码+模型:https://mbd.pub/o/bread/ZJeUk5xu

가장 완벽한 데이터 패키지 + 실행 가능한 코드 + 모델 구축 + 2023 Meisai Spring Competition Y 질문에서 아이디어 통합의 43페이지 PDF 전체 버전:

 2023美赛春季赛Y题全部思路+代码+模型:https://mbd.pub/o/bread/ZJeUk5xv

제공된 "2023_MCM_Problem_Y_Boats.xlsx" 파일에 따르면 길이, 지역 및 제조 연도가 다른 약 3,500척의 범선에 대한 정보가 포함되어 있으며, 모노헐 범선과 카타마란 범선에 대한 두 개의 테이블로 나뉩니다. 이 데이터를 사용하여 각 범선의 정가를 설명하고 유용한 예측 변수를 포함하는 수학적 모델을 개발할 수 있습니다. 추가 데이터는 원하는 대로 보완될 수 있지만 "2023_MCM_Problem_Y_Boats.xlsx" 파일에 포함되어야 하며 사용된 보충 데이터의 출처는 완전히 식별되고 문서화되어야 합니다.

 

상장 가격을 설명하는 수학적 모델을 개발하기 위해서는 범선의 가격에 어떤 요인이 영향을 미치는지 고려해야 합니다. 다음은 유용할 수 있는 몇 가지 예측 변수입니다.

제조 연도: 오래된 범선은 일반적으로 더 빨리 마모되고 더 많은 유지 관리가 필요하기 때문에 범선이 건조된 연도는 그 가치에 영향을 미칠 수 있습니다.

길이: 범선의 길이도 중요한 예측 변수가 될 수 있습니다. 일반적으로 길이가 긴 범선은 더 비싼 경향이 있습니다.

지리적 지역: 일부 지역은 범선 시장이 더 활발하고 가격이 더 높기 때문에 지리적 지역도 범선 가격에 영향을 미칠 수 있습니다.

제조업체 및 모델: 범선의 제조업체 및 모델도 가격에 영향을 미칠 수 있습니다. 특정 브랜드의 범선이 다른 범선보다 인기가 높아 더 비쌀 수 있기 때문입니다.

선체 재질: 일부 재질은 내구성이 더 높거나 더 비쌀 수 있으므로 다양한 선체 재질이 범선 가격에 영향을 미칠 수 있습니다.

엔진 수명: 덜 사용된 엔진이 더 가치가 있을 수 있으므로 엔진 수명도 범선 가격에 영향을 미칠 수 있습니다.

전자 제품: 특정 장비가 범선의 가치를 높일 수 있으므로 전자 제품도 유용한 예측 변수가 될 수 있습니다.

기타 요인: 객실 수, 환기, 수처리 및 전력 시스템 등과 같은 기타 요인도 범선 가격에 영향을 미칠 수 있습니다.

이러한 예측 변수를 사용하여 각 범선의 정가를 설명하는 다중 선형 회귀 모델을 개발할 수 있습니다. 누락된 데이터의 경우 보간법을 사용하여 채울 수 있습니다.

최종 모델은 각 요트의 리스팅 가격에 대한 예측을 제공할 수 있으며, 정확도는 모델 적합도의 정확도와 데이터 품질에 영향을 받을 수 있습니다.

위의 요소를 기반으로 범선 가격을 설명하는 다중 선형 회귀 모델을 구축할 수 있습니다. 모델은 다음 형식을 취할 수 있습니다.

Price = β0 + β1Length + β2Material + β3Displacement + β4Tonnage + β5Propulsion + β6Structure + β7Equipment + β8Region + β9Year + β10Market Conditions + ε

이중 Price는 선박의 가격을 나타내는 종속변수이고, Length, Material, Displacement, Tonnage, Propulsion, Structure, Equipment는 선박의 특성을 나타내는 독립변수, Region은 지리적 위치를 나타내는 더미변수이다. 선박의 위치, 연도는 선박의 제작 연도를 의미 시장 상황은 시장 상황을 나타내며 지표 변수가 될 수 있음 β0, β1, β2, β3, β4, β5, β6, β7, β8, β9, β10 는 회귀 계수이고 ε는 오차 항입니다.

리스팅 가격을 예측하기 위한 수학적 모델을 구축하기 위해 선형 회귀 모델을 사용할 수 있습니다. 선형회귀모델은 예측변수와 반응변수가 선형관계에 있다고 가정하고 기존 데이터를 피팅하여 예측변수의 회귀계수를 구할 수 있으며, 이 계수를 이용하여 범선의 정가를 예측할 수 있다. 선형 회귀 모델의 공식은 다음과 같습니다.

여기서 $y_i$는 $i$번째 샘플의 응답 변수(예: 정가)를 나타내고 $x_{ij}$는 $i$번째 샘플의 $j$번째 예측 변수(예: 길이, 지리적 영역)를 나타냅니다. 등) $\beta_j$는 $j$ 예측변수의 회귀계수를 나타내고 $\epsilon_i$는 오차항을 나타낸다. 기존 데이터의 길이, 지리적 위치, 연도 등의 정보를 예측변수로 사용하고, 정가를 응답변수로 사용하고, 각 예측변수의 회귀계수를 피팅하여 위의 공식에 대입하여 예측변수를 얻을 수 있습니다. 정가.

다항식 회귀는 독립 변수 $X$와 응답 변수 $Y$ 사이의 관계가 다항식 $n$로 설명될 수 있다고 가정하는 선형 회귀의 확장입니다. 다항식 회귀 모델의 일반적인 형식은 다음과 같습니다.

그 중 $\beta_0, \beta_1, \beta_2, ..., \beta_n$은 회귀계수이고 $\epsilon$은 오차항이다.

# 导入相关库
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
 
# 读取数据
df = pd.read_excel('2023_MCM_Problem_Y_Boats.xlsx', sheet_name='Monohull')
# 数据清洗
df.dropna(inplace=True)
df = df[df['Listing Price']>0]
# 特征提取
X = df[['Length (ft)', 'Year', 'Country/Region/State']]
X = pd.get_dummies(X)
y = df['Listing Price']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 模型训练
model = LinearRegression()
model.fit(X_train, y_train)
# 模型评估
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = model.score(X_test, y_test)
 
# 输出模型评估结果
print('MSE:', mse)
print('RMSE:', rmse)
print('R2 score:', r2)

특히 모델 최적화를 위해 몇 가지 추가 솔루션이 있습니다.

더 많은 특성 고려: 제목에 제공된 열 외에도 범선의 무게, 연령, 기계 시간, 인테리어 트림, 재료 등과 같이 범선 가격에 영향을 미치는 다른 특성이 있을 수 있습니다. 이러한 기능을 추가하고 몇 가지 기능 선택 방법을 사용하여 가장 관련성이 높은 기능을 결정할 수 있습니다.

누락된 값 처리: 데이터 세트에 누락된 값이 있을 수 있으며 보간 방법을 사용하여 누락된 값을 채울 수 있습니다. 예를 들어 평균 보간법, 중앙값 보간법, K-최근접 이웃 보간법 등을 사용할 수 있다.

이상값 처리: 일부 이상값이 있을 수 있으며 박스플롯 감지, 클러스터 기반 이상값 감지 등과 같은 일부 이상값 감지 방법을 사용하여 이러한 이상값을 식별하고 처리할 수 있습니다.

비선형 관계 다루기 비선형 피처 간에 관계가 있을 수 있으며 다항식 회귀, 지원 벡터 머신, 신경망 등과 같은 일부 비선형 모델링 방법을 사용하여 이러한 비선형 관계를 캡처할 수 있습니다.

지리적 위치 고려: 범선 가격은 지리적 위치에 영향을 받을 수 있습니다 범선의 위치와 주변 환경의 특성(인구 밀도, 주변 인구 수 등)을 통합하기 위해 지리 정보 시스템(GIS) 기술 사용을 고려하십시오 포트 등)을 모델에 추가합니다.

시계열 모델 사용: 시계열 모델을 사용하여 시간 추세, 계절 요인, 휴일 효과 등을 포함할 수 있는 시간 경과에 따른 범선 가격의 변화를 모델링하는 것을 고려할 수 있습니다.

2023년 미국 봄 대회 Z 질문에 대한 모든 아이디어 + 코드 + 모델: https://mbd.pub/o/bread/ZJeUk5xu

 2023 US Spring Competition의 질문 Y에 대한 모든 아이디어 + 코드 + 모델: https://mbd.pub/o/bread/ZJeUk5xv

 

추천

출처blog.csdn.net/ZHAIOJK/article/details/129888568