Pregunta Y del Concurso de primavera del Concurso de modelado digital de 2023: resumen e intercambio de ideas y programas (versión completa)

Pregunta Y de la competencia de primavera de la competencia de modelado matemático de 2023: resumen e intercambio de ideas y procedimientos

Cómo obtener recursos como programas utilizados, datos intermedios y resultados de análisis: https://mbd.pub/o/bread/ZJeUl59s

1: Descripción del problema y requisitos

Como muchos artículos de lujo, los veleros cambian de valor con la edad y las condiciones del mercado. El archivo adjunto "2023_MCM_Problem_Y_Boats.xlsx" contiene datos de aproximadamente 3500 veleros de entre 36 y 56 pies de eslora que se anunciaron para la venta en Europa, el Caribe y los Estados Unidos en diciembre de 2020. Un entusiasta de la navegación proporcionó estos datos a COMAP. Como la mayoría de los conjuntos de datos del mundo real, es posible que falten datos u otros problemas que requieran una limpieza de datos antes del análisis.

Los veleros a menudo se venden a través de intermediarios. Para comprender mejor el mercado de los veleros, un corredor de veleros de Hong Kong (SAR) encargó a su equipo que preparara un informe sobre los precios de los veleros usados. Los corredores quieren que usted:

(1) Desarrolle un modelo matemático para explicar los precios listados para cada velero en la hoja de cálculo provista. Incluya cualquier predictor que encuentre útil. Puede utilizar otras fuentes para conocer otras características de un velero determinado (como manga, calado, desplazamiento, aparejo, área de vela, material del casco, horas del motor, capacidad para dormir, altura libre, electrónica, etc.), así como datos económicos por año y región. . Identifique y describa todas las fuentes de datos utilizadas. Incluye una discusión sobre la precisión de las estimaciones para el precio de cada modelo de velero.

(2) Use su modelo para tener en cuenta el impacto regional (si lo hay) en los precios de cotización. Discuta si hay algún efecto de área que sea consistente en todas las variantes de navegación. Aborde la importancia real y estadística de cualquier efecto regional observado.

(3) Discuta cómo su modelado de un área geográfica determinada podría funcionar en el mercado de Hong Kong (SAR). Seleccione un subconjunto informativo de veleros, dividido en monocascos y catamaranes, de la hoja de cálculo proporcionada. Encuentre datos de precios de cotización comparables para este subconjunto del mercado de Hong Kong (SAR). Simule el efecto regional, si lo hay, de Hong Kong (SAR) en el precio por velero para su subconjunto de veleros. ¿Los catamaranes y los monocascos tienen el mismo efecto?

(4) Identifique y discuta cualquier otra inferencia o conclusión interesante e informativa que su equipo extraiga de los datos.

(5) Preparar un informe de una o dos páginas para corredores de navegación de Hong Kong (SAR). Incluya algunos gráficos bien elegidos para ayudar al corredor a comprender sus conclusiones.

2: Ideas para resolver problemas y resultados del análisis (versión detallada)

para la pregunta 1

Idea: Este problema es principalmente un problema de predicción del modelo de regresión para predecir precios. Y hay muchos tipos de algoritmos de predicción que se pueden usar, como: análisis de regresión múltiple, regresión de Lasso, regresión de árbol de decisión, regresión de bosque aleatorio, regresión de GBDT y modelos que admiten la regresión de gratitud de aprendizaje. Sin embargo, al usar estos modelos y combinar las características de los datos para el análisis, también se requieren muchas operaciones de preprocesamiento y transformación en los datos originales para extraer características más útiles a fin de establecer un modelo de predicción de regresión más preciso. La precisión predictiva se puede mejorar si se pueden recopilar conjuntos de datos más relevantes.

Por lo tanto, la solución a este problema debería ser: limpieza de datos --> análisis exploratorio de visualización de datos --> ingeniería de características de datos (filtrado y transformación) --> establecimiento de un modelo de análisis de regresión --> análisis de los resultados.

Después de mi exploración y análisis relacionados del conjunto de datos, se concluye que el efecto de predicción del uso del modelo de predicción de regresión de bosque aleatorio es más preciso. El efecto de predicción del conjunto de datos relevante es el siguiente:

veleros monocascos precio previsión rendimiento

rendimiento de predicción de precios de catamaranes

para la pregunta 2

Esta pregunta es principalmente para combinar los resultados del análisis de la pregunta 1 para un análisis más detallado. Analice la relación entre algunas variables categóricas (como región, fabricante, año, etc.) y el precio. Se puede utilizar la combinación de análisis cuantitativo y análisis visual, los principales métodos a los que se puede hacer referencia son: análisis de varianza, prueba de chi-cuadrado, etc. Después de mi exploración y análisis de los datos, algunos resultados de referencia son los siguientes:

Múltiples resultados de pruebas por región y precio

Distribución de precios en diferentes regiones

para la pregunta 3

Este problema pertenece a un problema de comparar la similitud de los datos y luego construir un modelo de regresión para la predicción. Por ejemplo: según los datos del PIB recopilados, encuentre áreas similares al PIB de Hong Kong, luego busque un subconjunto de datos según el área y luego modele y analícese como un modelo de referencia para el precio de venta de Hong Kong. Si hay muchas muestras de datos, el análisis de conglomerados se puede utilizar para dividir los subconjuntos encontrados en subconjuntos más finos y realizar una agrupación y un análisis detallados de los datos. Debido a que aún es necesario establecer un modelo de predicción de precios al final, puede probar algunos algoritmos de modelos de regresión para predecir los datos y luego usarlos como el resultado de la predicción para Hong Kong. Después de la verdad y el análisis de algunos datos, algunos ejemplos de resultados de referencia son los siguientes:

Análisis de similitud de tendencias de datos económicos

El gráfico de efecto de comparación del valor predicho y el valor real del modelo de precios

para la pregunta 4

Discuta cualquier otra inferencia o conclusión interesante e informativa que su equipo extraiga de los datos. Este problema es un problema abierto y se pueden realizar algunos análisis de visualización de datos para facilitar el descubrimiento de relaciones de datos. Y se puede combinar con los resultados anteriores para el análisis. Los siguientes son algunos patrones de datos reales encontrados:

La correlación entre el PIB y los niveles de precios en diferentes regiones

La relación entre longitud y precio en diferentes regiones

Resumir

Algunos de los análisis anteriores son mi propia experiencia usando Python para analizar los datos paso a paso para su referencia. El modelado matemático en sí mismo es un problema abierto, y aquí hay solo una introducción.

Cómo obtener recursos como programas utilizados, datos intermedios y resultados de análisis: https://mbd.pub/o/bread/ZJeUl59s

Bienvenido a prestar atención a nuestra cuenta pública de WeChat: estación de análisis de big data de Adam, obtenga más contenido

Eso es todo por el intercambio de hoy, ¡así que estén atentos para el próximo!

Finalmente, todos son bienvenidos a compartir y reenviar, ¡sus Me gusta son mi aliento y afirmación!

Supongo que te gusta

Origin blog.csdn.net/daitulin/article/details/129899194
Recomendado
Clasificación