Questão Y do Concurso de Primavera do Concurso de Modelagem Digital de 2023—Resumo e compartilhamento de ideias e programas (versão completa)

Questão Y da Competição de Modelagem Matemática de 2023 - Resumo e Compartilhamento de Ideias e Procedimentos

Como obter recursos como programas utilizados, dados intermediários e resultados de análises: https://mbd.pub/o/bread/ZJeUl59s

1: Descrição do problema e requisitos

Como muitos itens de luxo, os veleiros mudam de valor com a idade e as condições do mercado. O arquivo "2023_MCM_Problem_Y_Boats.xlsx" em anexo contém dados de aproximadamente 3.500 veleiros entre 36 e 56 pés de comprimento que foram anunciados para venda na Europa, Caribe e Estados Unidos em dezembro de 2020. Um entusiasta da navegação forneceu esses dados à COMAP. Como a maioria dos conjuntos de dados do mundo real, pode haver dados ausentes ou outros problemas que exijam alguma limpeza de dados antes da análise.

Os veleiros são frequentemente vendidos através de corretores. Para entender melhor o mercado de veleiros, um corretor de veleiros de Hong Kong (SAR) contratou sua equipe para preparar um relatório sobre a precificação de veleiros usados. Os corretores querem que você:

(1) Desenvolva um modelo matemático para explicar os preços listados para cada veleiro na planilha fornecida. Inclua quaisquer preditores que achar úteis. Você pode utilizar outras fontes para outras características de um determinado veleiro (como boca, calado, deslocamento, cordame, área da vela, material do casco, horas do motor, capacidade de dormir, altura livre, eletrônica, etc.), bem como dados econômicos por ano e região . Identifique e descreva todas as fontes de dados usadas. Inclui uma discussão sobre a precisão das estimativas para o preço de cada modelo de veleiro.

(2) Use seu modelo para contabilizar o impacto regional (se houver) nos preços de listagem. Discuta se há algum efeito de área consistente em todas as variantes de navegação. Abordar a significância real e estatística de quaisquer efeitos regionais observados.

(3) Discuta como sua modelagem de uma determinada área geográfica pode funcionar no mercado de Hong Kong (SAR). Selecione um subconjunto informativo de veleiros, divididos em monocascos e catamarãs, da planilha fornecida. Encontre dados de preços de listagem comparáveis ​​para este subconjunto do mercado de Hong Kong (SAR). Simule o efeito regional, se houver, de Hong Kong (SAR) no preço por veleiro para seu subconjunto de veleiros. Os catamarãs e os monocascos têm o mesmo efeito?

(4) Identifique e discuta quaisquer outras inferências ou conclusões interessantes e informativas que sua equipe extraia dos dados.

(5) Prepare um relatório de uma a duas páginas para corretores de navegação de Hong Kong (SAR). Inclua alguns gráficos bem escolhidos para ajudar o corretor a entender suas conclusões.

2: Ideias para resolução de problemas e resultados da análise (versão detalhada)

Para a pergunta 1

Ideia: Este problema é principalmente um problema de previsão de modelo de regressão para prever preços. E há muitos tipos de algoritmos de previsão que podem ser usados, como: análise de regressão múltipla, regressão Lasso, regressão de árvore de decisão, regressão de floresta aleatória, regressão GBDT e modelos que oferecem suporte à regressão de gratidão de aprendizado. No entanto, ao usar esses modelos e combinar as características dos dados para análise, também requer muitas operações de pré-processamento e transformação nos dados originais para extrair recursos mais úteis para estabelecer um modelo de previsão de regressão mais preciso. A precisão preditiva pode ser aprimorada se conjuntos de dados mais relevantes puderem ser coletados.

Portanto, a solução para esse problema deve ser: limpeza de dados --> análise exploratória da visualização de dados --> engenharia de recursos de dados (triagem e transformação) --> estabelecimento de um modelo de análise de regressão --> análise dos resultados.

Após minha exploração e análise relacionadas do conjunto de dados, conclui-se que o efeito de previsão do uso do modelo de previsão de regressão de floresta aleatória é mais preciso. O efeito de previsão do conjunto de dados relevante é o seguinte:

desempenho de previsão de preços de veleiros monocascos

desempenho de previsão de preços de catamarãs

Para a pergunta 2

Esta questão é principalmente para combinar os resultados da análise da questão 1 para análise posterior. Analise a relação entre algumas variáveis ​​categóricas (como região, fabricante, ano, etc.) e preço. A combinação de análise quantitativa e análise visual pode ser usada. Os principais métodos que podem ser referidos são: análise de variância, teste qui-quadrado, etc. Após minha exploração e análise dos dados, alguns resultados de referência são os seguintes:

Vários resultados de teste para região e preço

Distribuição de preços em diferentes regiões

Para a pergunta 3

Este problema pertence a um problema de comparação de similaridade de dados e, em seguida, a construção de um modelo de regressão para previsão. Por exemplo: com base nos dados do PIB coletados, encontre áreas semelhantes ao PIB de Hong Kong, encontre um subconjunto de dados de acordo com a área e, em seguida, modele e analise a si mesmo como um modelo de referência para o preço de venda de Hong Kong. Se houver muitas amostras de dados, a análise de cluster pode ser usada para dividir os subconjuntos encontrados em subconjuntos mais finos e realizar agrupamento e análise detalhados dos dados. Como ainda é necessário estabelecer um modelo de previsão de preço no final, você pode tentar alguns algoritmos de modelo de regressão para prever os dados e usá-los como resultado da previsão para Hong Kong. Depois de algumas das minhas verdades e análises de dados, alguns exemplos de resultados de referência são os seguintes:

Análise de Similaridade de Tendências de Dados Econômicos

O gráfico de efeito de comparação do valor previsto e o valor real do modelo de precificação

Para a pergunta 4

Discuta quaisquer outras inferências ou conclusões interessantes e informativas que sua equipe extraia dos dados. Este problema é um problema em aberto e algumas análises de visualização de dados podem ser realizadas para facilitar a descoberta de relacionamentos de dados. E pode ser combinado com os resultados anteriores para análise. A seguir estão alguns padrões de dados reais encontrados:

A correlação entre o PIB e os níveis de preços em diferentes regiões

A relação entre comprimento e preço em diferentes regiões

Resumir

Algumas das análises anteriores são minha própria experiência usando Python para analisar os dados passo a passo para sua referência. A modelagem matemática em si é um problema em aberto, e aqui está apenas uma introdução.

Como obter recursos como programas utilizados, dados intermediários e resultados de análises: https://mbd.pub/o/bread/ZJeUl59s

Bem-vindo a prestar atenção à nossa conta pública do WeChat: estação de análise de big data Adam, obtenha mais conteúdo

Isso é tudo para o compartilhamento de hoje, então fique ligado para o próximo!

Por fim, todos são bem-vindos para compartilhar e encaminhar, suas curtidas são meu encorajamento e afirmação!

Acho que você gosta

Origin blog.csdn.net/daitulin/article/details/129899194
Recomendado
Clasificación