Modelo de Regressão de Tecnologia de Aplicação de Alta Frequência em Manufatura Inteligente

prefácio

Quando introduzirmos tecnologias como métodos baseados em dados e inteligência artificial nos campos industrial e de manufatura, descobriremos que uma diferença importante entre esses cenários de aplicação e os cenários de aplicação geral é a ênfase nos modelos de regressão. Em cenários gerais de aplicação de IA e cenários de análise de dados comerciais, prestamos mais atenção aos modelos de classificação e agrupamento: esses modelos formam julgamentos qualitativos sobre os objetivos que queremos reconhecer, como julgar se o estado atual do mercado está crescendo ou identificar visualmente se um pessoa tem acesso à porta e assim por diante. Cenários industriais geralmente têm requisitos mais elevados.

Muitos cenários de aplicação industrial exigem que formemos julgamentos quantitativos sobre alvos de observação. Esses cenários de aplicação aparecem em todo o ciclo de vida de P&D, fabricação, operação e manutenção de produtos industriais. Isso nos obriga a usar modelos de regressão mais quantificáveis ​​em cenários industriais. Ao construir um modelo de regressão, podemos resumir e compreender as leis que existem em cada estágio do ciclo de vida do produto industrial. Então, com base nisso, pode-se obter redução de custos e aumento da eficiência, melhoria da qualidade, prevenção de problemas e até mesmo controle em tempo real. Vamos escolher um exemplo de cada fase para ilustrar esses cenários:

  1. Ao projetar um produto, diferentes seleções de parâmetros de projeto resultarão em diferentes desempenhos do produto. Em teoria, a relação entre os parâmetros de projeto e o desempenho pode ser obtida por meio de vários cálculos de simulação e, com base nisso, os parâmetros de projeto ideais podem ser obtidos usando métodos de programação matemática (otimização). No entanto, no trabalho real, é necessário muito tempo e recursos de hardware para realizar cada simulação, o que dificulta o avanço do projeto de otimização. Para isso, é necessário introduzir o chamado modelo proxy. O modelo proxy é baseado em vários resultados de simulação e simula um processo de simulação com uma quantidade relativamente pequena de cálculo, reduzindo assim muito a chamada do processo de simulação real no projeto de otimização. O modelo proxy aqui é um modelo de regressão baseado nos dados de vários resultados de cálculos de simulação.

  2. A linha de produção da indústria de transformação possui um grande número de parâmetros industriais e fatores influenciadores, que afetam o rendimento dos produtos acabados. Então, na condição de perceber os valores desses parâmetros e fatores de influência, esperamos estabelecer alguma relação funcional aproximada entre esses elementos e a taxa de rendimento dos produtos acabados, o que nos obriga a estabelecer uma regressão entre os dados de percepção e os taxa de rendimento dos produtos Modelo.

  3. Para produtos industriais complexos e caros, como instalações de energia nuclear, aeroespacial, aviação, produtos marítimos e linhas de produção de manufatura avançada, usar a tecnologia de gêmeos digitais para monitorar seu status operacional em tempo real e, com base nisso, estimar os possíveis riscos operacionais dos produtos é um importante desenvolvimento e construção na direção atual. Essa tecnologia requer um cálculo rápido do estado do sistema geral e as mudanças de estado do sistema no próximo período de tempo após a obtenção dos dados de percepção da realidade. Devido à alta natureza em tempo real do gêmeo digital, muitas vezes não é viável usar um modelo de mecanismo complexo para resolver esse estado. Neste momento, é necessário que o sistema de gêmeo digital contenha uma representação aproximada da relação do mecanismo do sistema . Essa representação combina o relacionamento do mecanismo do sistema com as informações do estado real do sistema para formar um modelo de aproximação do sistema com baixa complexidade computacional, boa robustez e alta precisão. A solução deste modelo aproximado pertence principalmente à construção do modelo de regressão.

Esses exemplos demonstram a generalidade da construção do modelo de regressão em vários estágios da manufatura inteligente. O grande número de aplicações de tais modelos de regressão é uma característica importante do uso da tecnologia de inteligência artificial no campo industrial. Embora muitos artigos tenham introduzido o modelo de regressão, eles geralmente se concentram na introdução de algoritmos específicos e na falta de indução sistemática.

Por esse motivo, escrevemos este artigo especialmente para resolver as questões técnicas relevantes do modelo de regressão, a fim de ajudar os profissionais relevantes a entender a estrutura técnica geral do modelo de regressão. A parte seguinte deste artigo discute o seguinte: Primeiro, introduzimos o conceito de regressão, incluindo sua diferença e conexão com "ajuste"; em segundo lugar, apresentamos uma série de métodos clássicos de regressão a partir do método dos mínimos quadrados e introduzimos o cálculo comum e avaliação de métodos de modelos de regressão; finalmente, resumimos todos os métodos e fornecemos suas comparações de recursos para que os profissionais de inteligência industrial reais selecionem modelos de acordo com suas necessidades.

Definição de regressão

Em estatística, a análise de regressão refere-se a um método de análise estatística para determinar a relação quantitativa entre duas ou mais variáveis. -Enciclopédia Baidu

O termo "regressão" foi proposto pela primeira vez por Galton, um famoso biólogo e estatístico britânico, primo de Darwin (que propôs a teoria da evolução). Ele descobriu que pais cuja altura é significativamente maior que a média, seus filhos geralmente serão menores que seus pais; por outro lado, pais cuja altura é significativamente menor que a média têm antecedentes estatisticamente mais altos que seus pais. Ele descreveu essa lei como a tendência da altura dos descendentes humanos de "retornar" ao valor médio, usando assim a palavra "regressão". O que é digno de nota nessa anedota é que o conceito de "regressão" veio primeiro do campo da estatística. Pode-se dizer que, em certo sentido, a regressão é buscar a relação quantitativa entre as variáveis ​​que melhor se conforma a uma determinada probabilidade estatística. Principalmente resolver os seguintes problemas:

  1. Determine se existe uma correlação entre várias variáveis ​​específicas e, em caso afirmativo, descubra a expressão matemática apropriada entre elas.
  2. De acordo com o valor de uma ou várias variáveis, preveja ou controle o valor de outra variável e saiba que tipo de precisão essa previsão ou controle pode alcançar.

Um conceito matemático muito próximo do conceito de regressão é o "ajuste de curva". Como os métodos de computação reais cobertos por esses dois conceitos se sobrepõem muito, em muitos casos não os distinguimos e os tratamos como a mesma coisa. Isso é bom na maioria dos casos, exceto no seguinte:

  1. A análise de regressão não requer modelo a priori, podendo escolher diferentes métodos de representação de acordo com as características dos dados ou diferentes objetivos de otimização. O ajuste de curva geralmente tem um modelo a priori, portanto, a principal tarefa do ajuste é determinar parâmetros razoáveis ​​para seu modelo, que também é o significado da palavra ajuste.
  2. A análise de regressão é baseada em estatísticas, portanto, além de obter a relação entre os dados, geralmente é necessário estimar as características estatísticas dessa relação, como as características estatísticas dos resíduos aleatórios existentes entre os dados, além de determinar a relação. A tarefa de ajuste de curva geralmente é apenas calcular parâmetros razoáveis ​​de modo que seu desvio seja minimizado.
  3. Para alguns problemas em que não existe tal curva para desenhar, a terminologia para tais casos tende a usar regressão em vez de ajuste de curva, como calcular os autovalores de uma distribuição estatística a partir de dados amostrados.

Muitas formas de modelos de regressão

Os modelos de regressão podem ser expressos de várias formas, e formas diferentes geralmente têm funções, desempenho e métodos de solução diferentes.

Em geral, podemos dividir os modelos de regressão em três categorias:

  1. modelo analítico
  2. modelo não paramétrico
  3. Redes neurais

Cada um desses modelos pode, obviamente, ser dividido em muitas subcategorias. Abaixo, apresentamos um por um.

Modelos analíticos (modelos paramétricos)

Obviamente, os modelos analíticos referem-se aos modelos que podem ser representados por expressões matemáticas. Esse tipo de modelo é a primeira forma em que pensamos quando falamos em "regressão". Os alunos são mais expostos a ele nas aulas e os estudiosos mais desejam construí-lo na pesquisa. É a forma de expressão mais concisa e convincente da ciência leis.

No entanto, não há tantos problemas que os modelos analíticos possam resolver na vida real. Imagine como uma expressão analítica pode ser usada para representar uma colcha
ou um rosto. Talvez por uma questão de simplicidade, uma colcha de retalhos seja simplificada em um plano ou, mais complicado, em uma variedade bidimensional; mas pode ser difícil para a maioria das pessoas simplificar um rosto em uma esfera.

Apesar de tais limitações, ainda é comum e eficaz o uso de modelos analíticos para resolver problemas de regressão na área industrial. Isso ocorre porque o modelo analítico possui três características altamente valorizadas no campo industrial em comparação com outros modelos de regressão. Com a bênção dessas características, é muito adequado usar o modelo analítico em cenários de aplicação relativamente simples:

  1. Os modelos analíticos requerem menos volume de dados.
  2. O modelo analítico incorpora a cognição prévia da lei dos dados até certo ponto.
  3. Depois que os parâmetros do modelo analítico são determinados, usar o modelo para resolver novas entradas é muito rápido.

Os modelos analíticos podem ser divididos em dois tipos:

  1. A forma da soma das funções paramétricas lineares
  2. outro

O primeiro tipo de modelo analítico é composto pela soma de funções de muitas variáveis ​​independentes, sendo que cada item da soma possui apenas uma função de ponderação linear; outros modelos referem-se a modelos que não possuem tais características, como a regressão exponencial, e o seguinte Para este modelo de função de Lorenz, se sabemos exatamente que a relação entre as variáveis ​​observadas está de acordo com esta lei, precisamos resolver a curva de função dos dois parâmetros na fórmula (1) e o erro gaussiano com base nos dados amostrados
insira a descrição da imagem aqui
. a forma dos dados amostrados é assim sob certos parâmetros.

insira a descrição da imagem aqui
— As seguintes fórmulas matemáticas não precisam ser lidas com atenção, apenas queremos ilustrar a complexidade deste trabalho.

Resolver os parâmetros de tal função não é muito fácil e nos lembra termos como o método de Newton, o método downhill de Newton ou o método do gradiente descendente. Aqui, tomamos o método de gradiente descendente como exemplo. A descida do gradiente também é comumente conhecida como descida mais íngreme. Para usar o método de gradiente descendente para encontrar o mínimo local de uma função, é necessário pesquisar iterativamente o ponto de distância do passo especificado na direção oposta do gradiente (ou gradiente aproximado) correspondente ao ponto atual na função. Em problemas de regressão, as variáveis ​​independentes desta função são os coeficientes. Método de descida do gradiente, que calcula iterativamente os coeficientes necessários. Suas etapas específicas incluem:

A diferença entre os resultados calculados da função de Lorentz e os resultados medidos é expressa como uma função de perda na forma de MSE. Conforme mostrado na Equação 2:
insira a descrição da imagem aqui
quando o valor do coeficiente indeterminado está correto, o valor mínimo da função de perda acima é 0. Neste momento, a derivada parcial da função de perda em relação a cada coeficiente é zero. Portanto, é necessário calcular a derivada parcial da função perda em relação a cada coeficiente, então a forma da derivada parcial de cada parâmetro precisa ser escrita da seguinte forma: Com
insira a descrição da imagem aqui
base nisso, inicialize primeiro os parâmetros a serem solicitados, como como atribuir todos os valores a 1 e, em seguida, definir o tamanho da etapa de cálculo da descida do gradiente, como a configuração é 0,01. Em seguida, use as fórmulas 3, 4 e 5 acima para calcular iterativamente o gradiente e ajuste o valor inicial com o tamanho do passo especificado para fazer com que os parâmetros se aproximem gradualmente do valor razoável. Sob as configurações acima, a iteração de 50 passos das três trajetórias de mudança de parâmetro se parece com o seguinte.
insira a descrição da imagem aqui
Neste exemplo, o parâmetro é iterado corretamente para próximo do valor teórico (array([2.99990868,2.00008539, 3.9999999] ) ), mas este método é realmente muito frágil. Em primeiro lugar, tal forma composta é muito difícil de definir em problemas práticos, e mesmo com tal forma, se um valor inicial e tamanho de etapa inadequados, bem como um método de cálculo inadequado forem usados ​​na solução, é difícil obter um estável do resultado. Os amigos interessados ​​podem tentar alterar o valor inicial e o tamanho do passo com base na fórmula acima, e é fácil ver os resultados divergentes.

Portanto, na indústria, o primeiro modelo é mais utilizado em aplicações, pois o primeiro modelo possui duas características importantes:

  1. Pode caber um grande número de funções (contínuas) em um determinado intervalo de valores (ou em uma determinada vizinhança).
  2. Este modelo é fácil de resolver.

Deixe-me explicar o primeiro recurso primeiro. Olhando para a expansão de Taylor em matemática avançada, devemos ser capazes de entender as propriedades de tais polinômios. Isso também nos ajuda a determinar os termos do modelo usado para ajustar os dados: termos com potências menores devem ser preferidos e termos de ordem superior devem ser adicionados de forma adaptativa. Como a expansão de Taylor, os termos com potências maiores provavelmente terão coeficientes menores. E no caso geral, se obtivermos o contrário, é hora de ver se algo deu errado sem mais conhecimento prévio.

Em seguida, discuta o segundo recurso, para polinômios, em geral, o método de solução mais comumente usado é o método dos mínimos quadrados. A teoria estatística pode provar que o método dos mínimos quadrados realiza a estimativa de máxima verossimilhança na amostra dada e na forma de mapeamento. Ao minimizar formalmente a soma dos quadrados do erro, o resultado é que o erro de dados é minimizado e a solução também é muito conveniente. Foi originalmente usado para estimar equações lineares multivariadas sem soluções exatas, mas na verdade, desde que cada item do polinômio tenha apenas um parâmetro de multiplicação, essa forma é linear para os parâmetros a serem buscados, então o método dos mínimos quadrados também pode ser usado Estimar valores ótimos para esses parâmetros.

Vale ressaltar que quando o método dos mínimos quadrados é realmente usado para resolver coeficientes polinomiais, porque o cálculo da inversão de uma matriz enorme com um tamanho de amostra é muito caro, geralmente não é usado para resolvê-lo na forma de matriz, mas para obter a solução por meio da decomposição SVD da matriz.

A forma de soma de funções de parâmetros lineares pode resolver grande parte dos problemas de regressão no campo industrial. No entanto, muitas vezes existem requisitos específicos em alguns cenários de aplicação específicos, e esses requisitos podem ser refletidos em vários estágios do modelo analítico, desde a modelagem até a solução. por exemplo:

  1. Relações prévias incertas: os dados encontrados em cenários industriais reais geralmente têm muitas variáveis, e a modelagem com essas variáveis ​​produz um número considerável de termos nessa forma de modelo. De fato, se apenas o termo quadrático for considerado, haverá Cn2 + n termos para n variáveis. Por exemplo, n = 10, o que não é incomum em um cenário industrial, e se polinômios quadráticos racionais fossem escolhidos para modelar essas variáveis, haveria 55 termos quadráticos. Sabemos que muitos desses termos quadráticos são de fato desnecessários, mas muitas vezes não sabemos quais deveriam ser. Essa situação geral nos faz esperar que, dada uma forma geral anterior, uma forma relativamente específica e relativamente precisa que não contenha itens redundantes possa ser obtida por meio de modelagem de regressão.

Essa expectativa é expressa de forma matemática, que pode ser refletida na definição da função de perda do modelo (adicionando um termo de regularização), ou pode ser refletida apenas no processo de solução. Ao adicionar diferentes requisitos e resolvê-los, podemos obter modelos analíticos com valores de parâmetros muito diferentes. Em alguns dos modelos analíticos regularizados, os parâmetros de um grande número de termos de soma são definidos como zero, de modo que obtemos um modelo de expressão relativamente compacto. Por exemplo, a regressão de laço comum, a regressão de rede elástica e a regressão esparsa são todas manifestações desse conceito. Deve-se notar que, por um lado, diferentes definições dos termos de regularização expressam certo conhecimento prévio e, por outro lado, também mudarão o método de solução dos parâmetros, por exemplo, a regressão de laço usa o algoritmo de ângulo mínimo para solução. Esses métodos de solução têm diferentes vantagens e desvantagens, o que afetará a qualidade final da modelagem.

  1. A variável alvo é difícil de separar da variável independente: esta também é uma situação comum em cenários industriais. Por exemplo, o ensaio mecânico de falha bidimensional de um determinado material geralmente apresenta uma forma elíptica na imagem onde as duas tensões principais são os eixos horizontal e vertical. Esta situação contém duas situações em que a variável de destino e a variável independente são difíceis de separar. Por um lado, a relação entre as variáveis ​​de força nestas duas direções apresenta uma elipse, o que significa que a variável alvo e a variável independente constituem uma expressão de uma função implícita, pelo que é necessário considerar o modelo de regressão na forma de uma função implícita; por outro lado, em diferentes estados de tensão, por exemplo, quando duas direções estão sob tensão ou duas direções estão sob pressão ao mesmo tempo, a relação entre as duas variáveis ​​não é a mesma e o mesmo modelo de regressão não pode ser usado, então você encontrará o problema de construir um modelo de regressão com uma função por partes, que é diferente do mencionado anteriormente. A segmentação dos dados pelo modelo de função segmentar é clara a priori, e o principal problema está na continuidade do modelo de regressão entre os segmentos. Não existe uma estratégia de solução unificada para essas situações específicas que estão intimamente relacionadas ao negócio, e as soluções correspondentes devem ser dadas de acordo com o negócio real e as características matemáticas do modelo.

Modelos não paramétricos baseados em estatística

O modelo analítico é de fato um paradigma de regressão poderoso, mas também apresenta várias deficiências, como os três aspectos a seguir:

  1. Este método de modelagem é principalmente para ajuste de dados globais e muitas vezes é difícil lidar com dados especiais locais.
  2. Ao resolver um problema de regressão real, a forma analítica fornecida é equivalente a especificar uma forma anterior definida dos dados, que pode não corresponder à situação real. Por exemplo, para um modelo em forma polinomial, isso implica que a relação entre os dados é contínua ou mesmo diferenciável. No entanto, a situação real pode não atender a essa suposição.
  3. A conclusão da regressão dada pelo modelo analítico costuma ser certa, e muitas vezes falta a descrição das informações estatísticas que possam existir na relação entre as variáveis. Mesmo que uma função de densidade de probabilidade seja usada para construir as características estatísticas de um conjunto de dados de amostra, geralmente não é possível expressar o grau de concordância entre a função de densidade de probabilidade final e a distribuição de dados real.

Por esse motivo, muitos modelos de regressão não paramétricos baseados em estatísticas têm sido propostos para tentar resolver esses problemas. Os modelos de regressão não paramétricos também são chamados de modelos de regressão não paramétricos. Esse tipo de modelo não exige que o usuário forneça uma forma prévia muito específica da relação entre as variáveis, mas constrói um modelo baseado em leis gerais de distribuição de dados e dados amostrais. Muitos modelos de regressão inteligentes podem ser classificados em modelos não paramétricos, como regressão de preservação de ordem, regressão de árvore de decisão, etc. Duas estruturas de modelo representativas são regressão de processo gaussiano (GPR) e regressão polinomial local (LPR).


A Regressão do Processo Gaussiano (GPR) é um modelo não paramétrico que usa o Processo Gaussiano ( GP) a priori para realizar análises de regressão nos dados.

Gaussian Process (Gaussian Process, GP) é um tipo de processo estocástico em teoria da probabilidade e estatística matemática.É uma combinação de uma série de variáveis ​​aleatórias (variáveis ​​aleatórias) sujeitas a distribuição normal em um conjunto de índices (conjunto de índices).

A regressão do processo gaussiano foi proposta por dois estudiosos em 1996 com uma descrição sistemática e método de solução correspondente, mas suas variantes, ou como uma técnica prática em campos específicos, existem há mais de 50 anos. Quando os técnicos relacionados ao desenvolvimento de produtos industriais usam software de projeto de otimização, como o isight, para resolver o esquema de projeto ideal, eles encontrarão o problema de que os cálculos de simulação são muito caros e retardam o processo iterativo de otimização. Para resolver esse problema, eles costumam usar um modelo substituto chamado Kriging para substituir parcialmente os cálculos de simulação. Este método de krigagem é uma implementação do processo de regressão gaussiana em geoestatística.

Como este artigo é destinado a profissionais de manufatura inteligente industrial, o processo matemático da regressão do processo Gaussiano não é descrito em detalhes aqui, mas apenas as características desse algoritmo de regressão são apresentadas:

  1. A prévia implicada pela regressão do processo gaussiano é que a função a ser regredida é um processo gaussiano (multivariado).
  2. Na regressão do processo gaussiano, a correlação existente entre as variáveis ​​é definida por sua covariância. Geralmente, essa matriz de covariância é representada por uma função kernel de base radial, o que significa que a solução para dados desconhecidos fora do ponto amostral é determinada com base na distância entre os dados e cada ponto amostral, geralmente a informação fornecida pelo ponto amostral mais perto dele, maior o peso. Portanto, é um algoritmo semelhante à interpolação de pontos vizinhos.
  3. Com base na segunda característica, pode-se deduzir que o desempenho do modelo mais preciso vem da amostragem suficiente dos dados da amostra na faixa de valores.
  4. Com base na segunda característica, pode-se inferir que o modelo tem melhor desempenho de interpolação, mas o desempenho de extrapolação é difícil de garantir.
  5. No cálculo de ajuste real, é necessário usar a função kernel para calcular a matriz de co-correlação entre a variável a ser resolvida e a variável de amostra todas as vezes, portanto, o valor do cálculo é relativamente grande.

O método de regressão polinomial local pode ser conhecido pelo nome, ele usa diferentes polinômios para ajuste em diferentes áreas locais. O algoritmo espera dividir os dados apropriadamente para que a cobertura polinomial de cada área possa geralmente obter melhor precisão de ajuste. Depois que o modelo é construído, a complexidade do cálculo da previsão de cada região desse algoritmo é obviamente menor que a do algoritmo de regressão do processo gaussiano e sua precisão é melhor que a da regressão polinomial global. Parece que a regressão polinomial local é um compromisso relativamente bom, mas a solução do modelo desse método é relativamente complicada e seu desempenho é afetado por muitos parâmetros, portanto, existem certos requisitos para as habilidades dos modeladores. Mas esse método pode ser chamado diretamente chamando o Tempo AI da Merrill Data e outros produtos, usando seu nó de função polinomial local integrado.
insira a descrição da imagem aqui

Modelos de redes neurais para regressão

O desenvolvimento da inteligência artificial demonstrou o grande potencial das redes neurais. Portanto, além dos métodos tradicionais de modelagem de regressão, também é necessário considerar o uso de métodos de redes neurais para construir modelos de regressão. Uma das grandes vantagens dos modelos de redes neurais em relação aos métodos de regressão tradicionais é que eles têm recursos de ajuste muito flexíveis e, portanto, têm a capacidade de expressar relações intervariáveis ​​complexas. Mas, por outro lado, também existem algumas limitações na construção de modelos de redes neurais, como exigir um grande número de dados de amostra de treinamento e, por exemplo, o conhecimento prévio não possui um melhor mecanismo e estratégia de fusão de dados, exceto como um recurso adicional. item da função de custo. , e a complexidade computacional da rede neural geralmente é relativamente alta.

Com base nisso, o uso atual de redes neurais no campo da construção de modelos de regressão não é generalizado. A rede neural relativamente comum usada para a construção do modelo de regressão é o modelo de rede neural rbf, que usa um modelo de rede fixo de três camadas
com uma função de base radial (geralmente, uma função gaussiana) como função de ativação e o número de amostras como saída número de neurônios. Este modelo de rede neural é realmente muito diferente da rede neural BP comum atual e está mais próximo do princípio da regressão do processo gaussiano. De acordo com a pesquisa de J.-P. Costa et al., o desempenho da rede neural rbf é ligeiramente inferior à regressão do processo gaussiano em uso real.

Avaliação de Modelos de Regressão: Requisitos Matemáticos e de Negócios

A avaliação de modelos de regressão geralmente tem as seguintes orientações.

  1. Desempenho do modelo em dados de amostra

Se os dados da amostra não contiverem erros, é concebível que essa diferença seja a menor possível. O modelo de regressão geral descreve essa diferença usando o erro quadrático médio, que também usamos na equação (2) acima.

O erro médio quadrático (mean-square error, MSE) é uma medida que reflete o grau de diferença entre o estimador e a quantidade estimada. Seja t um estimador do parâmetro populacional θ determinado de acordo com a amostra, e a expectativa matemática de (θ-t)2 é chamada de erro quadrático médio do estimador t. É igual a σ2+b2, onde σ2 eb são a variância e viés de t, respectivamente.

Na verdade, esse critério de avaliação não é usado apenas para medir o desempenho do modelo, o MSE geralmente é o objetivo direto da otimização para resolver o modelo de regressão. Portanto, quando a forma básica do modelo é determinada, o resultado da solução é aquele que consegue obter o mínimo MSE entre as famílias de funções opcionais determinadas pela forma básica.

Se os dados da amostra contiverem erros, o MSE geralmente não é zero, mas quando escolhemos um modelo analítico com uma dimensão vc alta ou uma rede neural com um grande número de camadas, podemos confundir o ruído contido na amostra como parte de a lei Incorporá-lo ao modelo de regressão forma o overfitting. Nesse caso, quando o MSE é zero ou extremamente pequeno, muitas vezes não temos certeza se ocorreu overfitting ou se a regularidade dos dados da amostra é forte o suficiente. Para isso, outros padrões também precisam ser introduzidos.

  1. Desempenho do modelo em dados desconhecidos

Para identificar se o modelo de regressão está superajustado, precisamos introduzir o conjunto de treinamento e o conjunto de teste. Esses dois conceitos se tornaram familiares para muitas pessoas com o desenvolvimento do aprendizado de máquina. Simplificando, o conjunto de treinamento e o conjunto de teste são amostrados aleatoriamente dos dados da amostra e têm as mesmas características de distribuição estatística (portanto, o tamanho da amostra deve ser grande o suficiente), não há sobreposição entre os dois conjuntos de dados e eles são combinados como conjunto de amostra total.

Ao construir o modelo de regressão, usamos apenas os dados do conjunto de treinamento e, ao avaliar o modelo após a construção do modelo, usamos os dados do conjunto de treinamento e do conjunto de teste separadamente e comparamos o desempenho dos dois conjuntos de dados em a mesma diferença de modelo de regressão (como MSE). Se os dois conjuntos de dados tiverem desempenho semelhante no modelo, dizemos que o modelo não está superajustado, inversamente, se o valor MSE dos dados do conjunto de treinamento no modelo for baixo e o valor MSE dos dados do conjunto de teste no modelo for alto Se , o modelo está superajustado
. É importante notar que um modelo superajustado não pode ser usado de forma alguma, ele geralmente não tem nenhum significado orientador para a realidade.

Às vezes, os dados de amostra que obtemos podem ser limitados apenas a uma faixa limitada de valores, o que é comum na produção industrial. Esperamos inferir a situação da variável-alvo em outras faixas de valores por meio dessa faixa de valores limitada. Portanto, além de dividir o conjunto amostral para verificar se o modelo não foi superajustado, também é necessário estudar a cobertura do modelo dos dados de amostra. A diferença entre o desempenho fora do intervalo de valores e o desempenho dentro do intervalo. Ou seja, a capacidade do modelo de extrapolar no intervalo de distribuição estatística da amostra. Intuitivamente, o modelo analítico terá um erro quadrático médio (mean-square error, MSE) é uma medida que reflete o grau de diferença entre o estimador e a quantidade estimada do que o modelo não paramétrico. Seja t um estimador do parâmetro populacional θ determinado de acordo com a amostra, e a expectativa matemática de (θ-t)2 é chamada de erro quadrático médio do estimador t. É igual a σ2+b2, onde σ2 eb são a variância e viés de t, respectivamente.

Melhor desempenho de extrapolação, mas isso requer que o modelo expresse a relação variável de forma analítica intrinsecamente. Isso não é fácil de verificar. Além disso, mesmo que os dados conhecidos sejam divididos em intervalos, podemos conhecer apenas o desempenho de extrapolação do modelo obtido no intervalo de valores intencionalmente coberto, mas não o desempenho de extrapolação real no intervalo de valores desconhecidos. Algumas situações exigem que analistas de dados e especialistas em negócios conduzam análises específicas sobre questões específicas.

  1. Complexidade Computacional do Modelo

Com base na prática de engenharia, sempre esperamos que o modelo de regressão obtido possa ser calculado rapidamente e os resultados sejam precisos. Mas a realidade muitas vezes não nos permite ter os dois. Isso envolve a complexidade computacional do modelo de regressão. No curso de algoritmo, dividimos a complexidade computacional em duas categorias: complexidade de tempo e complexidade de espaço. Mas para a construção do modelo, há mais aspectos a serem considerados, incluindo:

  • Complexidade computacional (tempo, espaço) ao construir o modelo
  • Complexidade computacional (tempo, espaço) ao usar o modelo
  • Os requisitos do modelo para a quantidade de dados de amostra

Para diferentes tipos de modelos, existem algumas diferenças em seu desempenho nos três aspectos acima. No entanto, como a construção do modelo geralmente é off-line e limitada em número, o uso do modelo costuma ser de alta frequência e limitado no tempo. Então, em geral, nos concentramos na complexidade computacional do uso do modelo. No entanto, no campo da manufatura inteligente, com base na situação real em que os dados são difíceis de obter, a exigência do modelo para a quantidade de dados da amostra geralmente é uma consideração importante.

seleção de modelo

Finalmente, resumimos a forma de modelo de regressão acima mencionada, dificuldade de resolução, características de desempenho, etc. e damos as seguintes recomendações de seleção.

insira a descrição da imagem aqui

Acho que você gosta

Origin blog.csdn.net/qq_42963448/article/details/131520426
Recomendado
Clasificación