Todo o processo de uso de dados históricos para fazer previsões de negócios

Para usar dados históricos para fazer previsões de negócios, devemos primeiro saber o que pode ser previsto, por exemplo:

  1. Quando um banco faz um empréstimo, ele espera prever se o atual credor poderá ficar inadimplente.

  2. A seguradora espera prever o risco de sinistro do cliente, de modo a definir os prêmios de forma mais flexível, com riscos altos e encargos elevados e riscos baixos e encargos baixos.

  3. Os bancos têm muitos tipos de produtos financeiros, na esperança de prever quais usuários comprarão quais produtos e realizar atividades de vendas com mais precisão

  4. Na produção industrial, as empresas esperam prever o status operacional dos equipamentos e reduzir o estacionamento não planejado

  5. Shopping centers e supermercados esperam prever as vendas dos produtos, para que possam preparar as mercadorias com cuidado e reduzir o estoque

  6. Negócio de crédito financeiro na Internet, na esperança de prever o fluxo de fundos emprestados e gerenciar o fluxo de caixa de maneira razoável

……

……

Se tivermos dados históricos suficientes em mãos, essas tarefas serão possíveis. Por exemplo, na tarefa 1, podemos encontrar um determinado padrão nos registros de informações de empréstimos dos últimos anos. Essas informações incluem o nível de renda do credor, a situação da dívida, o valor do empréstimo, prazo, taxa de juros e o título do trabalho, condições de vida e hábitos de transporte do credor. E assim por diante, em particular, deve haver informações sobre se o empréstimo está inadimplente no passado. Dessa forma, ao encontrar um novo cliente de empréstimo, você pode combinar as regras de acordo com as várias informações do cliente para determinar a probabilidade de o cliente atual ficar inadimplente. É claro que não há garantia de que esse tipo de previsão seja 100% preciso (há muitas maneiras de avaliar sua precisão); portanto, se houver apenas uma meta (por exemplo, apenas um empréstimo) que precise ser prevista, ela não fará sentido. Mas normalmente, teremos muitos casos para prever, então, mesmo que nem todos os casos possam ser previstos corretamente, uma certa taxa de precisão pode ser garantida, o que ainda é muito significativo. Para o negócio de empréstimo, os clientes de alto risco previstos podem não ser verdadeiros, mas, desde que a taxa de precisão seja alta o suficiente, os riscos ainda podem ser evitados com eficácia.

Usar dados históricos para fazer previsões envolve três etapas: 1 preparar os dados históricos → 2 descobrir as regras dos dados históricos, que chamamos de construção de um modelo → 3 usar o modelo estabelecido para fazer previsões.

1. Prepare dados históricos

Os dados históricos geralmente são uma tabela ampla, como costumamos chamá-la. Por exemplo, uma tabela do Excel como a figura a seguir: Use algumas informações básicas do usuário para prever se ocorrerá uma quebra de contrato

b3eb7db8ccae1b0fbb7573995f24aab9.png

Em primeiro lugar, a tabela ampla deve incluir o que queremos prever, que geralmente é chamado de alvo de predição. O alvo de predição na figura acima é o comportamento padrão de usuários históricos, ou seja, na coluna y na figura, sim significa padrão e não significa nenhum padrão. A meta da previsão também pode ser um valor numérico, como vendas de produtos, preço de venda ... ou a que tipo de previsão pertence, como prever se a qualidade do produto é excelente, boa, qualificada ou ruim. Às vezes, o destino está nos dados originais e pode ser usado diretamente, e às vezes o destino precisa ser rotulado manualmente.

Além de prever o objetivo, muitas informações são necessárias aqui, como idade do usuário, trabalho, imóveis e situação do empréstimo na tabela. Cada coluna aqui é chamada de variável , que é uma informação relacionada ao fato de o credor pode deixar de cumprir o contrato no futuro. Princípios Quanto mais variáveis ​​você coletar, melhor. Por exemplo, para prever se um cliente comprará um produto, você pode coletar informações de comportamento do cliente, preferências de compra, informações de recursos do produto, esforços de promoção, etc .; para prever o risco de reivindicações de seguro de automóveis, você precisa de dados da apólice de seguro, informações do veículo, hábitos de tráfego do proprietário do carro e histórico de reivindicações, etc. Se for para prever o seguro saúde, também precisa de algumas informações sobre os hábitos de vida, condição física e tratamento médico do segurado; a previsão das vendas de supermercados e shoppings requer histórico de pedidos de vendas, informações do cliente e informações do produto; previsão de produtos ruins, que requerem produção Parâmetros do processo, ambiente, condições da matéria-prima e outros dados. Em suma, quanto mais informações relevantes forem coletadas, melhor será a previsão.

Ao coletar dados, geralmente interceptamos dados históricos de um determinado período para fazer uma tabela ampla. Por exemplo, se quisermos prever a inadimplência de usuários em julho, podemos coletar dados de janeiro a junho para construir um modelo. O intervalo de tempo da coleta de dados não é fixo e pode ser operado de forma flexível, por exemplo, pode ser quase 1 ano ou quase 3 meses e assim por diante.

A tabela ampla preparada deve ser salva no formato csv. A primeira linha é o título e cada linha subsequente é um registro de histórico. Você pode usar o Excel para salvar os dados no formato csv.

Se a empresa possui um sistema de informação bem construído, você pode solicitar os dados ao departamento de TI.Muitas empresas podem exportar esses dados diretamente no sistema de BI (o formato pode ser diferente e você pode usar o Excel para converter).

2. Use YModel para construir um modelo

Depois que a mesa ampla estiver pronta, você pode usar YModel para construir um modelo.

YModel é um artefato desenvolvido especialmente para empresários e iniciantes sem formação profissional.A operação é muito simples e pode ser baixada em http://www.raqsoft.com/ymodel-download .

(1) Importar dados

Clique no a55cc165c8a61de044407e29c8bbca9d.pngbotão "Novo modelo" para importar os dados (ou seja, a tabela ampla organizada). Durante o processo de importação de dados, YModel irá detectar automaticamente o tipo de dados e calcular automaticamente várias estatísticas.

d5d96a2f80233c1a24c2c90a1d87fefa.png

Algumas vezes ocorrem alguns erros durante a primeira importação, como texto distorcido, formato de data incorreto e valores ausentes não são reconhecidos. Basta voltar à interface de importação para configurar o formato e importá-lo. Por exemplo, nas duas imagens a seguir, a coluna "shop_name" está distorcida na visualização de dados, que é inconsistente com o formato de caractere padrão. Portanto, você precisa modificar a configuração do formato dos caracteres e o texto pode ser reconhecido normalmente.

e5c24fb707099c66a297e7cf721b234c.pnga4a07abbdd90610e64918582a4db73b9.png

(2) Configurar metas de previsão

Após importar os dados, configure a meta da previsão. Chamada de variável de destino .

57c23e1247a3fd1c0b00e5a61f383f91.png

(3) Construir um modelo

Configure as variáveis ​​de destino, clique no botão "Modelagem" 17e81f522e3ee07778abff51f7be2a2b.pnge pronto. Todo o processo de pré-processamento e modelagem de dados é realizado automaticamente, sem operação manual.

f541c0b3b1dc0159b679a53ca1eb4bcd.png

2c64c2451fd348980959f66f20d339ab.png

O modelo pode ser construído em cerca de alguns minutos a dezenas de minutos (às vezes mais curto, dependendo da quantidade de dados). A interface retornará a importância de cada variável. Quanto maior a importância, mais a variável pode afetar o alvo da previsão. O uso dessa função pode nos ajudar a fazer algumas análises de negócios, como quando a meta da previsão são as vendas, podemos encontrar alguns fatores importantes que afetam as vendas.

c133ad401d67aa80056f2998fb5bc133.png

Após a construção do modelo, o sistema gravará um arquivo de modelo com um sufixo .pcf para previsão. Se você ainda precisa salvar o processo de modelagem, pode clicar no botão "Salvar" c955665588c6c1c7e50d4f23f9da4be5.pngpara gerar um arquivo de modelagem com o sufixo .mcf. Apenas o modelo não possui dados no arquivo de modelo pcf, e o arquivo mcf contém dados e informações de configuração de modelagem.

3. Use YModel para prever

Clique no 6985db4d0732b33a5aaf882fa84648c1.pngbotão "Pontuação" no canto superior esquerdo da interface do YModel , abra o arquivo de modelo pcf gerado na etapa 2 e importe o conjunto de dados a ser previsto (os dados ainda estão no formato csv e as variáveis ​​usadas para modelagem (colunas em csv) devem ser as mesmas, mas não há Meta de previsão) faça previsões, como as duas tabelas na figura abaixo, a diferença é que uma tem y e a outra não tem y.

9aa4ba436795b90e417fcd43819a575f.png

61981f4d507e11d0fc939f2194e42b6e.png

Depois de importar, clique no botão "Pontuação" no canto superior direito da interface para 6985db4d0732b33a5aaf882fa84648c1.pngfazer previsões e você pode obter a seguinte interface após a conclusão. A coluna mais à esquerda é o resultado da previsão. Neste exemplo, a porcentagem representa a probabilidade de um cliente inadimplir e quanto maior a probabilidade de inadimplência do cliente Quanto maior o risco. Podemos considerar clientes de alto risco com base na probabilidade prevista de inadimplência excedendo um certo limite (o limite específico depende da experiência de negócios. Se você não tiver experiência, pode simplesmente usar 50% para calculá-lo).

d038f3bcd0729f82409ccd308f59bd3f.png

Este resultado também pode ser exportado para csv, xls e outros arquivos de resultado de formato.

Neste ponto, nossa previsão está completa e todo o processo pode ser considerado muito simples.

4. Desempenho do modelo

Como mencionado anteriormente, a previsão não pode ser 100% precisa, mas deve haver uma precisão. Como sabemos?

Após a construção do modelo na etapa 2, clique no botão "Model Performance" e12b2701aba94dd74e15ae49bbd75f0a.png, você poderá ver algumas informações sobre o modelo, chamadas de model performance, conforme mostrado na figura abaixo.

1f8ef7de95ab26f453f1338edc140d3a.png

Normalmente olhamos para este indicador denominado AUC. O intervalo de valores é (0,5-1). Em princípio, quanto maior, melhor, mais preciso é o modelo. Por exemplo, a AUC deste modelo é 0,89, que é considerado um bom modelo.A confiabilidade do uso desse modelo para fazer previsões é muito boa. No entanto, esse 0,89 não significa que a precisão seja 89% (a precisão da predição específica está relacionada ao limite mencionado anteriormente e não pode ser calculada antes que o limite seja determinado). O significado específico de AUC é mais complicado, e os alunos interessados ​​podem Vá para o livro sobre mineração de dados (há um e-book gratuito http://www.raqsoft.com/html/course-data-mining.html que é fácil de entender ).

Se a AUC for muito alta, próxima de 1, significa que este modelo é particularmente bom? Não necessariamente, isso pode causar o fenômeno denominado "overfitting". Neste momento, embora o indicador AUC seja muito bom, a precisão pode ser muito fraca quando é realmente usado para previsão. Para saber por que ocorre a filtragem e como reconhecê-la e evitá-la, você também pode consultar os livros mencionados acima.

Resumindo:

Finalmente, vamos resumir o processo de uso de dados históricos para fazer previsões de negócios:

  1. Os dados históricos e os dados a serem previstos são organizados em uma tabela ampla. Os dados históricos devem ter variáveis ​​de destino, mas os dados a serem previstos não.

  2. Importe dados históricos para YModel, construa modelo e gere arquivo de modelo com sufixo .pcf

  3. Abra o arquivo de modelo pcf, importe os dados a serem previstos, conclua a previsão e gere o resultado e, em seguida, você pode decidir a ação de negócios com base no resultado previsto (como a probabilidade de inadimplência).


Acho que você gosta

Origin blog.51cto.com/12749034/2550531
Recomendado
Clasificación