Contar historias con datos: las 10 principales estadísticas/índices mágicos de aprendizaje automático

b012579a92d15711ef2036938fafb2e9.gif

Las estadísticas y el aprendizaje automático proporcionan una base teórica para el análisis de datos. Leí muchos libros relacionados con las estadísticas cuando estaba empezando. Las fórmulas complicadas y el proceso de derivación me confundieron por un tiempo. Para los analistas/científicos de datos, es más importante cómo usar el conocimiento estadístico y aplicarlo a nuestros escenarios de análisis. Este artículo se basa principalmente en los escenarios de aplicación reales en el trabajo de análisis de datos, comparte algunas estadísticas mágicas/índices de aprendizaje automático y no profundizará en algunos índices básicos, principios y derivación de fórmulas.

Este artículo es el tercero de la serie.

Parte 1: Contar historias con datos: Resumen de 13 habilidades avanzadas de Excel

Parte 2: Contar historias con datos: 17 Resumen de uso de Python basado en escenarios de análisis

af40c64c94b772dd16b3a1a4a48d8b9f.png

Índice de cálculo de crecimiento a largo y corto plazo

▐Tasa   de crecimiento a corto plazo

  1. tasa de crecimiento general tasa de crecimiento: tasa de crecimiento de mega capitalización; tasa de crecimiento de clasificación relativa: tasa de crecimiento de clasificación

  2. Tasa de crecimiento mixta = tasa de crecimiento de GMV + tasa de crecimiento de clasificación relativa

  3. Tasa de crecimiento mixta ponderada = tasa de crecimiento del índice * log (índice 1+)

▐Tendencia   de crecimiento a largo plazo: tasa de crecimiento compuesto CAGR

CAGR es la abreviatura de tasa de crecimiento anual compuesta, que es un método para medir la tasa de crecimiento promedio de un indicador durante un período de tiempo. CAGR se usa a menudo para medir indicadores como el retorno de la inversión, la tasa de crecimiento de las ventas, etc.

1d4c8d90d231f985717774b3983fb05f.png

Ejemplo: el valor inicial es 5, el valor final es 20 y el número de años es 2 (incluidos el primer y el último valor), luego la tasa de crecimiento compuesto = 100%.

50412bc283d726e0e8daa29f2ca4084e.png

Pronóstico de tendencias de indicadores: método de series temporales

El análisis de datos tiene tres propósitos: describir la situación actual, ubicar la causa y predecir el futuro. El pronóstico de tendencias consiste en analizar los datos pasados ​​y presentes, y luego predecir el proceso futuro para ayudar en la toma de decisiones.

▐Pronóstico de tendencia lineal   : Forecast.linear()

Predice o calcula valores utilizando valores existentes o pasados. Prediga y a partir del valor de la variable independiente x según la función de regresión lineal. Esta función funciona mejor si hay una tendencia lineal en los datos (es decir, y depende linealmente del valor de x),

04827e344bbb3df97305c5202cffff0c.png

Ejemplo: seleccione los datos, inserte un gráfico de dispersión con líneas suaves y puntos de marcador de datos, la línea de tendencia de crecimiento muestra la fórmula y predice el mismo valor futuro.

b205dbedc0f66a3a308e73ba9daa0b4a.png

▐   Pronóstico estacional: Forecast.ets()

Hay más datos estacionales en el comercio electrónico y Excel proporciona funciones de previsión avanzadas para dichos datos. Esta función realiza este pronóstico a través de un método de suavizado exponencial triple. Este método es un método ponderado. Cuanto más antiguo es el valor, menor es el peso, lo que significa que es menos importante.

  • Previsión.ets.estacionalidad()

Devuelve la duración del ciclo estacional detectado en base a datos históricos, si algún dato se repite cada 3 meses, entonces su ciclo es 3.

bd01ca8437f4037a9alimentar467cf89fa1a.png

  • Pronóstico.ets()

El cuarto parámetro indica la duración del patrón estacional. El valor predeterminado de 1 significa detectar automáticamente la estacionalidad.

214a2d7d4a93ccee3a99adac4ce40a3a.png

Ejemplo: De acuerdo con Forecasting.ets.seasonality(), sabemos que el período de los datos es 3, así que complete 3 para el cuarto parámetro.

3637bb1f058feb0be5d5848e6f957a53.png

  • Forecasting.ets.confint()

Devuelve el intervalo de confianza para el valor pronosticado para la fecha objetivo especificada. El intervalo de confianza predeterminado es del 95 %. Esto significa que el 95% de los valores pronosticados estarán dentro de este valor.

54cddf03f7bf838a2905df7d1c0086ac.png

Comparación de disparidad de tamaño de muestra: WilsonScore

Cuando realizamos una prueba AB u otro análisis, siempre involucramos la comparación de la tasa de clics del producto y la tasa de conversión.

Ejemplo: por ejemplo, la exposición UV del producto A es 1000 y hace clic en UV15, la exposición UV del producto A es 100000 y hace clic en UV1000, la tasa de clics del producto A es del 1,5 % y la tasa de clics del producto B es del 1 %. Me gusta el producto A porque los tamaños de muestra de A y B son bastante diferentes.

Entonces, ¿cómo juzgar? WilsonScore equilibra la influencia de las diferencias de tamaño de muestra y resuelve el problema de precisión de las muestras pequeñas. En esencia, el intervalo de Wilson es en realidad una estimación de intervalo de la tasa similar del usuario. Sin embargo, la estimación de intervalo tiene en cuenta la situación cuando la muestra es demasiado pequeña, y la estimación de intervalo se corrige de acuerdo con el tamaño de la muestra, de modo que la estimación de intervalo pueda medir mejor la situación de diferentes tamaños de muestra. Este algoritmo de puntuación a menudo se aplica a la clasificación de varios sitios web. Por ejemplo, el ranking de búsqueda de Zhihu.

dcf5a9f627dd15d090f42f130aec8273.png

8e00a0624651b7b6c0386795acfb33ba.png

from odps.udf import annotate
import numpy as np
@annotate('string->string')
class wilsonScore(object):
    #威尔逊区间下限
    def evaluate(self,input_data):
        pos = float(input_data.split(',')[0])
        total = float(input_data.split(',')[1])
        p_z=1.96
        pos_rat = pos * 1. / total * 1.  # 正例比率
        score = (pos_rat + (np.square(p_z) / (2. * total))
                 - ((p_z / (2. * total)) * np.sqrt(4. * total * (1. - pos_rat) * pos_rat + np.square(p_z)))) / \
                (1. + np.square(p_z) / total)
        return str(score)

126f9cd56ab2d10f7d504c2c5b549486.png

Función de decaimiento de tiempo: sigmoide

En el proceso de análisis, a menudo nos encontramos con la necesidad de combinar el rendimiento histórico a largo plazo para calificar a los usuarios/productos/comerciantes para la medición del valor y la asignación de recursos. La función sigmoidea también se denomina función logística, que puede asignar un número real al intervalo (0,1).

828359fdd97146cdb15cf06fed5ae652.png

Ejemplo: puntuación sigmoidea para el rendimiento histórico del producto (tasa de clics y GMV)

e846a82b89004bbfcef6346fa1dc8657.png

e120d82914481de316dab44f0b99e42f.png

Tres coeficientes de correlación estadística: Pearson&Spearman&kendall

▐Medida de correlación de distribución normal y numérica   : coeficiente de correlación de Pearson

d429c3d73c7860f3b938506914122f80.png

Las funciones relacionadas están configuradas e integradas en EXCEL y DataWorks, a las que se puede llamar directamente

  1. EXCEL para correlación: CORREL(S24:S28,T24:T28)

  2. probabilidades: corr (a, b)

A través de la fórmula anterior, podemos obtener el coeficiente de correlación de dos variables numéricas.¿Cómo evaluar la correlación entre dos variables?Generalmente usamos pruebas de hipótesis para determinar si es significativa.

Al realizar la prueba del coeficiente de correlación de Pearson, es necesario establecer primero el nivel de significación α, y los niveles de significación comúnmente utilizados son 0,05 y 0,01. Luego calcule el coeficiente de correlación de la muestra y encuentre el valor crítico correspondiente según el tamaño de la muestra n y el nivel de significación α. Si el coeficiente de correlación de la muestra es mayor que el valor crítico, se rechaza la hipótesis nula y existe una correlación lineal significativa entre las dos variables; de lo contrario, se acepta la hipótesis nula y no existe una correlación lineal significativa entre las dos variables.

Calculadora de umbral de coeficiente de correlación: https://www.jisuan.mobi/gqY.html

▐Medida de correlación de números no   numéricos/sin distribución normal: coeficiente de correlación de Spearman

El coeficiente de correlación de Spearman es una forma de medir las correlaciones en función de los rangos de las variables aleatorias en lugar de sus valores brutos. El cálculo del coeficiente de correlación de Spearman se puede calcular mediante el método de cálculo del coeficiente de Pearson, solo es necesario reemplazar los datos originales en la variable aleatoria original con su orden de rango en la variable aleatoria.

Ejemplo:

Encuentre el coeficiente de correlación de (1,10,100,101), (21,10,15,13) dos distribuciones no normales

Reemplace (1,10,100,101) con (1,2,3,4), (21,10,15,13) con (4,1,3,2), y luego encuentre la comparación de las dos variables aleatorias después del reemplazo. coeficiente de correlación es suficiente.

▐Medida de correlación de clasificación   : coeficiente de correlación de Kendall (kendall)

El coeficiente de correlación de Kendall, también conocido como coeficiente de armonía, también es un coeficiente de correlación de rangos y su método de cálculo es el siguiente:

Para dos pares de observaciones Xi, Yi y Xj, Yj de X, Y, si Xi<Yi y Xj<Yj, o Xi>Yi y Xj>Yj, se dice que los dos pares de observaciones están en el mismo orden, de lo contrario son pares de secuencias diferentes.

La fórmula para calcular el coeficiente de correlación de Kendall es la siguiente:

71ba012bf0281f7409b461f01e42c766.png

Ejemplo: Suponiendo que tenemos 8 productos, queremos calcular la correlación entre el ranking de ventas y el ranking GMV de los productos.

mercancías

A

B

C

D

mi

F

GRAMO

H

ranking de ventas

1

2

3

4

5

6

7

8

Ranking GMV

3

4

1

2

5

7

8

6

El producto A ocupa el puesto 1 en cuanto a volumen de ventas y el puesto 3 en GMV, que es mayor que el GMV clasificado 4-8, por lo que aporta 5 pares del mismo pedido;

El volumen de ventas del producto B ocupa el puesto 2, y el GMV ocupa el puesto 4, que es mayor que el GMV clasificado 5-8, por lo que aporta 4 pares del mismo pedido;

El producto C ocupa el puesto 3 en términos de volumen de ventas y el 1 en GMV, que es mayor que el GMV clasificado 4-8, por lo que aporta 5 pares de la misma secuencia;

El Producto D ocupa el 4° lugar en cuanto a volumen de ventas y el 2° en GMV, el cual es mayor que el GMV clasificado 5-8, por lo que aporta 4 pares del mismo pedido;

etcétera,

Conglog P = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22;

El logaritmo total es (8+7+6+5+4+3+2+1)/2=28;

Logaritmo de distinto orden Q=28-22;

R=((22-6)/28)=0.57。

70618d90d7b9b9234af4e5cd4bae36de.png

Una medida de la similitud entre dos distribuciones: KL divergencia

La divergencia KL consiste en cuantificar la diferencia entre dos distribuciones de probabilidad P y Q. Cuanto menor es el valor, más similar es, la fórmula es la siguiente:

3446c30e679c76ff10e4c4d1efad6588.png

Ejemplo: encontrar la similitud de la distribución AB

  1. Una distribución = [0.3,0.2,0.1,0.2,0.2]

  2. Distribución B = [0.1,0.3,0.1,0.2,0.3]

9f68823c0320a3de83a628731a7f5c59.png

La divergencia KL se calcula de la siguiente manera:

5b7da6d133ea88b227dba59a8fe1bfc5.png

9a2494d3eb93763794a0c31b721e5482.png

Punto de inflexión de la curva: KneeLocator

Cuando buscamos el mejor punto de tiempo de retención de usuarios o la agrupación de funciones para calcular el mejor valor de K, a menudo necesitamos analizar la forma de la curva para encontrar el punto de inflexión. En python, hay un paquete que automáticamente nos ayuda a encontrar puntos de inflexión, llamado knee. Este paquete solo necesita definir una pequeña cantidad de parámetros (concavidad y dirección de la curva), y automáticamente puede ayudarnos a encontrar el punto de inflexión en una curva.

from kneed import KneeLocator
import matplotlib.pyplot as plt 
•
x = np.arange(1,31)
y = [0.492 ,0.615 ,0.625 ,0.665 ,0.718 ,0.762 ,0.800 ,0.832 ,0.859 ,0.880 ,0.899 ,0.914 ,0.927 ,0.939 ,0.949 ,0.957 ,0.964 ,0.970 ,0.976 ,0.980 ,0.984 ,0.987 ,0.990 ,0.993 ,0.994 ,0.996 ,0.997 ,0.998 ,0.999 ,0.999 ]
•
kneedle = KneeLocator(x, y, S=1.0, curve='concave', direction='increasing')
print(f'拐点所在的x轴是: {kneedle.elbow}')

371b6dc011fb9e02f41eeafd2504f549.png

Método de determinación del índice de peso: método de entropía y PCA

▐Método   de entropía

El método de entropía se refiere a un método matemático utilizado para juzgar el grado de dispersión de un índice. Cuanto mayor sea el grado de dispersión, mayor será el impacto del índice en la evaluación integral. El valor de entropía se puede utilizar para juzgar el grado de dispersión de un indicador. El método de entropía para calcular los pasos de peso es el siguiente:

PASO 1: Estandarización de datos

64b6e9fd8d9396c52275c2c98ebefe34.png

PASO 2: Calcular la entropía de la información de cada indicador

aa4c72eb6f2cf2fff9a0d09eab6c7cbf.png

PASO 3: Determinar el peso de cada indicador

679a21c3c64a7e3cf15c6597432086da.png

El método de la entropía para determinar el peso solo considera el grado de dispersión de cada índice de los datos, es decir a más valores de datos, mayor es el peso, y no combina problemas prácticos específicos, por lo tanto, al aplicar el método de la entropía para determinar el peso, debe combinarse con problemas específicos antes de que pueda usarse.

▐Análisis   de componentes principales

El análisis de componentes principales es un método estadístico multivariado para investigar la correlación entre múltiples variables y estudia cómo revelar la estructura interna entre múltiples variables a través de unos pocos componentes principales, es decir, derivar algunos componentes principales de las variables originales y convertirlos en Se retiene la mayor cantidad posible de información de las variables originales, y no se correlacionan entre sí, como un nuevo índice integral.

El PAI de aprendizaje automático en DataWorks está configurado con componentes PCA, a los que se puede llamar directamente. 0.38e64a9bhMFlBH

Después de implementar el algoritmo, se generan las tablas de valores propios y vectores propios en el siguiente formato:

5a44a6e8fa8b63021d7d2f295b37cdc9.png

PASO1: Determinar el coeficiente del índice en la combinación lineal de cada componente principal

e93e737ef99452a0e9cd65082086c830.png

3012c9fbcddeef14319434592e6342cd.png

PASO 2: Determinar los coeficientes del modelo de puntaje integral

Realizar un promedio ponderado de los tres componentes principales de cada indicador obtenido en el PASO 1:

Ejemplo: El coeficiente del modelo de puntuación del índice 3 es

854b29ba04a03826081777218eacb26b.png

PASO 3: Normalización del peso del índice

Es decir, los coeficientes de cada factor en el modelo de puntaje integral están normalizados.

Ejemplo: El coeficiente de ponderación del indicador 3 es

6ff16e65ff9a7c6070f121be5a250273.png

9cb34941a0ad99205cda4088a64534bd.png

ca131a8771a2ae021d42531db5ce68ae.png

Medición de la competencia en el mercado/selección del círculo central: concentración

La ley de Pareto es la famosa conclusión de la investigación de Pareto sobre la distribución de la riqueza social en Italia propuesta por Pareto en 1906: el 20% de la población posee el 80% de la riqueza social. En el análisis de datos, el principio de Pareto se aplica a menudo en dos aspectos del análisis empresarial y el análisis de la demanda.

▐   NRC

Se refiere a la relación de la suma de las ventas de las mejores marcas en las ventas de categoría a las ventas de categoría. eae3bee87a6be2fc42da476fa88614cc.pngCuanto menor sea el valor, menor será la cuota de mercado de la marca principal, más débil será la capacidad de segmentación del mercado de la marca principal y habrá relativamente más oportunidades para las marcas de cintura y cola.

▐Concentración de Consumo  

Se refiere a la proporción de usuarios/productos que contribuyen al N% superior de la cuota de mercado, es decir, la proporción de usuarios/productos que contribuyen al 80% superior de la cuota de mercado en la regla 80/20. Se pueden seleccionar categorías principales. basado en la contribución de cuota de mercado y el número de planificación de pozos de especificación de producto.

0e4636127bd6bb8fbc18a2c87e2c3caf.png

d007a830cd688ab9eec2e55dcf42815a.png

Algoritmo de puntuación/extracción de palabras clave: TF-IDF

TF-IDF tiende a filtrar palabras comunes y retener palabras importantes.La fórmula es la siguiente:

5f754174a8c115f6e1baa30ffc76398c.png

Por ejemplo: el término de búsqueda A tiene más tiempos de búsqueda en la categoría X, pero el término de búsqueda A tiene menos búsquedas en otras categorías, entonces el término de búsqueda A es más representativo de la categoría X y la puntuación de la tendencia es más alta, y viceversa.

fc546e26b3ef3aa4c4d81042810e351a.png

epílogo

La serie "Narración de historias con datos" no solo fue testigo del crecimiento de mi novato en matemáticas en los últimos dos años, sino que también respondió a mi confusión sobre "el conocimiento universitario es útil o inútil" cuando era estudiante. En mi opinión, como educación general, las universidades se enfocan en la formación del valor de fusión y el cultivo de la capacidad de aprendizaje. Como beneficiario, estoy muy agradecido de que la escuela me enseñó "qué" y "por qué", y puedo gastar el costo cognitivo más bajo para practicar "cómo hacer" después del trabajo. En el futuro, las montañas serán altas y los ríos largos, y también compartiré más resúmenes prácticos y pensamientos con ustedes. ¡Bienvenidos a intercambiar y aprender juntos!

aa58048b77c244ca47a2de50c7893390.png

epílogo

Somos el equipo de ciencia de datos de Dajuhuasuan, responsable de apoyar negocios como Juhuasuan, decenas de miles de millones de subsidios y ventas especiales diarias. Nos enfocamos en los descuentos y la experiencia de compra, a través del conocimiento de los datos, la extracción del valor de los datos y el establecimiento de soluciones de operaciones de suministro y operación del consumidor para ambos extremos del campo de marketing y la oferta y demanda de servicios. ¡Entrada comercial económica, la matriz de marketing más explosiva, que hace que las operaciones mentales y de bienes sean eficientes y seguras!

¤  Lectura ampliada  ¤

Tecnología 3DXR  |  Tecnología de terminal  |  Tecnología de audio y video

Tecnología de servidor  |  Calidad técnica  |  Algoritmos de datos

Supongo que te gusta

Origin blog.csdn.net/Taobaojishu/article/details/130818110
Recomendado
Clasificación