Las estadísticas y el aprendizaje automático proporcionan una base teórica para el análisis de datos. Leí muchos libros relacionados con las estadísticas cuando estaba empezando. Las fórmulas complicadas y el proceso de derivación me confundieron por un tiempo. Para los analistas/científicos de datos, es más importante cómo usar el conocimiento estadístico y aplicarlo a nuestros escenarios de análisis. Este artículo se basa principalmente en los escenarios de aplicación reales en el trabajo de análisis de datos, comparte algunas estadísticas mágicas/índices de aprendizaje automático y no profundizará en algunos índices básicos, principios y derivación de fórmulas.
Este artículo es el tercero de la serie.
Parte 1: Contar historias con datos: Resumen de 13 habilidades avanzadas de Excel
Parte 2: Contar historias con datos: 17 Resumen de uso de Python basado en escenarios de análisis
Índice de cálculo de crecimiento a largo y corto plazo
▐Tasa de crecimiento a corto plazo
tasa de crecimiento general tasa de crecimiento: tasa de crecimiento de mega capitalización; tasa de crecimiento de clasificación relativa: tasa de crecimiento de clasificación
Tasa de crecimiento mixta = tasa de crecimiento de GMV + tasa de crecimiento de clasificación relativa
Tasa de crecimiento mixta ponderada = tasa de crecimiento del índice * log (índice 1+)
▐Tendencia de crecimiento a largo plazo: tasa de crecimiento compuesto CAGR
CAGR es la abreviatura de tasa de crecimiento anual compuesta, que es un método para medir la tasa de crecimiento promedio de un indicador durante un período de tiempo. CAGR se usa a menudo para medir indicadores como el retorno de la inversión, la tasa de crecimiento de las ventas, etc.
Ejemplo: el valor inicial es 5, el valor final es 20 y el número de años es 2 (incluidos el primer y el último valor), luego la tasa de crecimiento compuesto = 100%.
Pronóstico de tendencias de indicadores: método de series temporales
El análisis de datos tiene tres propósitos: describir la situación actual, ubicar la causa y predecir el futuro. El pronóstico de tendencias consiste en analizar los datos pasados y presentes, y luego predecir el proceso futuro para ayudar en la toma de decisiones.
▐Pronóstico de tendencia lineal : Forecast.linear()
Predice o calcula valores utilizando valores existentes o pasados. Prediga y a partir del valor de la variable independiente x según la función de regresión lineal. Esta función funciona mejor si hay una tendencia lineal en los datos (es decir, y depende linealmente del valor de x),
Ejemplo: seleccione los datos, inserte un gráfico de dispersión con líneas suaves y puntos de marcador de datos, la línea de tendencia de crecimiento muestra la fórmula y predice el mismo valor futuro.
▐ Pronóstico estacional: Forecast.ets()
Hay más datos estacionales en el comercio electrónico y Excel proporciona funciones de previsión avanzadas para dichos datos. Esta función realiza este pronóstico a través de un método de suavizado exponencial triple. Este método es un método ponderado. Cuanto más antiguo es el valor, menor es el peso, lo que significa que es menos importante.
Previsión.ets.estacionalidad()
Devuelve la duración del ciclo estacional detectado en base a datos históricos, si algún dato se repite cada 3 meses, entonces su ciclo es 3.
Pronóstico.ets()
El cuarto parámetro indica la duración del patrón estacional. El valor predeterminado de 1 significa detectar automáticamente la estacionalidad.
Ejemplo: De acuerdo con Forecasting.ets.seasonality(), sabemos que el período de los datos es 3, así que complete 3 para el cuarto parámetro.
Forecasting.ets.confint()
Devuelve el intervalo de confianza para el valor pronosticado para la fecha objetivo especificada. El intervalo de confianza predeterminado es del 95 %. Esto significa que el 95% de los valores pronosticados estarán dentro de este valor.
Comparación de disparidad de tamaño de muestra: WilsonScore
Cuando realizamos una prueba AB u otro análisis, siempre involucramos la comparación de la tasa de clics del producto y la tasa de conversión.
Ejemplo: por ejemplo, la exposición UV del producto A es 1000 y hace clic en UV15, la exposición UV del producto A es 100000 y hace clic en UV1000, la tasa de clics del producto A es del 1,5 % y la tasa de clics del producto B es del 1 %. Me gusta el producto A porque los tamaños de muestra de A y B son bastante diferentes.
Entonces, ¿cómo juzgar? WilsonScore equilibra la influencia de las diferencias de tamaño de muestra y resuelve el problema de precisión de las muestras pequeñas. En esencia, el intervalo de Wilson es en realidad una estimación de intervalo de la tasa similar del usuario. Sin embargo, la estimación de intervalo tiene en cuenta la situación cuando la muestra es demasiado pequeña, y la estimación de intervalo se corrige de acuerdo con el tamaño de la muestra, de modo que la estimación de intervalo pueda medir mejor la situación de diferentes tamaños de muestra. Este algoritmo de puntuación a menudo se aplica a la clasificación de varios sitios web. Por ejemplo, el ranking de búsqueda de Zhihu.
from odps.udf import annotate
import numpy as np
@annotate('string->string')
class wilsonScore(object):
#威尔逊区间下限
def evaluate(self,input_data):
pos = float(input_data.split(',')[0])
total = float(input_data.split(',')[1])
p_z=1.96
pos_rat = pos * 1. / total * 1. # 正例比率
score = (pos_rat + (np.square(p_z) / (2. * total))
- ((p_z / (2. * total)) * np.sqrt(4. * total * (1. - pos_rat) * pos_rat + np.square(p_z)))) / \
(1. + np.square(p_z) / total)
return str(score)
Función de decaimiento de tiempo: sigmoide
En el proceso de análisis, a menudo nos encontramos con la necesidad de combinar el rendimiento histórico a largo plazo para calificar a los usuarios/productos/comerciantes para la medición del valor y la asignación de recursos. La función sigmoidea también se denomina función logística, que puede asignar un número real al intervalo (0,1).
Ejemplo: puntuación sigmoidea para el rendimiento histórico del producto (tasa de clics y GMV)
Tres coeficientes de correlación estadística: Pearson&Spearman&kendall
▐Medida de correlación de distribución normal y numérica : coeficiente de correlación de Pearson
Las funciones relacionadas están configuradas e integradas en EXCEL y DataWorks, a las que se puede llamar directamente
EXCEL para correlación: CORREL(S24:S28,T24:T28)
probabilidades: corr (a, b)
A través de la fórmula anterior, podemos obtener el coeficiente de correlación de dos variables numéricas.¿Cómo evaluar la correlación entre dos variables?Generalmente usamos pruebas de hipótesis para determinar si es significativa.
Al realizar la prueba del coeficiente de correlación de Pearson, es necesario establecer primero el nivel de significación α, y los niveles de significación comúnmente utilizados son 0,05 y 0,01. Luego calcule el coeficiente de correlación de la muestra y encuentre el valor crítico correspondiente según el tamaño de la muestra n y el nivel de significación α. Si el coeficiente de correlación de la muestra es mayor que el valor crítico, se rechaza la hipótesis nula y existe una correlación lineal significativa entre las dos variables; de lo contrario, se acepta la hipótesis nula y no existe una correlación lineal significativa entre las dos variables.
Calculadora de umbral de coeficiente de correlación: https://www.jisuan.mobi/gqY.html
▐Medida de correlación de números no numéricos/sin distribución normal: coeficiente de correlación de Spearman
El coeficiente de correlación de Spearman es una forma de medir las correlaciones en función de los rangos de las variables aleatorias en lugar de sus valores brutos. El cálculo del coeficiente de correlación de Spearman se puede calcular mediante el método de cálculo del coeficiente de Pearson, solo es necesario reemplazar los datos originales en la variable aleatoria original con su orden de rango en la variable aleatoria.
Ejemplo:
Encuentre el coeficiente de correlación de (1,10,100,101), (21,10,15,13) dos distribuciones no normales
Reemplace (1,10,100,101) con (1,2,3,4), (21,10,15,13) con (4,1,3,2), y luego encuentre la comparación de las dos variables aleatorias después del reemplazo. coeficiente de correlación es suficiente.
▐Medida de correlación de clasificación : coeficiente de correlación de Kendall (kendall)
El coeficiente de correlación de Kendall, también conocido como coeficiente de armonía, también es un coeficiente de correlación de rangos y su método de cálculo es el siguiente:
Para dos pares de observaciones Xi, Yi y Xj, Yj de X, Y, si Xi<Yi y Xj<Yj, o Xi>Yi y Xj>Yj, se dice que los dos pares de observaciones están en el mismo orden, de lo contrario son pares de secuencias diferentes.
La fórmula para calcular el coeficiente de correlación de Kendall es la siguiente:
Ejemplo: Suponiendo que tenemos 8 productos, queremos calcular la correlación entre el ranking de ventas y el ranking GMV de los productos.
mercancías |
A |
B |
C |
D |
mi |
F |
GRAMO |
H |
ranking de ventas |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Ranking GMV |
3 |
4 |
1 |
2 |
5 |
7 |
8 |
6 |
El producto A ocupa el puesto 1 en cuanto a volumen de ventas y el puesto 3 en GMV, que es mayor que el GMV clasificado 4-8, por lo que aporta 5 pares del mismo pedido;
El volumen de ventas del producto B ocupa el puesto 2, y el GMV ocupa el puesto 4, que es mayor que el GMV clasificado 5-8, por lo que aporta 4 pares del mismo pedido;
El producto C ocupa el puesto 3 en términos de volumen de ventas y el 1 en GMV, que es mayor que el GMV clasificado 4-8, por lo que aporta 5 pares de la misma secuencia;
El Producto D ocupa el 4° lugar en cuanto a volumen de ventas y el 2° en GMV, el cual es mayor que el GMV clasificado 5-8, por lo que aporta 4 pares del mismo pedido;
etcétera,
Conglog P = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22;
El logaritmo total es (8+7+6+5+4+3+2+1)/2=28;
Logaritmo de distinto orden Q=28-22;
R=((22-6)/28)=0.57。
Una medida de la similitud entre dos distribuciones: KL divergencia
La divergencia KL consiste en cuantificar la diferencia entre dos distribuciones de probabilidad P y Q. Cuanto menor es el valor, más similar es, la fórmula es la siguiente:
Ejemplo: encontrar la similitud de la distribución AB
Una distribución = [0.3,0.2,0.1,0.2,0.2]
Distribución B = [0.1,0.3,0.1,0.2,0.3]
La divergencia KL se calcula de la siguiente manera:
Punto de inflexión de la curva: KneeLocator
Cuando buscamos el mejor punto de tiempo de retención de usuarios o la agrupación de funciones para calcular el mejor valor de K, a menudo necesitamos analizar la forma de la curva para encontrar el punto de inflexión. En python, hay un paquete que automáticamente nos ayuda a encontrar puntos de inflexión, llamado knee. Este paquete solo necesita definir una pequeña cantidad de parámetros (concavidad y dirección de la curva), y automáticamente puede ayudarnos a encontrar el punto de inflexión en una curva.
from kneed import KneeLocator
import matplotlib.pyplot as plt
•
x = np.arange(1,31)
y = [0.492 ,0.615 ,0.625 ,0.665 ,0.718 ,0.762 ,0.800 ,0.832 ,0.859 ,0.880 ,0.899 ,0.914 ,0.927 ,0.939 ,0.949 ,0.957 ,0.964 ,0.970 ,0.976 ,0.980 ,0.984 ,0.987 ,0.990 ,0.993 ,0.994 ,0.996 ,0.997 ,0.998 ,0.999 ,0.999 ]
•
kneedle = KneeLocator(x, y, S=1.0, curve='concave', direction='increasing')
print(f'拐点所在的x轴是: {kneedle.elbow}')
Método de determinación del índice de peso: método de entropía y PCA
▐Método de entropía
El método de entropía se refiere a un método matemático utilizado para juzgar el grado de dispersión de un índice. Cuanto mayor sea el grado de dispersión, mayor será el impacto del índice en la evaluación integral. El valor de entropía se puede utilizar para juzgar el grado de dispersión de un indicador. El método de entropía para calcular los pasos de peso es el siguiente:
PASO 1: Estandarización de datos
PASO 2: Calcular la entropía de la información de cada indicador
PASO 3: Determinar el peso de cada indicador
El método de la entropía para determinar el peso solo considera el grado de dispersión de cada índice de los datos, es decir a más valores de datos, mayor es el peso, y no combina problemas prácticos específicos, por lo tanto, al aplicar el método de la entropía para determinar el peso, debe combinarse con problemas específicos antes de que pueda usarse.
▐Análisis de componentes principales
El análisis de componentes principales es un método estadístico multivariado para investigar la correlación entre múltiples variables y estudia cómo revelar la estructura interna entre múltiples variables a través de unos pocos componentes principales, es decir, derivar algunos componentes principales de las variables originales y convertirlos en Se retiene la mayor cantidad posible de información de las variables originales, y no se correlacionan entre sí, como un nuevo índice integral.
El PAI de aprendizaje automático en DataWorks está configurado con componentes PCA, a los que se puede llamar directamente. 0.38e64a9bhMFlBH
Después de implementar el algoritmo, se generan las tablas de valores propios y vectores propios en el siguiente formato:
PASO1: Determinar el coeficiente del índice en la combinación lineal de cada componente principal
PASO 2: Determinar los coeficientes del modelo de puntaje integral
Realizar un promedio ponderado de los tres componentes principales de cada indicador obtenido en el PASO 1:
Ejemplo: El coeficiente del modelo de puntuación del índice 3 es
PASO 3: Normalización del peso del índice
Es decir, los coeficientes de cada factor en el modelo de puntaje integral están normalizados.
Ejemplo: El coeficiente de ponderación del indicador 3 es
Medición de la competencia en el mercado/selección del círculo central: concentración
La ley de Pareto es la famosa conclusión de la investigación de Pareto sobre la distribución de la riqueza social en Italia propuesta por Pareto en 1906: el 20% de la población posee el 80% de la riqueza social. En el análisis de datos, el principio de Pareto se aplica a menudo en dos aspectos del análisis empresarial y el análisis de la demanda.
▐ NRC
Se refiere a la relación de la suma de las ventas de las mejores marcas en las ventas de categoría a las ventas de categoría. Cuanto menor sea el valor, menor será la cuota de mercado de la marca principal, más débil será la capacidad de segmentación del mercado de la marca principal y habrá relativamente más oportunidades para las marcas de cintura y cola.
▐Concentración de Consumo
Se refiere a la proporción de usuarios/productos que contribuyen al N% superior de la cuota de mercado, es decir, la proporción de usuarios/productos que contribuyen al 80% superior de la cuota de mercado en la regla 80/20. Se pueden seleccionar categorías principales. basado en la contribución de cuota de mercado y el número de planificación de pozos de especificación de producto.
Algoritmo de puntuación/extracción de palabras clave: TF-IDF
TF-IDF tiende a filtrar palabras comunes y retener palabras importantes.La fórmula es la siguiente:
Por ejemplo: el término de búsqueda A tiene más tiempos de búsqueda en la categoría X, pero el término de búsqueda A tiene menos búsquedas en otras categorías, entonces el término de búsqueda A es más representativo de la categoría X y la puntuación de la tendencia es más alta, y viceversa.
epílogo
La serie "Narración de historias con datos" no solo fue testigo del crecimiento de mi novato en matemáticas en los últimos dos años, sino que también respondió a mi confusión sobre "el conocimiento universitario es útil o inútil" cuando era estudiante. En mi opinión, como educación general, las universidades se enfocan en la formación del valor de fusión y el cultivo de la capacidad de aprendizaje. Como beneficiario, estoy muy agradecido de que la escuela me enseñó "qué" y "por qué", y puedo gastar el costo cognitivo más bajo para practicar "cómo hacer" después del trabajo. En el futuro, las montañas serán altas y los ríos largos, y también compartiré más resúmenes prácticos y pensamientos con ustedes. ¡Bienvenidos a intercambiar y aprender juntos!
epílogo
Somos el equipo de ciencia de datos de Dajuhuasuan, responsable de apoyar negocios como Juhuasuan, decenas de miles de millones de subsidios y ventas especiales diarias. Nos enfocamos en los descuentos y la experiencia de compra, a través del conocimiento de los datos, la extracción del valor de los datos y el establecimiento de soluciones de operaciones de suministro y operación del consumidor para ambos extremos del campo de marketing y la oferta y demanda de servicios. ¡Entrada comercial económica, la matriz de marketing más explosiva, que hace que las operaciones mentales y de bienes sean eficientes y seguras!
¤ Lectura ampliada ¤
Tecnología 3DXR | Tecnología de terminal | Tecnología de audio y video
Tecnología de servidor | Calidad técnica | Algoritmos de datos