Proyecto MySQL: análisis visual de los datos de comportamiento de compra del usuario de Taobao

1. Antecedentes y propósito del proyecto

1.1 Antecedentes del proyecto

        UserBehavior es un conjunto de datos de comportamiento de usuario de Taobao proporcionado por Alibaba, que se utiliza para la investigación de problemas de recomendación de comentarios implícitos. El conjunto de datos contiene todos los comportamientos de aproximadamente un millón de usuarios aleatorios con comportamientos (los comportamientos incluyen clics, compras, compras adicionales y me gusta) entre el 25 de noviembre de 2017 y el 3 de diciembre de 2017.

1.2 Objetivos del proyecto

        El propósito de este análisis es proporcionar explicaciones y sugerencias de mejora para los siguientes problemas a través del análisis de los datos de comportamiento de los usuarios de Taobao:

  1. Analice los indicadores de análisis de comercio electrónico comunes en el proceso de los usuarios que usan Taobao, establezca un modelo de embudo de conversión de comportamiento del usuario, determine la tasa de pérdida de cada enlace y descubra el enlace que necesita mejorar;
  2. Estudie las reglas de comportamiento de los usuarios en diferentes escalas de tiempo, descubra las reglas activas de los usuarios en diferentes períodos de tiempo y proponga las estrategias de marketing correspondientes en consecuencia;
  3. Analizar las preferencias de los usuarios para diferentes tipos de productos básicos y proponer estrategias de marketing para diferentes productos básicos;
  4. Utilice el modelo RFM para estratificar a los usuarios, analizar el comportamiento de diferentes tipos de usuarios y proponer las estrategias operativas correspondientes.

1.3 Fuente e introducción del conjunto de datos

        Fuente de datos: comportamiento de compra del usuario de Taobao dataset_Dataset-Alibaba Cloud Tianchi (aliyun.com)        

        UserBehavior es un conjunto de datos de comportamiento de usuario de Taobao proporcionado por Alibaba, que se utiliza para la investigación de problemas de recomendación de comentarios implícitos.

Nombre del archivo ilustrar contiene características
ComportamientoUsuario.csv Contiene todos los datos de comportamiento del usuario. ID de usuario, ID de producto, ID de categoría de producto, Tipo de comportamiento, Marca de tiempo

UserBehavior.csv
        Este conjunto de datos contiene todos los comportamientos de aproximadamente un millón de usuarios aleatorios (los comportamientos incluyen clics, compras, compras adicionales y me gusta) entre el 25 de noviembre de 2017 y el 3 de diciembre de 2017. La forma de organización del conjunto de datos es similar a la de MovieLens-20M, es decir, cada fila del conjunto de datos representa un comportamiento de usuario, que consta de ID de usuario, ID de producto, ID de categoría de producto, tipo de comportamiento y marca de tiempo, y es separado por comas. Una descripción detallada de cada columna en el conjunto de datos es la siguiente:

nombre de la columna ilustrar
ID de usuario Tipo entero, ID de usuario serializado
ID del Producto Tipo entero, ID de producto después de la serialización
ID de categoría de producto Tipo entero, el ID de la categoría a la que pertenece el producto serializado
tipo de comportamiento Cadena, tipo de enumeración, incluidos ('pv', 'buy', 'cart', 'fav')
marca de tiempo Marca de tiempo cuando ocurrió la acción

Tenga en cuenta que hay cuatro tipos de comportamiento del usuario, son

tipo de comportamiento ilustrar
p.v. Página de detalles del producto pv, equivalente a hacer clic
comprar compra de productos básicos
carro añadir artículo al carrito
favorito Producto favorito

Algunas notas sobre el tamaño del conjunto de datos son las siguientes

dimensión cantidad
cantidad de usuarios 987,994
Número de productos 4,162,024
cantidad de usuarios 987,994
El número de categorías de productos. 9,439
Todos los comportamientos 100,150,807

2. Marco de análisis

3. Limpieza de datos

3.1 Importación de datos

Crear una nueva base de datos usando MySQL

CREATE DATABASE IF not EXISTS 淘宝用户行为
CHARACTER SET 'utf8mb4';

Importar fuentes de datos externas

Debido a que la cantidad de datos es demasiado grande, elija importar las primeras 1 000 000 de filas de datos.
El conjunto de datos de origen no contiene la fila de nombre de campo. Al importar, la fila de nombre de campo se establece en 0 y la primera fila de datos se establece en 1.

La importación está completa, toma 1 minuto y 17 segundos

3.2 Cambiar el nombre de las columnas

ALTER TABLE userbehavior
	CHANGE f1 user_id VARCHAR (255),
	CHANGE f2 item_id VARCHAR (255),
	CHANGE f3 category VARCHAR (255),
	CHANGE f4 behavior VARCHAR (255),
	CHANGE f5 time_stamp VARCHAR (255);

También puede cambiar el nombre directamente al importar datos

3.3 Eliminar valores duplicados

        Eliminar valores duplicados Aquí, puede combinar user_id, item_id y time_stamp para formar una clave principal conjunta y agrupar el conjunto de datos. Si no hay valores duplicados en el conjunto de datos, teóricamente el conteo (*) no debería ser mayor que 1 después de la agrupación conjunta con los tres; si hay valores duplicados en el conjunto de datos, el conteo (*) teóricamente debería ser combinado con los tres para la agrupación conjunta) debe ser mayor que 1. Por lo tanto, la función de tener se puede utilizar para juzgar si la cuenta (*) es mayor que 1 o no.

SELECT user_id, item_id, time_stamp
FROM userbehavior
GROUP BY user_id, item_id, time_stamp
HAVING COUNT(*) > 1;

El resultado no muestra valores duplicados.

3.4 Ver valores faltantes

        Para ver los valores faltantes, puede contar cuántas filas hay debajo de cada campo. Si el número de filas es igual, significa que no hay valores faltantes.

SELECT count(user_id), count(item_id), count(category), count(behavior), count(time_stamp)
FROM userbehavior;

         Los resultados muestran que el número de filas en cada campo es igual y no faltan valores.

3.5 Conversión de formato de hora

-- 新增date、hour时间列
ALTER TABLE userbehavior
	ADD time TIMESTAMP,
	ADD date VARCHAR(10),
	ADD hour VARCHAR(10);
-- 时间格式转换
UPDATE userbehavior
SET time = FROM_UNIXTIME(time_stamp, '%Y-%m-%d %H:%i:%s'),
	date = FROM_UNIXTIME(time_stamp, '%Y-%m-%d'),
	hour = FROM_UNIXTIME(time_stamp, '%H');

 3.6 Eliminar valores atípicos

        Es necesario verificar si todas las fechas están dentro del rango de tiempo que debe analizarse, es decir, entre el 25 de noviembre de 2017 y el 3 de diciembre de 2017.

-- 检查日期是否都在2017年11月25日至2017年12月3日之间
SELECT MIN(date), MAX(date)
FROM userbehavior;

Eliminar valores atípicos

-- 排除日期不在2017年11月25日至2017年12月3日之间的数据
DELETE FROM userbehavior
WHERE date < '2017-11-25' OR date > '2017-12-03';

 

Se filtraron un total de 470 valores atípicos.

Verifique si está limpio

SELECT MIN(date), MAX(date)
FROM userbehavior;

 

4. Análisis de datos

4.1 Análisis del comportamiento del usuario basado en el modelo de embudo de conversión del comportamiento del usuario

4.1.1 Análisis de indicadores comunes de comercio electrónico

4.1.1.1 UV, FV, UV/PV

-- UV、PV、UV/PV指标统计
SELECT COUNT(DISTINCT user_id) AS UV
	,SUM(IF(behavior = 'pv', 1, 0)) AS PV
	,SUM(IF(behavior = 'buy', 1, 0)) AS Buy
	,SUM(IF(behavior = 'cart', 1, 0)) AS Cart
	,SUM(IF(behavior = 'fav', 1, 0)) AS Fav
	,SUM(IF(behavior = 'pv', 1, 0)) / COUNT(DISTINCT user_id) AS 'PV/UV'
FROM userbehavior;

        Número total de usuarios visitantes (UV): 9739

        Vistas totales de página (PV): 895636

        Número medio de páginas vistas por persona (UV/PV) en el intervalo estadístico: alrededor de 92

4.1.1.2 Tasa de recompra

        Definición de tasa de recompra: la proporción de consumidores repetidos (usuarios que consumen dos veces o más) en el total de usuarios consumidores dentro de una determinada ventana de tiempo (no deduplicados por día).

        Cree una vista de datos de comportamiento del usuario agrupada por user_id para facilitar consultas posteriores

-- 创建以user_id分组的用户行为数据视图
CREATE VIEW 用户行为数据 AS
	SELECT user_id
		,COUNT(behavior) AS 用户行为总数
		,SUM(IF(behavior = 'pv', 1, 0)) AS '浏览数'
		,SUM(IF(behavior = 'fav', 1, 0)) AS '收藏数'
		,SUM(IF(behavior = 'cart', 1, 0)) AS '加购数'
		,SUM(IF(behavior = 'buy', 1, 0)) AS '购买数'
	FROM userbehavior
	GROUP BY user_id
	ORDER BY 用户行为总数 DESC;
	
SELECT * FROM 用户行为数据;

 tasa de recompra

-- 复购率
SELECT SUM(IF(购买数 > 1, 1, 0)) AS '复购总人数'
	,COUNT(user_id) AS '购买总人数'
	,ROUND(100 * SUM(IF(购买数 > 1, 1, 0)) / COUNT(user_id), 2) AS '复购率'
FROM 用户行为数据
WHERE 购买数 > 0;

  

        A juzgar por los resultados, la tasa de recompra alcanza el 66,21%, lo que refleja la alta lealtad de los usuarios de Taobao.

4.1.1.3 Tasa de rebote

        Definición de tasa de rebote: el porcentaje de usuarios que solo visitaron una sola página como porcentaje de todos los usuarios visitantes, o el porcentaje de usuarios que abandonaron el sitio web desde la página de inicio como porcentaje de todos los usuarios visitantes.

        La tasa de rebote puede reflejar el reconocimiento del usuario del contenido del sitio web o si el sitio web es atractivo para los usuarios. Si el contenido del sitio web puede ayudar a los usuarios y retener a los usuarios también se puede ver directamente en la tasa de rebote, por lo que la tasa de rebote es un criterio importante para medir la calidad del contenido del sitio web.

-- 跳失率
SELECT COUNT(*) AS '仅访问一次页面的用户数'
FROM 用户行为数据
WHERE 用户行为总数 = 1;

         Los resultados muestran que dentro del intervalo estadístico, ningún usuario abandona Taobao después de navegar una sola vez por la página, es decir, la tasa de rebote es 0. Refleja que el contenido del producto o la página de detalles del producto es muy atractivo para los usuarios, haciendo que los usuarios permanezcan en Taobao.

        Desde la perspectiva de la tasa de recompra integral y la tasa de rebote, Taobao tiene una alta lealtad de los usuarios y contenido de alta calidad, lo que puede atraer a los usuarios para que continúen usándolo. Por lo tanto, es necesario prestar atención a las relaciones con los usuarios y mantener la lealtad de los usuarios.

4.1.2 Análisis del modelo de embudo de conversión de comportamiento del usuario

        El modelo de análisis de embudo se ha utilizado ampliamente en el trabajo de análisis de datos en varias industrias para evaluar la tasa de conversión general, la tasa de conversión de cada enlace, evaluar científicamente el efecto de actividades promocionales especiales, etc., y realizar un comportamiento de usuario en profundidad. análisis mediante la combinación con otros modelos de análisis de datos.Para descubrir las razones de la pérdida de usuarios, aumentar el número de usuarios, la actividad y la tasa de retención, y mejorar la cientificidad del análisis de datos y la toma de decisiones.

        Modelo de embudo de uso común: página de inicio—página de detalles del producto—agregar al carrito de compras—enviar pedido—pagar por pedido

        Este conjunto de datos solo contiene la página de detalles del producto (pv), agregar al carrito de compras (carrito) y datos del pedido de pago (compra), por lo que el modelo de embudo se simplifica a: página de detalles del producto, agregar al carrito de compras, pagar por pedido.

Embudo de conversión del comportamiento total del usuario (PV)

-- 用户总行为漏斗
SELECT behavior, COUNT(*)
FROM userbehavior
GROUP BY behavior
ORDER BY behavior DESC;

Gráfico de embudo de conversión de comportamiento total del usuario

 Embudo de conversión para visitantes únicos (UV)

-- 独立访客转化漏斗
SELECT behavior, COUNT(DISTINCT user_id)
FROM userbehavior
GROUP BY behavior
ORDER BY behavior DESC;

 

 

        Se puede encontrar un diagrama de embudo de conversión de comportamiento de usuario completo y un diagrama de embudo de conversión de visitante independiente:

  1. La tasa de conversión de navegar por la página de detalles del producto PV a la intención de compra es solo del 6,19 %, mientras que desde navegar por la página de detalles del producto UV a la intención de compra tiene una tasa de conversión del 75,45 %, y se puede saber a partir de los cálculos que el usuario promedio que navega por los detalles del producto generó por cada compra El número de páginas es pv/buy=89 5636/20359≈44 veces, lo que significa que los usuarios navegarán por una gran cantidad de páginas de detalles del producto para comparar y evaluar antes de comprar productos. Por lo tanto, navegar por la página de detalles del producto es el enlace clave para la mejora del índice. Podemos comenzar con el mecanismo de recomendación y hacer todo lo posible para hacer recomendaciones precisas basadas en los comportamientos de navegación diarios de los usuarios, reduciendo el costo para que los usuarios encuentren información.
  2. La cantidad de usuarios que pagaron pedidos representó el 68,92% de la cantidad de usuarios que navegaron por la página de detalles del producto, lo que refleja la alta tasa de conversión de compra de los usuarios de Taobao, y los productos en Taobao pueden satisfacer las necesidades de compra de la mayoría de los usuarios.

        Sugerencias para mejorar la tasa de conversión según los enlaces anteriores:

  1. Optimice el grado de coincidencia de búsqueda y la estrategia de recomendación de la plataforma, recomiende activamente productos con mayor relevancia de acuerdo con las preferencias del usuario, optimice la precisión y la capacidad de agregación de la búsqueda de productos y optimice la prioridad de clasificación de los resultados de búsqueda.
  2. Resalte la información clave que interesa a los usuarios en la página de detalles del producto, simplifique la presentación del flujo de información y reduzca el costo para que los usuarios encuentren información.

4.2 Analizar el comportamiento de los usuarios desde la dimensión temporal

4.2.1 Análisis del comportamiento diario del usuario

-- 每天的用户行为分析
SELECT date
	,COUNT(DISTINCT user_id) AS '每日用户数'
	,SUM(IF(behavior = 'pv', 1, 0)) AS '浏览数'
	,SUM(IF(behavior = 'fav', 1, 0)) AS '收藏数'
	,SUM(IF(behavior = 'cart', 1, 0)) AS '加购数'
	,SUM(IF(behavior = 'buy', 1, 0)) AS '购买数'
FROM userbehavior
GROUP BY date;

 Cambios diarios en los datos de comportamiento del usuario

        Dentro de la ventana estadística del 25 de noviembre de 2017 al 3 de diciembre de 2017, los días 25 y 26 de noviembre y 2 y 3 de diciembre son fines de semana.

        

        A partir de los cambios en los datos de comportamiento diario del usuario, podemos ver que del 25 de noviembre al 1 de diciembre, el rango de fluctuaciones de datos fue muy pequeño, y del 2 al 3 de diciembre, varios indicadores de datos aumentaron significativamente, más que los 7 días anteriores. indicadores de datos del artículo. Sin embargo, no hubo un aumento significativo en los diversos indicadores de datos del fin de semana anterior (25 de noviembre-26 de noviembre), por lo que el aumento en los indicadores de datos del 2 de diciembre al 3 de diciembre tiene poca correlación con el fin de semana y está determinado por El usuario diario El gráfico de datos de comportamiento muestra que el aumento en el número de usuarios activos diarios, el número de vistas, el número de favoritos y el número de compras adicionales es más obvio que el número de compras. Por lo tanto, se especula que el aumento en los datos los indicadores del 2 al 3 de diciembre pueden estar relacionados con Está relacionado con las actividades de calentamiento de Taobao Double Twelve, y el calentamiento aumentará la cantidad de búsqueda, recolección y compras adicionales que son acciones previas a la compra.

4.2.2 Análisis oportuno del comportamiento del usuario

-- 每时用户行为分析
SELECT hour
	,COUNT(DISTINCT user_id) AS '每日用户数'
	,SUM(IF(behavior = 'pv', 1, 0)) AS '浏览数'
	,SUM(IF(behavior = 'fav', 1, 0)) AS '收藏数'
	,SUM(IF(behavior = 'cart', 1, 0)) AS '加购数'
	,SUM(IF(behavior = 'buy', 1, 0)) AS '购买数'
FROM userbehavior
GROUP BY hour;

Cambios en los datos de comportamiento del usuario cada vez

        A partir de los cambios en los datos de comportamiento del usuario cada hora, podemos ver que alrededor de las 2 a las 5 en punto, varios indicadores de datos ingresaron en un período bajo, y a las 9 a las 18 en punto, los datos mostraron un pequeño pico, con pequeñas fluctuaciones. (entre ellos, a las 12 y 16-17 Hay una pequeña caída de puntos), a las 18-23, cada indicador de datos presenta un gran pico y alcanza el pico máximo de datos diarios en alrededor de las 21:00, y la tendencia de los cambios de datos está en línea con las reglas normales de trabajo y descanso de la mayoría de los usuarios.

        Al formular estrategias operativas, puede utilizar esta regla para generar ingresos y optar por utilizar métodos de marketing como transmisión en vivo y actividades promocionales entre las 20 y las 22 horas, cuando los usuarios están más activos.

4.3 Análisis del comportamiento del usuario desde la dimensión del producto

        La popularidad del producto se puede analizar desde dos dimensiones de ventas y visitas a la página. Los productos con un alto número de visitas pueden ser atraídos por páginas o anuncios, o simplemente están interesados, y los usuarios pueden no necesariamente comprarlos, mientras que los productos con un alto volumen de ventas pueden ser lo que realmente necesitan los usuarios. Por lo tanto, es necesario combinar las dos dimensiones de ventas y páginas vistas para el análisis.

4.3.1 Análisis de rankings de productos

4.3.1.1 Lista de los 10 productos más vendidos

Consulta los diez productos más vendidos 

-- 售出商品总数
SELECT COUNT(DISTINCT item_id)
FROM userbehavior
WHERE behavior = 'buy';
-- 商品销量排行榜前10
SELECT item_id, COUNT(behavior) AS '购买次数'
FROM userbehavior
WHERE behavior = 'buy'
GROUP BY item_id
ORDER BY 购买次数 DESC
LIMIT 10;

 

        De la lista de ventas de productos, se puede encontrar que entre los 17,565 productos vendidos, las ventas de un solo producto no superaron las 17 veces como máximo, y solo 5 productos vendidos más de 10 veces. Se puede ver que no hay productos populares en el conjunto de datos analizados, y la diversificación de productos depende de satisfacer las necesidades de los clientes, por lo que podemos centrarnos más en aumentar la diversidad de productos en lugar de crear productos populares.

4.3.1.2 Lista de los 10 productos más vistos

Consulta los diez productos principales con más páginas vistas

-- 商品浏览量排行榜前10
SELECT item_id, COUNT(behavior) AS '浏览次数'
FROM userbehavior
WHERE behavior = 'pv'
GROUP BY item_id
ORDER BY 浏览次数 DESC
LIMIT 10;

Conecte las tablas de las diez ventas principales y las diez páginas vistas, y realice un análisis preliminar de la correlación entre las ventas y las páginas vistas.

-- 商品销量榜单与浏览量榜单表连接(top10)
SELECT a.item_id, a.购买次数, b.浏览次数
FROM (
	SELECT item_id, COUNT(behavior) AS '购买次数'
	FROM userbehavior
	WHERE behavior = 'buy'
	GROUP BY item_id
	ORDER BY 购买次数 DESC
	LIMIT 10
) AS a
LEFT JOIN (
	SELECT item_id, COUNT(behavior) AS '浏览次数'
	FROM userbehavior
	WHERE behavior = 'pv'
	GROUP BY item_id
	ORDER BY 浏览次数 DESC
	LIMIT 10
) AS b
	ON a.item_id = b.item_id;

Una tabla que conecta las 20 mejores ventas y las 20 vistas principales 


-- 商品销量榜单与浏览量榜单表连接(top20)
SELECT a.item_id, a.购买次数, b.浏览次数
FROM (
	SELECT item_id, COUNT(behavior) AS '购买次数'
	FROM userbehavior
	WHERE behavior = 'buy'
	GROUP BY item_id
	ORDER BY 购买次数 DESC
	LIMIT 20
) AS a
LEFT JOIN (
	SELECT item_id, COUNT(behavior) AS '浏览次数'
	FROM userbehavior
	WHERE behavior = 'pv'
	GROUP BY item_id
	ORDER BY 浏览次数 DESC
	LIMIT 20
) AS b
	ON a.item_id = b.item_id
WHERE 浏览次数 IS NOT NULL;

 

Una tabla que conecta las 20 principales ventas de productos, páginas vistas, favoritos y compras adicionales

         Los resultados muestran que ninguno de los 10 productos principales se clasificó entre los 10 principales en términos de visitas a la página, y solo 3 de los 20 productos principales se clasificaron entre los 20 principales en términos de visitas a la página y compras adicionales. Refleja que la correlación entre ventas y visualizaciones (así como favoritos y compras adicionales) es pobre, y el número de visualizaciones (así como favoritos y compras adicionales) de productos de mayor venta no es necesariamente alto, por lo que es necesario combinar las dos dimensiones de ventas y vistas al mismo tiempo analizar. A continuación, dividirá los productos en cuatro cuadrantes en función de las dos dimensiones de ventas de productos y páginas vistas, analizará el comportamiento del usuario correspondiente a diferentes productos y propondrá las medidas de mejora correspondientes.

4.3.2 División de productos básicos en cuatro cuadrantes

        Los valores de corte de las dos dimensiones de ventas y vistas de página son 4 y 40 respectivamente (los valores de corte deben determinarse de acuerdo con el escenario comercial real), y los productos se dividen en cuatro cuadrantes según al volumen de ventas y al número de páginas vistas.

-- 查询所有商品的浏览量与销量
SELECT item_id
	,SUM(IF(behavior = 'pv', 1, 0)) AS '浏览次数'
	,SUM(IF(behavior = 'buy', 1, 0)) AS '购买次数'
FROM userbehavior u
GROUP BY item_id
ORDER BY 购买次数 DESC;

        Cuadrante Ⅰ: las vistas y las ventas del producto son altas, lo que indica que la tasa de conversión del producto es alta y es un producto popular entre los usuarios.

        Método de optimización: concéntrese en impulsar los productos en este cuadrante para aumentar la exposición y, al mismo tiempo, realizar más actividades para atraer a más usuarios potenciales.

        Cuadrante II: El volumen de ventas del producto es relativamente alto, pero el número de páginas vistas es bajo. Hay dos posibles razones para este fenómeno:

        ①Los productos en este cuadrante pueden pertenecer a un grupo específico de productos de necesidad, y los objetivos de búsqueda y exploración de audiencias específicas son relativamente claros;

        ②Los productos en este cuadrante tienen una amplia audiencia y una alta tasa de conversión, pero la cantidad de entradas de drenaje es pequeña, lo que resulta en una baja exposición.

        Método de optimización: recopile la información de los usuarios que compran y buscan productos en este cuadrante, analice los retratos de los usuarios y combine las características del producto para verificar si hay una audiencia específica para el producto.

        ①Si existe, la plataforma puede realizar impulsos direccionales y precisos para este tipo de usuarios, y también puede establecer una comunidad exclusiva para este tipo de usuarios para proporcionar una plataforma más conveniente para la comunicación de los usuarios y aumentar aún más la permanencia de los usuarios;

        ②Si no existe, puede hacer más promoción de los productos en este cuadrante, establecer palabras clave de búsqueda de alta frecuencia para aumentar la tasa de exposición, aumentar la entrada de drenaje, aumentar la cantidad de visitas y las ventas pueden aumentar en consecuencia. .

        Cuadrante Ⅲ: el volumen de visualización y el volumen de ventas del producto son bajos, y se deben considerar las razones de la entrada de drenaje y el producto en sí.

        Mejoramiento:

        ① Considere si la promoción del producto es demasiado pequeña y la cantidad de entradas de drenaje es pequeña, puede intentar aumentar la exposición del producto.

        ②Si el volumen de ventas del producto sigue siendo relativamente lento después de aumentar la exposición, significa que el usuario no está interesado en el producto, por lo que es necesario considerar si el producto es lo que el usuario realmente necesita y si el producto tiene un efecto deficiente. puede considerarse directamente optimizada.

        Cuadrante Ⅳ: El volumen de visualización del producto es alto, pero el volumen de ventas es bajo, lo que indica que la tasa de conversión del producto es baja. Las razones se pueden analizar desde los siguientes aspectos:

        ① Público objetivo: la promoción del producto en sí es muy atractiva, pero la direccionalidad no es lo suficientemente clara, lo que hace que muchos usuarios no objetivo hagan clic en el producto, pero no lo compren;

        ② Precio de los productos básicos: el precio de los productos básicos es demasiado alto y hay productos similares y rentables que se pueden reemplazar, y los usuarios cambiarán a otros productos similares;

        ③ Página de detalles del producto, servicio al cliente y evaluación: los usuarios no pueden obtener la información detallada del producto que necesitan de la página de detalles y el servicio al cliente, o hay muchas críticas negativas sobre el producto, o algunos problemas que preocupan a los usuarios se mencionan en la evaluación, resultando en que los usuarios no compren;

        ④Proceso de compra: Se complica el uso de cupones de productos, o se complica el proceso de compra, lo que hace que los usuarios desistan de comprar.

        Método de optimización: de acuerdo con las posibles razones anteriores, utilice la investigación, las pruebas A/B y otros métodos para averiguar las razones y prescribir el medicamento adecuado.

4.3.3 Análisis del "efecto de cola larga"

        Long Tail Effect, nombre en inglés Long Tail Effect. "Cabeza" y "cola" son dos términos estadísticos. La parte que sobresale en el medio de la curva normal se llama "cabeza"; las partes relativamente planas en ambos lados se llaman "cola". Desde la perspectiva de las necesidades de las personas, la mayor parte de las necesidades estarán concentradas en la cabeza, ya esta parte la podemos llamar popular, mientras que las necesidades distribuidas en la cola son individualizadas, dispersas y en pequeñas cantidades. Y esta parte de la demanda diferenciada y pequeña formará una "cola" larga en la curva de demanda , y el llamado efecto de cola larga radica en su cantidad. La suma de todos los mercados no populares formará un mercado relativamente popular. El mercado sigue siendo grande.

        La raíz del efecto de cola larga es enfatizar la "personalización", el "poder del cliente" y "pequeña ganancia y gran mercado", es decir, ganar una pequeña cantidad de dinero, pero ganar mucho dinero de la gente. Cuando el mercado se subdivide en mercados muy pequeños, se encontrará que la acumulación de estos mercados pequeños producirá un efecto de cola larga evidente. 

Categorizar productos según las ventas de productos 

-- 根据商品销量对商品进行分类统计
SELECT t.购买次数, COUNT(t.item_id) AS '商品量'
FROM (
	SELECT item_id, COUNT(item_id) AS '购买次数'
	FROM userbehavior
	WHERE behavior = 'buy'
	GROUP BY item_id
	ORDER BY 购买次数 DESC
) AS t
GROUP BY t.购买次数
ORDER BY 商品量 DESC;

         De acuerdo con los datos de volumen de productos correspondientes a diferentes volúmenes de ventas, entre los 17 565 artículos vendidos, 15 536 artículos se compraron una sola vez, lo que representa el 88,45 % del número total de artículos colocados, lo que indica que las ventas de productos de Taobao se basan principalmente en la acumulación de productos a largo plazo. artículos de cola El efecto no es impulsado por productos explosivos.

4.4 Análisis del comportamiento del usuario basado en el modelo de jerarquía de usuarios de RFM

        Dado que el conjunto de datos no incluye el monto del pedido, la dimensión M no se considera en este análisis, solo se analizan las dimensiones R y F, y los indicadores de las dos dimensiones se califican y califican, y finalmente los usuarios se estratifican según la puntuación integral.

4.4.1 Análisis de la dimensión R

        Calcule el valor R del último intervalo de tiempo de consumo del usuario (cuanto menor sea el valor R, más cercano será el último tiempo de consumo del usuario) y puntúe el valor R. Según los resultados del valor R, se divide en tres intervalos [0:2], [3:5], [6:8], y los valores de R_score son 3, 2 y 1 respectivamente.

-- RFM模型——R维度分析
CREATE VIEW r_value AS
	SELECT user_id, DATEDIFF('2017-12-03', MAX(date)) AS R
	FROM userbehavior
	WHERE behavior = 'buy'
	GROUP BY user_id;
-- 进行R维度打分
CREATE VIEW r_score AS
	SELECT user_id, R
		,CASE 
			WHEN R BETWEEN 0 AND 2 THEN 3
			WHEN R BETWEEN 3 AND 5 THEN 2
			ELSE 1
		END AS R_score
	FROM r_value;
-- 统计R_score数量
SELECT R_score, COUNT(R_score)
FROM r_score
GROUP BY R_score
ORDER BY R_score DESC;

Estadísticas de la proporción de diferentes R_score

        A partir de la proporción de R_score, se puede encontrar que más de la mitad de los usuarios realizaron su última compra en los últimos 3 días, lo que indica que Taobao tiene una buena adherencia al usuario.

4.4.2 Análisis de la dimensión F

        Calcule el valor F de la frecuencia de consumo del usuario (cuanto menor sea el valor F, más gasta el usuario en un período de tiempo) y puntúe el valor F. Según el resultado del valor F (el valor máximo es 72), se divide en 6 intervalos [1:9], [10:19], [20:29], [30:39], [40:49], [50 :72], dando valores de R_score de 1, 2, 3, 4, 5 y 6 puntos respectivamente. 

-- RFM模型——F维度分析
CREATE VIEW f_value AS
	SELECT user_id, COUNT(behavior) AS F 
	FROM userbehavior
	WHERE behavior = 'buy'
	GROUP BY user_id;
-- 进行F维度打分
CREATE VIEW f_score AS
	SELECT user_id, F
		,CASE 
			WHEN F BETWEEN 1 AND 9 THEN 1
			WHEN F BETWEEN 10 AND 19 THEN 2
			WHEN F BETWEEN 20 AND 29 THEN 3
			WHEN F BETWEEN 30 AND 39 THEN 4
			WHEN F BETWEEN 40 AND 49 THEN 5
			ELSE 6
		END AS F_score
	FROM f_value;
-- 统计F_score数量
SELECT F_score, COUNT(F_score)
FROM f_score
GROUP BY F_score
ORDER BY F_score DESC;

Estadísticas de diferentes proporciones de F_score 

        A partir de la proporción de F_score, se puede encontrar que dentro del intervalo estadístico, el 96,76 % de los usuarios han pasado de 1 a 9 veces en Taobao, y solo el 3,24 % de los usuarios han pasado 10 veces o más en Taobao.

4.4.3 Jerarquía de usuarios

        R y F se califican de manera integral, y los usuarios se estratifican de acuerdo con los puntajes: los usuarios se dividen en cuatro grados: 2-3 puntos, 4-5 puntos, 6-7 puntos y 8-9 puntos, correspondientes a fáciles de usar. abandono de usuarios, retención de usuarios, desarrollo de usuarios y usuarios leales.

-- RF综合打分
CREATE VIEW rf_score AS
	SELECT r.user_id, R_score, F_score
		,R_score + F_score AS RF_score
	FROM r_score r join f_score f 
		ON r.user_id = f.user_id;
-- 用户分层并统计不同类型用户数量
SELECT 用户分层, COUNT(*) AS user_cnt
FROM (
	SELECT *
		,CASE WHEN RF_score BETWEEN 2 AND 3 THEN '易流失用户'
			WHEN RF_score BETWEEN 4 AND 5 THEN '挽留用户'
			WHEN RF_score BETWEEN 6 AND 7 THEN '发展用户'
			ELSE '忠实用户' END AS '用户分层'
	FROM rf_score
) AS t
GROUP BY 用户分层;

Proporción estadística de diferentes tipos de usuarios 

Resultados de estratificación de usuarios:

  • La proporción de retención de usuarios es la más alta, y el valor potencial de esta parte de los usuarios para aprovechar es muy grande. Se debe llevar a cabo una activación regular de estos usuarios, como nuevos recordatorios, distribución de descuentos y recomendaciones de productos más precisas, etc. ., para fidelizar a los usuarios y aumentar su frecuencia de consumo;
  • Los usuarios que son propensos a abandonar representan una proporción relativamente alta. Estos usuarios pueden haber encontrado alternativas en otras plataformas o tener una mala experiencia con el producto. Puede realizar una investigación sobre estos usuarios para averiguar los motivos de la rotación y utilizar incentivos de precios, distribución preferencial , etc . para recordar a los usuarios de manera oportuna ;
  • La proporción de usuarios en desarrollo es relativamente baja, y se pueden impulsar regularmente nuevos productos y actividades promocionales a estos usuarios para aumentar aún más la frecuencia de consumo;
  • Los usuarios leales representan la proporción más baja, y estos usuarios son usuarios de alto valor, que necesitan formular estrategias de operación exclusivas para mantener la permanencia del usuario, como descuentos exclusivos, servicio al cliente exclusivo, etc.

 Análisis del efecto de estratificación de usuarios:

        A juzgar por la proporción de diferentes usuarios, el efecto de la estratificación de usuarios esta vez no es bueno, lo que puede deberse a las siguientes dos razones:

  1. La división de las dos dimensiones no es razonable y los usuarios no se distinguen bien. Debe observar la distribución de los usuarios en cada dimensión con anticipación al realizar la división y dividir la división de acuerdo con las necesidades de los escenarios comerciales reales;
  2. El número de intervalos dividido por las dos dimensiones es inconsistente y los intervalos de puntuación asignados son bastante diferentes, lo que equivale a asignar diferentes pesos a las dos dimensiones.

        Puede ser mejor usar un diagrama de dispersión de cuatro cuadrantes con dos dimensiones de RF.

V. Conclusiones y Sugerencias

        Este artículo analiza casi 1 millón de datos de comportamiento de usuarios de Taobao en cuatro dimensiones. Las conclusiones y sugerencias generales son las siguientes:

5.1 Análisis del embudo de conversión del comportamiento del usuario

  1. A juzgar por la tasa de recompra y la tasa de rebote, los productos en la plataforma Taobao son lo suficientemente atractivos para los usuarios (tasa de recompra alta y tasa de rebote baja), lo que demuestra que la plataforma Taobao se encuentra actualmente en el "modo de lealtad" y el enfoque está en mantener a los clientes antiguos. .Fidelización de usuarios.
  2. De acuerdo con el análisis de la conversión del comportamiento del usuario, los productos en la plataforma Taobao pueden satisfacer las necesidades de la mayoría de los usuarios (la tasa de conversión de compra es alta). Hay una tasa de conversión del 75,45 % desde la búsqueda de la página de detalles del producto UV hasta la intención de compra, pero solo una tasa de conversión del 6,19 % desde la navegación de la página de detalles del producto PV hasta la intención de compra, lo que indica que los usuarios navegarán por una gran cantidad de páginas de detalles del producto para comparar y evaluar antes de comprar productos. Navegar por la página de detalles del producto es el enlace clave para la mejora del indicador Podemos comenzar con el mecanismo de recomendación e intentar hacer recomendaciones precisas basadas en los comportamientos de navegación diarios de los usuarios para reducir el costo de los usuarios que buscan información.

        Sugerencias para mejorar la tasa de conversión en los enlaces anteriores:

  1. Optimice el grado de coincidencia de búsqueda y la estrategia de recomendación de la plataforma, recomiende activamente productos con mayor relevancia de acuerdo con las preferencias del usuario, optimice la precisión y la capacidad de agregación de la búsqueda de productos y optimice la prioridad de clasificación de los resultados de búsqueda.
  2. Resalte la información clave que interesa a los usuarios en la página de detalles del producto, simplifique la presentación del flujo de información y reduzca el costo para que los usuarios encuentren información.

5.2 Análisis del comportamiento del usuario en la dimensión temporal

  1. Desde la perspectiva de la dimensión de la fecha, hay poca diferencia entre los diversos indicadores de datos de comportamiento de los usuarios los fines de semana y los días de semana, pero se ven muy afectados por las actividades de la plataforma a gran escala como Double 12. El alcance del análisis se puede ampliar aún más, como realizar un análisis de comparación año tras año, marcar cada festival de compras relativamente grande, centrarse en los cambios en el comportamiento del usuario antes y después del festival de compras y comparar cada fin de semana para analizar la promoción. actividades del festival de compras El impacto en el comportamiento de los usuarios los fines de semana y fuera de los fines de semana; realizar un análisis anual de cada mes en un año, comparar la tendencia del comportamiento de compra y averiguar si hay un patrón creciente de compra comportamiento a lo largo del mes (combinado con datos de edad del usuario para análisis, comportamiento de compra El aumento puede estar relacionado con el período de pago del salario).
  2. Desde la perspectiva de la dimensión del tiempo, el período pico activo de varios comportamientos de los usuarios es entre las 20 y las 22 de la noche. Al formular estrategias de operación, puede usar esta regla para generar ingresos y optar por usarla entre las 20 y las 22 de la noche. 'reloj cuando los usuarios están más activos Métodos de marketing como transmisión en vivo, actividades promocionales, etc.

5.3 Análisis del comportamiento del usuario en las dimensiones de los productos básicos

        La correlación entre las ventas de productos y las visitas a la página del producto es pobre. Los productos con muchas visitas a la página no tienen necesariamente un alto nivel de ventas, y los productos con altas ventas no necesariamente tienen un alto número de visitas a la página. Por lo tanto, no es necesario aumentar ciegamente las visitas a la página y las ventas no aumentarán. respectivamente. De acuerdo con el análisis del diagrama de división de cuatro cuadrantes, debemos centrarnos en mejorar los productos básicos en el segundo, tercer y cuarto cuadrante:

  1. Para los productos en el segundo cuadrante (alto volumen de ventas, pocas páginas vistas), se deben analizar los retratos de los usuarios.Si hay una audiencia específica, la plataforma puede proporcionar impulsos específicos y precisos para este tipo de usuarios, y también puede establecer una comunidad exclusiva. para este tipo de usuario. La comunicación proporciona una plataforma más conveniente para aumentar aún más la adherencia del usuario; si no hay una audiencia específica, puede promocionar más productos en el cuadrante, establecer palabras clave de búsqueda de alta frecuencia, aumentar la exposición y aumentar las entradas de drenaje;
  2. Para los productos en el tercer cuadrante (ventas bajas, páginas vistas bajas), debe intentar aumentar la exposición de los productos y analizar si las ventas aumentarán en consecuencia. Si las ventas de los productos siguen siendo relativamente lentas después de aumentar la exposición, es significa que los usuarios no están interesados ​​en los productos. Es necesario considerar si el producto es lo que el usuario realmente necesita, y el producto con un efecto deficiente puede considerarse directamente optimizado;
  3. Para los productos en el cuarto cuadrante (volumen de ventas bajo, vistas de página altas), debemos comenzar desde el grupo objetivo, el precio del producto, la página de detalles del producto, el servicio al cliente y la evaluación, y el proceso de compra, y utilizar la investigación, las pruebas A/B y otros. métodos según las posibles razones Averigüe la causa y prescriba el medicamento adecuado.

5.4 "Ley del octavo al veinte" o "efecto de cola larga"

        A través del análisis, se encontró que el volumen de ventas de productos en la plataforma Taobao es impulsado principalmente por el "efecto de cola larga" en lugar de productos de venta caliente. Sin embargo, la amplia variedad de productos es en realidad una carga operativa para los comerciantes, y el costo también es alto. De acuerdo con la "Ley 28", los comerciantes pueden obtener ganancias creando productos explosivos. Para productos populares, se recomienda mejorar la calidad del producto en términos de control de calidad, aumentar los esfuerzos en publicidad (drenar el tráfico en otras plataformas) y resaltar las ventajas del producto en la pantalla (imagen principal, página de detalles, reseñas), etc.

5.5 Análisis del modelo RMF

        Use el modelo RFM para estratificar a los usuarios y adopte diferentes estrategias operativas para diferentes tipos de usuarios:

  1. Retención de usuarios: estos usuarios tienen un gran valor potencial para aprovechar, y se debe realizar una promoción periódica para estos usuarios, como nuevos recordatorios, distribución preferencial y recomendaciones de productos más precisas, etc., para retener a los usuarios y aumentar su frecuencia de consumo;
  2. Usuarios que son propensos a abandonar: estos usuarios pueden haber encontrado sustitutos en otras plataformas o tener una mala experiencia con el producto. Puede realizar una investigación sobre estos usuarios para averiguar las razones del abandono y utilizar incentivos de precios, distribución preferencial, etc. para recordar a los usuarios. de una manera oportuna;
  3. Desarrollar usuarios: los nuevos productos y las actividades promocionales se pueden enviar regularmente a estos usuarios para aumentar aún más la frecuencia de consumo;
  4. Usuarios leales: estos usuarios son usuarios de alto valor y necesitan formular estrategias de operación exclusivas para mantener la permanencia del usuario, como descuentos exclusivos y servicio al cliente exclusivo.

Supongo que te gusta

Origin blog.csdn.net/KOGAMIKEI/article/details/129394608
Recomendado
Clasificación