Ideas de preguntas de los Juegos Americanos 2020 C (con código completo)

Aquí está el registro de mi tercera (última) participación en la competencia de EE. UU., El segundo artículo está aquí , el primer artículo está aquí

Este artículo fue escrito a las 6:55 am del 10 de marzo de 2020. Fue solo 25 minutos después de que envié el documento. Sufrí somnolencia. Aunque todavía recuerdo algunas ideas, rápidamente tomé notas para evitar olvidarme cuando dormía. Apagado

Antes del partido

No preparé nada antes del juego. Esta vez iba a sacar el agua, porque incluso si ganaba el premio O, también era a finales de abril. Para entonces, el reexamen de posgrado habría terminado.

6 de marzo

Originalmente puse el despertador a las 6 en punto de la mañana, pero me quedé dormido antes de levantarme hasta las 7 en punto, y luego mis compañeros de equipo han traducido la pregunta C muy íntimamente. Después de todo, han participado juntos en el juego y no necesitan discutir. Que pregunta elegir. Así que esta vez solo sé el título de la pregunta C. Ni siquiera miré otras preguntas. La pregunta C trata sobre darle un conjunto de datos de tres productos. Hay algunos campos en el conjunto de datos: puntaje (valor), comentario (texto), si comprar (S / N), número de marca ... Si desea responder un montón de preguntas basadas en estos tres conjuntos de datos, cuál es el establecimiento de un modelo cualitativo o cuantitativo para las revisiones de calificación, y si un nivel específico de calificación causará más revisiones o similares, hay aproximadamente 7 preguntas en total. Casualmente, he estado estudiando PNL antes del juego, y las preguntas C tratan los comentarios (texto), que en realidad es el problema de la PNL. Mi enfoque específico es realizar un análisis de opinión en review_body y dividir el valor de opinión en tres niveles: positivo, neutral y negativo. El análisis de sentimientos es muy simple, y hay muchos modelos que pueden hacerlo. Utilizo el modelo de LSTM bidireccional. Los LSTM bidireccionales pueden considerar la información de contexto al mismo tiempo, que es más precisa que las LSTM tradicionales. Me llevó 30 minutos depurar con PyTorch, así que lo ejecuté localmente y me pareció demasiado lento, así que cambié a colab y lo ejecuté con GPU. Entonces, ¿cómo integrar los resultados obtenidos en la puntuación? Hice esto, la calificación original era de solo 5 archivos (1 ~ 5). Pero algunas personas pueden haber dado 4.5 puntos, el sistema se redondeó automáticamente, para restaurar y obtener una distribución de puntaje más precisa, o se puede decir que es una distribución de puntaje más discreta, formulé la siguiente estrategia:

Si el puntaje original de una persona es mayor o igual a 4, y el resultado del análisis de opinión es positivo, no se realiza ningún cambio

Si el puntaje original de una persona es menor o igual a 2, y el resultado del análisis de opinión es negativo, no se realiza ningún cambio

Si el puntaje original de una persona pertenece a (2,4), y el resultado del análisis de sentimientos es positivo, entonces cambie el puntaje al puntaje original +0.5

Si el puntaje original de una persona pertenece a (2,4), y el resultado del análisis de sentimientos es negativo, entonces cambie el puntaje al puntaje original de -0.5

¿Por qué haces esto? Si lo piensa detenidamente, debería ser capaz de comprender la razón; si no lo comprende, también puede pensar que solo estoy pensando en ello.

Solo mire un gráfico discreto, la ordenada es la proporción de cada puntaje

La primera pregunta se me olvidó cómo hacerlo, y ahora soy demasiado vago para leer el periódico. No hice nada el primer día. Básicamente, simplemente procesé todo el texto, luego dibujé algunas imágenes y miré la distribución de datos, y luego estuve con mis compañeros de equipo. Hable y chatee (el trazo debe hacerse a fondo). El código del primer día a continuación (no completo)
Inserte la descripción de la imagen aquí

Y no hay BiLSTMs código de código de modelo en este artículo en

7 de marzo

El maestro No. 7 me dijo muchas ideas. La profunda impresión es que los usuarios que no han comprado productos también pueden calificar y comentar. El valor del campo verificado_comprado de usuarios que no han comprado es N. Luego, la maestra me pidió que dibujara la relación entre la proporción de 5, 4 y 1 estrella por mes y el volumen de ventas de un determinado producto. La maestra dijo abiertamente: "Encontraré algo". Sin embargo, no fue así, así que el día pasó el 7. El código para el día siguiente a continuación (no completo)
Inserte la descripción de la imagen aquí

8 de marzo

El maestro 8 básicamente no me dijo nada. Pero creo que es necesario terminar el trabajo para el trazo. De lo contrario, no podré caminar, así que empecé a trabajar duro el día 8. Ponga un código primero. El siguiente código es muy simple. Lo que debe hacer es ver si la calificación promedio de la marca más vendida puede afectar la calificación promedio de todo el producto. La respuesta es, por supuesto, pero no puede usar la "imagen" para obtener un poco de información, así que calculé los coeficientes de correlación y los coeficientes de Pearson de las dos curvas.
Inserte la descripción de la imagen aquí
Una pregunta está relacionada con la reputación del producto. Luego surge la pregunta. ¿Qué es la reputación y cómo cuantificar la reputación? La reputación es boca a boca, ¿cómo reflejar el boca a boca? Por supuesto, mira el puntaje. Sin embargo, el problema surgió nuevamente, porque hay casos en los que puede calificar sin comprar, por lo que puede haber revisiones maliciosas por parte de pares y revisiones autoinformadas por los marineros, por lo que les doy un peso, y el promedio ponderado final es Definido como reputación. Este peso es más complejo y dinámico, suponiendo que la cantidad de polvo negro> la cantidad de polvo rojo, qué se debe hacer y la cantidad de polvo rojo es mayor que la cantidad de polvo negro y qué hacer. Directamente debajo del código
Inserte la descripción de la imagen aquí
, hay un problema detrás para encontrar productos potenciales que pueden tener éxito (o fallar). Entonces la pregunta es, ¿cómo definir el potencial? Cómo definir el éxito (fracaso). Creo que sí, clasifique las diversas marcas según el volumen de ventas de pequeñas a grandes, y las marcas dentro de 1/4 y 3/4 son marcas potenciales. 1/4 y 3/4 son en realidad dos puntos más comunes en estadística, uno es el cuartil inferior y el otro es el cuartil superior. Ambos números tienen significados específicos, pero podemos sentir primero Entienda, si el volumen de ventas de un producto es 3/4, ¿se le puede llamar potencial? Obviamente, este es un producto muy atractivo. Si el volumen de ventas de un producto es 1/4, el volumen de ventas es demasiado pequeño. Cerca de 10 piezas, es imposible ver el potencial. Después de encontrar las marcas en 1/4 y 3/4, dibuje sus calificaciones positivas y negativas.Por supuesto, aquellos con calificaciones altas y bajas son productos potenciales que tienen el potencial de tener éxito, y viceversa. El siguiente código (no todos)
Inserte la descripción de la imagen aquí

9 de marzo

Hay una pregunta que pregunta si una calificación en particular generará más revisiones. Luego compare algunas calificaciones específicas con la cantidad de comentarios para ver si hay alguna relación

Otra pregunta es preguntar si algunas palabras específicas de calidad del producto están relacionadas con el puntaje (olvidé el tema específico, la idea parece ser así)

Mi enfoque es primero filtrar todos los datos cuyo valor verificado_comprado es Y, y analizar solo esos datos. Para cada producto, hay dos casos a considerar, uno es ver qué palabras son buenas y el otro es ver qué palabras son malas. Aquí uso el algoritmo TF-IDF para extraer palabras clave, y luego dibujo dos nubes de palabras.
Inserte la descripción de la imagen aquí
Todavía hay algunos problemas. Soy demasiado flojo para escribir. Al momento de escribir este artículo, ya son las 8 en punto. .

Después del partido

Gracias al instructor y dos de mis compañeros de equipo ♥

Vamos a publicar el resumen a continuación y ver los detalles por ti mismo.
Inserte la descripción de la imagen aquí

175 artículos originales publicados · 226 elogiados · 190,000 visitas

Supongo que te gusta

Origin blog.csdn.net/qq_37236745/article/details/104795327
Recomendado
Clasificación