Análisis de datos simple intercambio de preguntas (con respuestas)

  1. Estime el número de recién nacidos nacidos este año sin usar ninguna referencia pública
    Respuesta:

    1) Adoptar un modelo de dos capas ( transformación de población de retrato de multitud): número de recién nacidos = Σ número de mujeres en edad fértil en cada grupo de edad Tasa de fecundidad de cada grupo de edad
    2) De número a número: si hay datos sobre el número de recién nacidos nacidos en años anteriores, el tiempo de establecimiento Modelo de secuencia (necesita tener en cuenta el evento de mutación de la liberación del segundo hijo) para la predicción
    3) Buscar indicadores precursores, como el número de nuevos usuarios activos de productos para bebés X representa a los usuarios familiares recién nacidos. Xn/recién nacido n es la tasa de conversión de usuarios domésticos recién nacidos en este año, por ejemplo, X2007/recién nacido 2007 es la tasa de conversión de usuarios domésticos recién nacidos en 2007. La tasa de conversión se desarrollará con el desarrollo de la plataforma. La tasa de conversión aproximada de este año se puede publicar en función de la cantidad de años anteriores, y la cantidad estimada de recién nacidos de este año se puede publicar en función de la cantidad de usuarios familiares recién nacidos este año.
    2. ¿A qué distribución pertenece el número de planetas por unidad de volumen en el universo observado?
    A Distribución de Student: Estime la media de la distribución normal con un tamaño de muestra pequeño
    B Distribución de Poisson: La probabilidad de que ocurra un evento dentro de un cierto período de tiempo. También se puede considerar como una distribución binomial con una n grande y una p pequeña.
    C Distribución normal: grupos múltiples (media de una variable aleatoria bajo múltiples experimentos repetidos independientes)
    D Distribución binomial: experimentos repetidos independientes de múltiples lanzamientos de monedas
    Solución:
    A Distribución de Student: tamaño de muestra pequeño para la media de una distribución normal Estimación
    B Distribución de Poisson: la probabilidad de que ocurra un evento dentro de un cierto período de tiempo. También se puede considerar como una distribución binomial con una n grande y una p pequeña.
    C Distribución normal: grupos múltiples (promedio de variables aleatorias bajo múltiples experimentos repetidos independientes)
    D Distribución binomial: experimentos repetidos independientes de múltiples lanzamientos de monedas
    Si el volumen se considera como tiempo, entonces esta pregunta se ajusta a la distribución B de Poisson.

  2. Métodos comunes de reducción de dimensionalidad
    1) PCA y análisis factorial
    2) LDA
    3) Método múltiple: LLE (incrustación lineal local), mapa de características de Laplacian, ISOMAP
    4) Característica de extracción de máquina de codificación automática
    5) SVD
    6) Extracción de modelo de árbol Característica
    7) incrustación

4. Cuando los usuarios ingresan por primera vez a la aplicación, elegirán atributos. Cómo reducir la rotación de usuarios y garantizar la información completa del usuario
Respuesta: Cuando los usuarios ingresan por primera vez a la aplicación, seleccionarán atributos. Cómo reducir la rotación de usuarios y garantizar la información completa del
usuario Modelo de Aceptación de Tecnología (TAM) para analizar, los principales factores que afectan la aceptación del usuario del atributo seleccionado son:
1) Utilidad percibida:
a) El texto informa al usuario de los beneficios que el atributo seleccionado puede traer al usuario
2) Percibido facilidad de uso:
a. Asocie la cuenta de terceros del usuario (como Weibo), que puede coincidir con los atributos que es más probable que elija el usuario durante la fase de inicio en frío, y recomiéndele que elija b. Haga un buen
trabajo de interactividad
3) Actitud del usuario: la actitud del usuario hacia el llenado de información
a. Aquí Necesita permitir que los usuarios salten y recordar a los usuarios que completen más tarde
b. Informar a los usuarios que la información completada estará bien protegida
4) Intención de comportamiento: el propósito del usuario que utiliza la aplicación, que es difícil de controlar
5) Variables externas: como el tiempo de operación, el entorno de operación, etc., aquí es difícil de controlar

5. Ventajas y desventajas de SVM
1) Ventajas:
a) Se puede aplicar a situaciones separables no linealmente
b) La clasificación final está determinada por el vector de soporte, y la complejidad depende del número de vectores de soporte en lugar de la dimensión del espacio de muestra, evitando el desastre de dimensión
c. Robustez: debido a que solo se usa una pequeña cantidad de vectores de soporte, se capturan muestras clave y se eliminan las muestras redundantes
d. Buen rendimiento en situaciones de alta dimensión y muestra baja, como la clasificación de texto
2 ) Desventajas:
a. Alta complejidad del entrenamiento del modelo
b. Difícil de adaptar a problemas de clasificación múltiple
c. No existe una metodología mejor para la selección de funciones del núcleo
6. Una breve introducción a los bosques aleatorios y algunos detalles

1)随机森林原理:通过构造多个决策树,做bagging以提高泛化能力
2)随机方法包括:subsample(有放回抽样)、subfeature、低维空间投影(特征做组合,参考林轩田的《机器学习基石》)
3)有放回抽样,可以用包外样本做检验
4)也可以用OOB做特征选择,思路:
    a. 如果一个特征有效,那么这个特征引入杂质会明显影响模型效果
    b. 引入杂质会影响分布,所以更好的方式是对特征中的取值进行洗牌,然后计算前后模型的差异
    c. 但是我们不想训练两个模型,可以利用OOB进行偷懒。把OOB中的数据该特征取值洗牌,然后扔进训练好的模型中,用输出的结果进行误差检验

(Consulte la respuesta de @王娟: https://www.zhihu.com/question/26225801) 6.
Introducción al principio de GBDT
1) Primero, presente Adaboost Tree, que es un método de integración de árbol para potenciar. La idea básica es entrenar múltiples árboles en secuencia y ponderar las muestras mal clasificadas cuando se entrena cada árbol. La ponderación de las muestras en el modelo de árbol es en realidad la ponderación de la probabilidad de muestreo de las muestras. Cuando se muestrea con reemplazo, es más probable que se extraigan muestras incorrectas.

2) GBDT es una mejora de Adaboost Tree. Cada árbol es un CART (árbol de clasificación y regresión). El árbol genera un valor en el nodo hoja. El error de clasificación es el valor real menos el valor de salida del nodo hoja para obtener el residual. Lo que tiene que hacer GBDT es usar el método de descenso de gradiente para reducir el valor del error de clasificación

En la iteración de GBDT, suponiendo que el alumno fuerte que obtuvimos en la ronda anterior de iteración es ft−1(x), y la función de pérdida es L(y,ft−1(x)), nuestro objetivo de esta ronda de iteración iteración es encontrar un CARRITO El alumno débil ht(x) del modelo de árbol de regresión minimiza la pérdida L(y,ft(x)=L(y,ft−1(x)+ht(x)) de esta ronda Es decir, este árbol de decisión se encuentra por rondas de iteraciones, y la pérdida de muestras debe ser lo más pequeña posible.

La idea de GBDT se puede explicar con un ejemplo popular. Si una persona tiene 30 años, primero usamos 20 años para encajar y encontramos que la pérdida tiene 10 años. En este momento, usamos 6 años para ajuste la pérdida restante y encuentre que todavía hay una brecha de 4 años, en la tercera ronda usamos 3 años para ajustar la brecha restante, y la brecha tenía solo un año. Si nuestro número de rondas de iteración no ha terminado, podemos continuar iterando a continuación, y el error de la edad de ajuste disminuirá en cada ronda de iteración.

(Referencia: https://www.cnblogs.com/pinard/p/6140514.html)

3) Después de obtener varios árboles, se realiza una votación ponderada de acuerdo con el error de clasificación de cada árbol

Supongo que te gusta

Origin blog.csdn.net/m0_66106755/article/details/129557137
Recomendado
Clasificación