Ciencia combate de datos (a): la inferencia estadística, análisis exploratorio de datos y flujos de trabajo científico

1. Introducción

¿Cuándo vas a ser un científico de datos, primero debe tener las siguientes habilidades: las estadísticas, álgebra lineal y algunos conocimientos de programación.

También es necesario desarrollar las siguientes habilidades: preprocesamiento de datos, los datos de reprocesamiento, el modelado de datos, codificación, visualizar y comunicar con eficacia, estas habilidades a menudo van de la mano

1.1 Inferencia Estadística

A datos del mundo real y, a continuación, por el flujo de datos en el mundo real es el campo de la inferencia estadística.

Más precisamente, la disciplina inferencia estadística se centró en cómo extraer información de los datos generados por un proceso aleatorio, son los procesos comunes, métodos y teorías.

1.2 Poblaciones y muestras

En la inferencia estadística, el general, no es específico de la población, se refiere a un objeto en particular o grupo de unidades

Si podemos extraer y medir ciertas características de estos objetos, llamadas para un conjunto general de datos de observación , es habitual utilizar N indica el número total de observaciones.

Los llamados muestras , medios en un subconjunto seleccionado de la población, representada por n

La muestra total y un 1,3 Big Data

1.4 Big Data significa una atrevida suposición

Ignorar la relación causal es un defecto en la ley de datos de gran tamaño, en lugar de características. Ignorar el modelo causal no ayudará a resolver los problemas existentes, pero sólo se puede plantear más preguntas

Los datos no hablan por sí mismos, sólo puede de una manera cuantificable para describir la incapacidad de reproducir los eventos sociales que nos rodea.
1.5 Modelado de
modelos están diseñados artificialmente y se usan para excluir detalle irrelevante o abstracción. Durante el análisis del modelo, los investigadores deben prestar atención a estos detalles se omiten.
modelización estadística:

Modelado de Procesos: primero que haces? ¿Quién es Quién de influencia? ¿Cuál es la causa y cuál es el resultado? Como los resultados de las pruebas?

Usando el lenguaje matemático para describir esta relación. fórmulas matemáticas universales que deben incluir un parámetro, pero el valor del parámetro es desconocido.
Pintar. Primero se dibuja un diagrama de flujo de datos, es posible con una flecha, se utiliza para describir cómo afectan las cosas entre sí, o lo que ocurrió durante un período de tiempo. Antes de seleccionar una fórmula para expresar esta relación, este mapa relación puede ser una descripción aproximada a ellos.

La construcción del modelo:

Seleccionar modelos son parte del proceso de modelado, es necesario hacer un montón de suposiciones sobre la estructura subyacente, debe haber una norma para regular la forma de elegir el modelo y las razones para explicar esta elección. Pero no tenemos ninguna norma uniforme, sólo podemos ensayo y error,
la esperanza de que después de una cuidadosa consideración, para desarrollar una especificación tal.

análisis exploratorio de datos (EDA) es un comienzo bueno

Preferentemente de fácil a difícil, lo más estúpido para hacer la primera mirada, la retrospectiva, tal vez no sea tan estúpido como usted piensa

Recuerde, comenzar con punto simple es siempre una buena idea, hay un compromiso entre la simplicidad y modelado preciso. modelo simple es fácil de entender, muy a menudo, la esencia del modelo original, para ayudarle a completar el 90% de las tareas,

Y construir el modelo requiere sólo unas pocas horas, el uso de modelos complejos puede tardar unos meses, y sólo el 92% mencionó este valor.

Cuando la construcción del modelo utilizará una gran cantidad de módulos, uno de los cuales es la distribución de probabilidad.

distribuciones de probabilidad:

distribución de probabilidad es la base del modelo estadístico

Distribución de probabilidad puede entenderse como designando una probabilidad para un subconjunto de los posibles resultados, con la función de distribución de probabilidad correspondiente representado

Montaje del modelo:

Ajuste del modelo es los parámetros del modelo de proceso son estimados usando observaciones

Modelo de fijación a menudo introducir varios métodos de optimización y algoritmos tales como estimación de máxima verosimilitud para determinar los parámetros

procedimiento de ajuste de modelo es para comenzar el proceso de escribir código: código va a leer los datos escritos en la fórmula de papel traducido a código, entonces R, o Python incorporada en métodos de optimización, de acuerdo con los datos obtenidos con la mayor precisión los valores de los parámetros.

Por lo que se vuelven más y más sofisticados, o que en sí mismo es cuando sus puntos fuertes, que podrían ir a estudiar estos métodos de optimización. En primer lugar hay que saber de la existencia de estos métodos de optimización,

Luego de averiguar cómo funcionan, pero usted no tiene que ir y escribir código que implementa estos métodos, R y Python tienen que ayudarle a alcanzar una buena, llamada directa en la línea.

sobreajuste:

Cuando es el uso de sobre-ajuste de los datos para estimar los parámetros del modelo, y el modelo resultante puede no realidad Simular, aparte de la muestra de datos ineficaz.

2 Análisis exploratorio de datos

datos de análisis exploratorio de datos es una parte importante de la ciencia, y representa el método de un grupo de estadísticos en los Laboratorios Bell en los datos utilizados en el trabajo científico y las ideas.

La herramienta básica para el análisis exploratorio de datos son gráficos, tablas y estadísticas de resumen. En general, el análisis de datos exploratorio es un método para el análisis sistemático de datos, que muestra la distribución de todas las variables (usando diagrama de caja), datos de series de tiempo y variables
variables del cambio usando la matriz de dispersión diagrama muestra las dos variables la relación entre los dos, y tiene todas las estadísticas de resumen. En otras palabras, se trata de calcular la media, mínimo, máximo y los cuartiles superior e inferior determinan los valores atípicos.

análisis exploratorio de datos no es sólo un conjunto de herramientas, sino también una forma de pensar: cómo mirar la relación entre, y datos. Se quiere entender los datos, comprender los datos de forma, obtener una sensación intuitiva de los datos, y los datos que desea procesar los datos generados
asociados entienden. análisis exploratorio de datos es el puente entre el usuario y los datos, no prueba nada a nadie.

 

análisis exploratorio de datos 2.1 filosofía

Análisis Hay muchas razones importantes para el uso de los datos exploratorios. Incluyendo el acceso a la intuición, la comparación de la distribución de las variables de datos, comprobación de los datos (asegúrese de que cambia la escala de los datos dentro del rango esperado, el formato de los datos es lo que quiere, etc.), los datos encontrados en
los valores y los valores atípicos, los datos faltantes resumir.

Para los datos generados en el registro, el proceso de análisis exploratorio de datos se puede utilizar para el registro de depuración

Por último, el análisis exploratorio de datos para asegurar el rendimiento del producto en línea con las expectativas.

análisis exploratorio de datos es el principio de análisis de datos y visualización de datos es el último eslabón de análisis de datos, análisis de datos para la presentación de conclusiones. En el análisis exploratorio de datos, gráficos simplemente ayuda
para ayudarle a entender los datos.

En el análisis exploratorio de datos, algoritmo de optimización se puede basar en la comprensión de los datos. Por ejemplo, está desarrollando un algoritmo de clasificación que se recomienda a los contenidos del usuario para el rango. Para ello, puede que tenga que definir lo que es "popular".

2.2 Ejercicio: Análisis exploratorio de datos

3 Flujo de trabajo de datos científicos

En concreto, los datos originales como punto de partida, como los registros, el récord olímpico, correo electrónico empleados de Enron, el material genético grabado (Tenga en cuenta que, cuando tenemos estos datos en bruto, la información en el caso de ciertos aspectos de la ha sido
falta). Que necesitamos para procesar los datos en bruto, por lo que es fácil de analizar. Por ello hemos creado una tubería de Reprocesamiento de datos: conjuntos, juntos, la limpieza, como quiera llamarlos lo que es bueno, que es para el reprocesamiento de los datos. Nosotros
podemos usar Python, scripts de shell, R, SQL para completar esta tarea.

Finalmente los datos formateados conseguir, como el siguiente de la secuencia de datos que incluye:
Nombre | evento | Año | Sexo | tiempo

Después de esto obtener datos limpios, debemos hacer un análisis exploratorio de datos. En este proceso, podemos encontrar que los datos no son tan limpio, los datos puede contener valores duplicados, los valores o los valores atípicos falta ridícula, algunos de los datos

no esté grabado o registrado incorrectamente. Cuando encuentra este fenómeno, tenemos que volver atrás y recoger más datos, o dedicar más tiempo a la limpieza de los datos.

A continuación, se utiliza una serie de algoritmos, como vecino k-más cercano, regresión lineal, ingenuo de Bayes y otros modelos de diseño. Dependiendo de cuál es el problema de selección de modelos que hay que resolver, que puede ser un problema de clasificación, un problema predicho, o simplemente una descripción básica
anterior problema.

A continuación, puede explicar, contorno, o informar de los resultados obtenidos a cambio. Los resultados pueden ser reportados al jefe o colegas, o artículos publicados en revistas académicas, o salir y tomar parte en conferencias académicas para explicar nuestros resultados.

Al hacer cualquier análisis, esta retroalimentación se tendrá en cuenta a fin de ajustar el sesgo generado por el modelo. Modelo no sólo predecir el futuro, sino que también influye en el futuro.

El papel del científico de datos en los datos de flujo de trabajo científico

 

flujo de trabajo de datos relacional y otros métodos científicos de la ciencia

Los pasos generales son:

• hacer preguntas;
• hacer una investigación de fondo;
• hipótesis de la concepción;

• experimentos a prueba hipótesis previstas;
• analizar los datos y sacar conclusiones;
• compartir sus resultados con los demás.

En los datos de flujo de trabajo científicos y otros métodos científicos, no todas las preguntas de estudio necesitan paso a paso para resolver la mayoría de los problemas no tienen que ir a través de cada paso de la estricta, una combinación de varios pasos podría resolver el problema. Por ejemplo, si
su objetivo es la visualización de datos (que en sí mismo puede ser visto como un productos de datos), es probable que no usará ningún aprendizaje automático o modelo estadístico, sólo tiene que encontrar maneras de conseguir datos limpios, hacer algo de exploración
análisis de datos, los resultados muestran que puede ser en forma de un gráfico.

experimento 4 pensamiento: cómo simular el caos

La mayor parte de los problemas que están enfrentando el comienzo de una pila de datos caóticos sucios, o el problema en sí no ha sido claramente definido, o un problema urgente que hay que resolver.

A medida que nuestros científicos de datos, hasta cierto punto, tienen la responsabilidad de restaurar el orden a partir del caos

5 Estudio de caso: RealDirect

Supongo que te gusta

Origin www.cnblogs.com/qiu-hua/p/12663583.html
Recomendado
Clasificación