Guía de introducción debe conocer los datos de las ciencias matemáticas

Los datos científicos que quieren en el pozo pero no saben cómo iniciarla? Echar un vistazo a los datos científicos en este Getting Started matemática Guía de la utilizaron!

La matemática es como un pulpo: sus "tentáculos" pueden llegar a casi todas las disciplinas. Aunque algunos sujetos Simplemente sumerja el punto matemáticas borde, pero algunos sujetos eran las matemáticas "tentáculos" bien envueltos. Los datos científicos pertenece a esta última. Si desea participar en el trabajo científico de datos, usted tiene que resolver problemas matemáticos. Si usted tiene un título en matemáticas u otro grado de énfasis en las habilidades matemáticas, es posible que desee saber si se entera de este conocimiento es necesario. Y si usted no tiene los antecedentes pertinentes, es posible que desee saber: el número de trabajos en la ciencia y las matemáticas de datos realmente necesita? En este artículo, vamos a explorar lo que significan los datos que la ciencia, las matemáticas y discutir la cantidad de conocimiento que necesitamos en el final. Vamos a empezar con el significado real de "datos científicos" comenzó a hablar.

 

Los datos para la comprensión científica, son los "ojos del espectador, el sabio ve sabiduría" cosa! En Dataquest, estaremos datos científicos se define como: disciplina y el uso de datos estadísticos avanzados para predecir. Se trata de una disciplina profesional, centrándose entender que a veces cierta confusión y datos inconsistentes (aunque los científicos han resuelto el problema de los datos varía). Matemáticas estadístico es el único que mencionamos en esta definición, pero los datos científicos a menudo participan en otras áreas de las matemáticas. El estudio de las estadísticas es un comienzo bueno, pero también datos científicos usando un algoritmo para predecir. Estos algoritmos se denominan algoritmos de aprendizaje automático, el número de cientos de especies.

 

¿Cuánto estudio en profundidad de los conocimientos matemáticos no pertenece al ámbito de este artículo necesidades de cada algoritmo, este artículo discutirá los conocimientos matemáticos necesarios para los siguientes algoritmos de uso común:

  • naive Bayes

  • regresión lineal

  • La regresión logística

  • K-Means Clustering

  • Árbol de decisiones

 

Ahora vamos a ver lo que las necesidades reales de cada conocimiento matemático algoritmo!

 

Clasificador bayesiano

 

Definición: Bayes ingenuo clasificador se basa en el mismo principio de una serie de algoritmos, es decir, un cierto valor independientemente de cualquier otro características de valor característica. Permítanos ingenuos eventos de probabilidad de Bayes se puede predecir sobre la base de lo que sabemos de las condiciones de los eventos relacionados. El nombre se deriva del teorema de Bayes, una fórmula matemática es la siguiente:

 

 

eventos No A y B, y P (B) no es igual a 0. Parece complicado, pero podemos ponerlo desmontado en tres partes:

 

  • P (A | B) es una probabilidad condicional. Es decir, la probabilidad de un suceso A se produce en condiciones de evento B se produce.

  • P (B | A) es una probabilidad condicional. Es decir, la probabilidad de un evento B se produce en condiciones de evento A ocurre.

  • P (A) y P (B) es la probabilidad del evento A y el evento B se producen, respectivamente, en el que dos mutuamente independientes.

 

El conocimiento matemático requerido: Si usted quiere entender los principios básicos del algoritmo ingenuo clasificador de Bayes, y todo el uso del teorema de Bayes, un curso de teoría de la probabilidad suficiente.

 

regresión lineal

 

Definición: La regresión lineal es el tipo más básico de retorno. Nos ayuda a comprender la relación entre dos variables continuas. regresión lineal simple es obtener un conjunto de puntos de datos se pueden trazar y se utiliza para predecir el futuro la línea de tendencia. La regresión lineal es un ejemplo de parametrización de aprendizaje de máquina. En los parámetros de aprendizaje automático, algoritmos de aprendizaje automático para hacer que el proceso de formación para convertirse en una función matemática que se ajusta al patrón que se encuentra en el conjunto de entrenamiento. A continuación, puede utilizar las funciones matemáticas para predecir resultados futuros. En el aprendizaje de máquina, funciones matemáticas se llaman modelos. El caso de modelo de regresión lineal se puede expresar como:

 

En donde a_1, a_2, ..., a_n valor de parámetro que representa un conjunto particular de datos, x_1, x_2, ..., medios de características x_n que elegimos un modelo utilizado en la columna final, Y representa una columna de destino. objetivo de regresión lineal es encontrar los valores óptimos de los parámetros se puede describir la relación entre las características y la columna de destino. En otras palabras, que es encontrar una línea recta que mejor se ajusta a los datos de forma óptima con el fin de predecir los resultados futuros a partir de la línea de tendencia.

 

Con el fin de encontrar los parámetros óptimos del modelo de regresión lineal, queremos minimizar la suma de los residuos al cuadrado y el modelo. Errores residuales comúnmente se alude también, para describir la diferencia entre el valor predicho y el valor verdadero. suma residual de cuadrados ecuación puede expresarse como:

 

Dónde y ^ es el valor predicho de la columna de destino, y es el valor real.

 

El conocimiento matemático requerido: Si lo que desea es un rápido vistazo a la regresión lineal, el aprendizaje de un curso de estadísticas básicas sobre el mismo. Si usted quiere tener la comprensión en profundidad del concepto, es posible que desee saber cómo derivar la suma residual de cuadrados fórmulas, que se describen en la mayoría de los cursos de estadística avanzada.

 

La regresión logística

 

Definiciones: La regresión logística estima la probabilidad de centrarse en eventos en el caso de tomar dos valores (es decir, sólo dos valores, 0 y 1 de salida) la variable dependiente. Al igual que con la regresión lineal, regresión logística es un ejemplo de parametrización de aprendizaje de máquina. Por lo tanto, la formación de estos resultados de algoritmo de aprendizaje automático es obtener una función matemática que mejor se aproxima al modo de conjunto de entrenamiento. La diferencia es que la salida del modelo de regresión lineal es un número real, y se emite Logistic valor de probabilidad modelo de regresión.

 

Como un algoritmo de regresión lineal para generar el modelo como una función lineal, algoritmo de modelo de regresión logística genera función logística. También se llama la función sigmoide, se asigna a la probabilidad de que todos los valores de entrada entre 0 y 1 resultados. función sigmoide se puede expresar como sigue:

 

Entonces, ¿por función sigmoide siempre devuelve un valor entre 0-1 que? Recuerde, cualquier número de álgebra poder negativo de este número es igual a varias veces el inverso del cuadrado.

 

conocimiento matemático requerido: Aquí hemos discutido y el índice de probabilidad, es necesario tener un conocimiento profundo del álgebra y la probabilidad, con el fin de entender el funcionamiento del algoritmo de Logística. Si se quiere entender el concepto, le sugiero que aprender matemática discreta y teoría de la probabilidad o el análisis real.

 

K-Means Clustering

 

Definiciones: K-means algoritmo es un aprendizaje no supervisado de la máquina, para los datos sin marcar (categorías o grupos es decir, no definidos) se clasifican. Principio de funcionamiento del algoritmo es descubrir datos del cluster de racimo, el número de los cuales está representado por un grupo de grupos k. Entonces iterar los cesionarios de características cada punto de datos a una k-ésima clúster. K-means clustering algoritmo se basa en todo el concepto de puntos de datos a distancia "asignado" a diferentes grupos. Se refiere al concepto de distancia entre dos espacio para el elemento dado. En matemáticas, una función que describe la distancia entre dos elementos del conjunto se llama función de distancia o métrica. Hay dos tipos comunes: la distancia euclídea y distancia de Manhattan. Standard distancia euclidiana se define como sigue:

 

Donde (x1, y1) y (x2, y2) son las coordenadas de un punto en el plano cartesiano. A pesar de la distancia euclídea una aplicación muy amplia, pero en algunos casos no funciona. Supongamos que usted camina en una gran ciudad, y si hay un enorme edificio de bloquear su camino, entonces se dice: "Yo y el destino es de 6,5 unidades" no tiene sentido. Para resolver este problema, podemos utilizar la distancia de Manhattan. Manhattan fórmula de la distancia es la siguiente:

 

 

Donde (x1, y1) y (x2, y2) son las coordenadas de un punto en el plano cartesiano.

 

conocimiento matemático requerido: de hecho, sólo se necesita saber la suma y la resta, y entender los conceptos básicos de álgebra, podemos comprender la fórmula de la distancia. Pero a fin de comprender la geometría básica de cada tipo de medida contenida, sugiero aprender acerca de la geometría euclidiana y contiene geometría geometría no euclidiana. Para entender el significado de las métricas y el espacio, voy a leer el análisis matemático y cursos electivos en análisis real.

 

Árbol de decisiones

 

Definición: Un árbol de decisión es una estructura de árbol similar a un diagrama de flujo, se describirá un método que utiliza un resultado rama para cada decisión posible. Cada nodo en el árbol representa una prueba variable en particular, cada rama es el resultado de la prueba. árbol de decisión se basa en la teoría de la información para determinar la forma en que se construyen. En teoría de la información, la comprensión de los más de la gente de un evento, menos la nueva información adquirida de ellos. Uno de los indicadores clave de la teoría de la información se llama entropía. La entropía es la cantidad de certeza no es una variable dada para cuantificar la medida. La entropía puede expresarse como:

 

En la fórmula anterior, P (x_i) es la probabilidad de ocurrencia de eventos al azar x_i. El número de base b puede ser cualquier número mayor real que 0, por lo general en el valor de base 2, e (2.71) y 10. Al igual que el símbolo "S" es una suma de símbolos de lujo, que puede continuamente función fuera de la suma símbolo suma, dependiendo de la suma del número de adiciones de límites inferior y superior. Después de calcular la entropía, podemos obtener a través del uso de la información comenzó a construir un árbol de decisión para determinar qué método de división puede minimizar la entropía. fórmula ganancia de información es el siguiente:

 

 

La información se puede obtener una medida de la cantidad de información que el número de "bits" de información disponible. En el caso del árbol de decisión, podemos calcular el conjunto de datos para cada columna de la ganancia de información con el fin de encontrar la columna que nos proporcionará la mayor ganancia de información, luego se dividieron en esta columna.

 

El conocimiento matemático requerido: una comprensión preliminar del árbol de decisión sólo quieren los conocimientos básicos de álgebra y probabilidad. Si desea registrar en la probabilidad y la profundidad de la comprensión conceptual, recomiendo que usted pueda aprender teoría de la probabilidad y álgebra.

 

Consideraciones finales

 

Si usted todavía está en la escuela, le recomiendo algunos de los cursos electivos de la matemática pura y aplicada. A veces, sin duda hará que la gente siente miedo, pero la noticia es buena, cuando se encuentra con estos algoritmos y cómo mejor uso de ellos, usted será más capaz. Si no está actualmente en la escuela, le sugiero que vaya a la librería más cercana para los libros mencionados en este artículo. Si se pueden encontrar libros implican teoría de la probabilidad, estadística y álgebra lineal, le recomiendo encarecidamente que elegir libros sobre esta materia, con el fin de entender realmente los principios involucrados en este documento y los que están detrás de la máquina de aprendizaje de algoritmos no están involucrados.

 

fuente original: https://www.dataquest.io/blog/math-in-data-science/

Publicados 363 artículos originales · ganado elogios 74 · vistas 190 000 +

Supongo que te gusta

Origin blog.csdn.net/sinat_26811377/article/details/104584583
Recomendado
Clasificación