Red de conocimiento informático - Problemas con los teléfonos móviles - ¿Qué conocimientos matemáticos necesitas aprender para el análisis de datos de Python?

¿Qué conocimientos matemáticos necesitas aprender para el análisis de datos de Python?

Porque no sé para qué sirven los conocimientos matemáticos que he aprendido. Los investigadores y desarrolladores de empresas de TI siempre sienten que necesitan aprender algunos conocimientos matemáticos antes de ingresar a puestos relacionados con big data, pero para la tecnología de datos, ¿dónde está el vasto mundo de las matemáticas?

Cuando se trata de tecnología de datos, lo primero en lo que mucha gente piensa es en las matemáticas. Esto puede deberse a la posición sólida de los números en el sistema matemático, y es natural. Este artículo proporcionará algunas ideas sobre los fundamentos matemáticos de la tecnología de datos. (Aprendizaje recomendado: videotutorial de Python)

Sabemos que las matemáticas tienen tres ramas principales, a saber, álgebra, geometría y análisis. Cada rama se extiende a muchas ramas más pequeñas a medida que se desarrolla la investigación. En este sistema matemático, los fundamentos matemáticos estrechamente relacionados con la tecnología de big data incluyen principalmente las siguientes categorías. (Para conocer la aplicación de estos métodos matemáticos en la tecnología de big data, consulte el libro "Internet Big Data Processing Technology and Application", 2017, Tsinghua University Press)

(1) Teoría de la probabilidad y estadística matemática

Esta parte del contenido está muy estrechamente relacionada con el desarrollo de la tecnología de big data, como conceptos básicos como probabilidad e independencia condicionales, variables aleatorias y su distribución, variables aleatorias multidimensionales y su distribución, varianza. análisis y análisis de regresión, procesos aleatorios (especialmente si es un proceso de Markov), estimación de parámetros, teoría bayesiana, etc. Estos contenidos son muy importantes en el modelado y la minería de big data. Los macrodatos tienen características naturalmente de alta dimensión. El diseño y análisis de modelos de datos en un espacio de alta dimensión requiere una cierta comprensión de las variables aleatorias multidimensionales y su distribución, y el teorema de Bayes es una de las bases para construir clasificadores. Además de estos conceptos básicos, los campos aleatorios condicionales CRF, los modelos ocultos de Markov, n-gramas, etc. se pueden utilizar para el análisis de vocabulario y texto en el análisis de big data y se pueden utilizar para construir modelos de clasificación predictivos.

Por supuesto, la teoría de la información basada en la teoría de la probabilidad también juega un cierto papel en el análisis de big data. Los métodos utilizados para la caracterización, como la ganancia de información y la información mutua, son todos conceptos de la teoría de la información.

(2) Álgebra lineal

Esta parte del conocimiento matemático también está muy relacionada con el desarrollo de la tecnología de datos, incluidas matrices, transpuestas, matrices de bloques de rango, vectores, matrices ortogonales, espacios vectoriales y características Los valores y los vectores de características también son medios técnicos de uso común en el modelado y análisis de big data.

En Big Data de Internet, muchos escenarios de aplicación se pueden abstraer en objetos de análisis representados por matrices, como una gran cantidad de páginas web y sus relaciones, los usuarios de Weibo y sus relaciones, las relaciones entre textos y palabras en conjuntos de texto, etc. Todo se puede representar mediante matrices. Por ejemplo, para una página web y su matriz de relaciones, los elementos de la matriz representan la relación entre la página web a y otra página web b. Esta relación puede ser una relación de apuntamiento, donde 1 significa que hay un hipervínculo entre a y b, y 0 significa que no hay ningún hipervínculo entre a y b. El famoso algoritmo PageRank se basa en la representación matricial. El famoso algoritmo PageRank se basa en esta matriz para cuantificar la importancia de una página y demostrar su convergencia.

Varias operaciones basadas en matrices, como la descomposición matricial, son métodos para extraer características de los objetos de análisis. Debido a que la matriz representa una determinada transformación o mapeo, la matriz obtenida después de la descomposición representa el objeto de análisis en el nuevo espacio. Algunas características nuevas. Por lo tanto, la descomposición de valores singulares SVD, PCA, NMF, MF, etc. se utilizan ampliamente en el análisis de big data.

(3) Método de optimización

El aprendizaje y entrenamiento de modelos es una forma para que muchos modelos de minería analíticos resuelvan parámetros. El problema básico es: dada una función f:A→R, para. Para todo a en A, encuentre un elemento a0∈A tal que f(a0)≤f(a) (minimizar o f(a0)≥f(a) (maximizar); El método de optimización depende de la forma de la función. Desde el punto de vista actual, el método de optimización generalmente se basa en el método diferencial y el método derivativo, como el método de descenso de gradiente, el método de escalada, el método de mínimos cuadrados y el grillete de dios. método de distribución, etc.

(4) Matemáticas discretas

No se puede dejar de enfatizar la importancia de las matemáticas discretas. Es la base de todas las ramas de la informática y, naturalmente, es una base importante de la tecnología de datos. No entraré en detalles aquí.

Por último, cabe mencionar que muchas personas piensan que no son buenas en matemáticas y que no les va bien en el desarrollo y aplicación de la tecnología de datos. Comprender qué papel juegan en el desarrollo y las aplicaciones de big data. Consulte los siguientes puntos de entrada para la investigación de aplicaciones de tecnología de big data. Los conocimientos matemáticos anteriores se reflejan principalmente en las capas de modelado y minería de datos. Estos conocimientos y métodos matemáticos deben dominarse.

Por supuesto, en otros niveles, también es muy significativo utilizar estos métodos matemáticos para mejorar el algoritmo. Por ejemplo, en la capa de recopilación de datos, el modelo de probabilidad se puede utilizar para estimar el valor. páginas recopiladas por el rastreador, para poder hacer un mejor juicio. En la capa de almacenamiento e informática de big data, la partición matricial se puede utilizar para lograr computación paralela.

Para obtener más artículos técnicos relacionados con Python, visite la sección de tutoriales de Python para aprender.