Red de conocimiento informático - Material del sitio web - Cómo encontrar la entropía de la distribución de Poisson

Cómo encontrar la entropía de la distribución de Poisson

Teoría de la Información

En la teoría de la información, la entropía representa una medida de incertidumbre. Shannon, el fundador de la teoría de la información, propuso la medición de la información basada en modelos probabilísticos y estadísticos en su libro "La teoría matemática de la comunicación". Definió la información como “algo que se utiliza para eliminar la incertidumbre”. La definición de entropía en teoría de la información es la siguiente: Si hay múltiples eventos S = {E1,..., En} en un sistema S, y la distribución de probabilidad de cada evento P = {p1,..., pn} , entonces cada El mensaje del evento en sí es Ie = ? log2pi (el logaritmo es base 2, la unidad es bit) Ie = ? lnpi (el logaritmo es base e, la unidad es nats/nats) Por ejemplo, hay 26 en letras en inglés, si cada letra aparece uniformemente en el artículo, la cantidad de información de cada letra es I_e = -\log_2 {1\over 26} = 4,7 y hay 2500 caracteres chinos de uso común, si cada carácter chino aparece en el artículo; artículo Si se promedia el número de apariciones, la cantidad de información de cada carácter chino es I_e = -\log_2 {1\over 2500} = 11,3 La cantidad promedio de mensajes de todo el sistema es H_s = \sum_{i=1}^n p_i I_e = -\sum_{ i=1}^n p_i \log_2 p_i Este volumen promedio de mensajes es la entropía del mensaje. Debido a que tiene la misma forma que la fórmula de Boltzmann que describe la entropía termodinámica en termodinámica, también se le llama "entropía". Si los dos sistemas tienen el mismo gran volumen de mensajes, como el mismo artículo escrito en diferentes idiomas, ya que es la suma del volumen de mensajes de todos los elementos, entonces el artículo chino utiliza menos caracteres chinos que el artículo en inglés. Por lo tanto, los artículos impresos con caracteres chinos son más cortos que los artículos impresos con otras aplicaciones que utilizan un número total menor de letras. Incluso si un carácter chino ocupa el espacio de dos letras, un artículo impreso con caracteres chinos utilizará menos papel que uno impreso con letras inglesas. De hecho, el número de veces que aparece cada letra y cada carácter chino en el artículo no es par, por lo que el valor real no es como el anterior, pero el cálculo anterior es un concepto general. Cuanto más texto utilice en las unidades de escritura, mayor será la cantidad de información contenida en cada unidad. I(A) mide la cantidad de información proporcionada por la ocurrencia del evento A, que se denomina autoinformación del evento A. P(A) es la probabilidad de que ocurra el evento A. Si un experimento aleatorio tiene N resultados posibles o un mensaje aleatorio tiene N valores posibles, y las probabilidades de que ocurran son p1, p2,..., pN respectivamente, entonces la suma de la autoinformación de estos eventos: [H= -SUM( pi*log(pi)), i=1, 2...N] se llama entropía. Por ejemplo, hay 26 letras en inglés. Si cada letra aparece uniformemente en el artículo, la cantidad de información de cada letra es I_e = -log_2 (1\26) = 4,7. El carácter está en Si el número de apariciones en el artículo es promedio, la cantidad de información para cada carácter chino es I_e = -log_2 (1\2500) = 11,3. La cantidad promedio de información para todo el sistema es H_s = sum_(i. =1^n)p_i I_e = -sum_(i= 1^n) p_i * log_2 p_i