Red de conocimiento informático - Conocimiento informático - Los novatos también conocen la teoría de juegos: el equilibrio de Nash.

Los novatos también conocen la teoría de juegos: el equilibrio de Nash.

El artículo original fue publicado en mi propia plataforma de blogs/Nash Equilibrium/

El comportamiento competitivo o de confrontación se llama comportamiento de juego y se usa ampliamente en muchos campos, como la economía, las relaciones internacionales y la estrategia militar. , etc. Entre ellos, la teoría de juegos no cooperativos representada por el equilibrio de Nash es la más utilizada en la vida diaria.

En muchos escenarios, como jugar al póquer Texas Hold'em y otros juegos, aunque a veces la estrategia elegida no es necesariamente la solución óptima global, es la solución óptima en relación con las estrategias de otras personas, es decir, todos. tiene la mejor solución para ellos mismos, lo que se llama equilibrio de Nash.

El equilibrio de Nash (o equilibrio de Nash), también conocido como equilibrio de juegos no cooperativos, es una combinación de estrategias importante en la teoría de juegos, que lleva el nombre de John F Nash.

Explique nuevamente, el llamado equilibrio de Nash se refiere a la combinación de estrategias de los participantes. En esta estrategia, ningún jugador se beneficia al cambiar su estrategia individualmente, es decir, la estrategia de cada persona es la mejor respuesta a la estrategia de los demás. En otras palabras, si nadie en una combinación de estrategias cambia su estrategia cuando todos los demás no cambian la suya, entonces la combinación de estrategias es un equilibrio de Nash.

Las descripciones insulsas son difíciles de entender. Usemos algunos casos para entenderlo.

Antecedentes: Dos prisioneros, A y B, cometieron un delito y entraron. Luego, la policía los interrogó por separado, por lo que A y B no tuvieron oportunidad de retractarse de sus confesiones.

Recompensas y castigos: Si ambos confiesan, cada uno será condenado a 2 años; si ninguno confiesa, cada uno será condenado a 1 año; si uno confiesa y el otro no, será el que confiese; puesto en libertad inmediatamente, y el que no confiese será condenado a 10 años.

Resultado: Al final, tanto los prisioneros A como B optarán por confesar, por lo que cada uno es sentenciado a dos años. Este es el equilibrio de Nash en este momento.

Sin embargo, es obvio que la mejor solución es que ambas partes lo nieguen. No precisamente. Volvamos atrás y analicemos este concepto. En realidad, el equilibrio de Nash no es la solución óptima global, sino la estrategia óptima elaborada por cada persona en relación con la estrategia de todos. Te lo explicamos a continuación.

Construyamos un modelo matemático y usemos -2, -1, 0, -10 para describir las recompensas y castigos anteriores, como se muestra en el cuadro de análisis a continuación.

El viaje mental de a:

Por lo tanto, independientemente de si B confiesa o no, siempre que A confiese, esta es la mejor estrategia de A.

Del mismo modo, porque el viaje mental de B es similar, y B también elegirá confesar:

Entonces, el resultado final es que tanto A como B eligen confesar.

Es decir, el punto de equilibrio de Nash en este momento es: A y B confiesan.

En resumen, tocando la pizarra, el equilibrio de Nash se basa en la premisa de que los individuos en el círculo de toma de decisiones son independientes, no cooperativos y no tienen comunicación lateral.

Antecedentes: Hay dos cerdos, uno es un cerdo grande y el otro es un cerdo pequeño. Luego hay un comedero. La comida caerá, pero debes presionar un botón en la distancia. Cada vez que presione el botón, la comida caerá. El comedero se llenará de comida. Pero presionar los botones en el camino de ida y vuelta requiere cierta cantidad de energía.

Recompensas y castigos: Correr para presionar el botón y luego correr hacia atrás para comer consumirá algo de energía, que se registra como -2. Cada vez que se llena el comedero con comida, la cantidad total de comida es 10. Si el cerdo grande come primero, puede comer 9 piezas. Si el cerdito come primero, puede comer 6 piezas. Si comen juntos, el cerdo grande puede comer 7 piezas.

Resultado: El cerdito grande elegirá presionar el botón, mientras que el cerdito elegirá no presionar el botón, es decir, esperar en el lugar.

El viaje mental de Cerdito:

Entonces, no importa cómo se vea el Cerdito, el Cerdito elegirá esperar donde está.

El viaje mental de Big Pig:

Entonces, en la superficie, la toma de decisiones de Big Pig se ve afectada por la toma de decisiones de Little Pig, pero el análisis del proceso psicológico de Little Pig muestra que, El cerdito no puede presionar el botón, por lo que el cerdo grande aún elegirá presionar el botón en la decisión final, de modo que se maximicen las ganancias del cerdo grande.

Entonces, en resumen, el resultado final es que el cerdo grande presiona el botón, mientras el cerdito espera en su lugar.

Es decir, el punto de equilibrio de Nash en este momento es: el cerdo grande irá, pero el cerdito pequeño no irá.

Bajo la premisa de que cada jugador tiene opciones estratégicas limitadas y permite estrategias mixtas, debe existir el equilibrio de Nash.

Por ejemplo, debe haber equilibrio de Nash en las elecciones, competencia de intereses entre grupos y competencia de propuestas en las reuniones.

Tomemos como ejemplo una guerra de precios entre empresas: si la otra parte sigue bajando los precios, inevitablemente perderemos dinero en el negocio si seguimos bajando los precios. Pero si no bajamos los precios, perderemos. El mercado y las pérdidas serán aún mayores. Pero si la otra parte no bajamos nuestros precios, tendremos que bajar nuestros precios para obtener algunas ganancias. Por lo tanto, mientras haya una guerra de precios, ambos lo haremos. perder. Éste es el resultado inevitable del equilibrio de Nash. Por lo tanto, para cambiar este resultado, ambas partes deben sentarse y negociar una nueva evaluación de intereses y un plan de distribución, cambiando así el patrón de intereses original (por ejemplo, en una guerra de precios entre JD.COM y Dangdang, ambas partes eventualmente ocuparon una seguro un mercado importante para obtener un nuevo plan de participación en los beneficios).

El equilibrio de Nash es una solución de equilibrio de punto fijo basada en la teoría de juegos no cooperativos.

Por ejemplo, si dos prisioneros cooperan, no debe haber ningún punto de equilibrio de Nash.

Así que en la vida real, el juego de equilibrio de Nash es muy importante pero también muy limitado, porque muchas veces, aunque sepamos que el punto fijo de equilibrio debe existir, muchas veces es difícil encontrarlo.

El equilibrio de Nash (este modelo de teoría de juegos no cooperativo) simplemente rompe una limitación de la teoría de juegos.

Porque en el enorme entorno de juego de la sociedad, se mezclarán comportamientos económicos complejos. Aunque no todos los miembros de la sociedad cooperan colectivamente, es casi imposible encontrar un equilibrio de Nash entre un número tan grande de objetos que no cooperan.

El equilibrio de Nash es un problema NP.

(Del párrafo anterior en wiki i, no puedo entenderlo por el momento, pero creo que tiene sentido). El equilibrio de Nash es un problema NP, y Daskalakis demostró que pertenece a un subconjunto de problemas NP, no NP No es un problema completo, sino un problema completo con PPAD. Algunos científicos informáticos consideran que el resultado de esta investigación es el mayor progreso en el campo de la teoría de juegos en la última década.