Dilema do Prisioneiro

O Dilema do Prisioneiro é un exemplo claro pero atípico dun problema de suma non nula. Neste problema da teoría de xogos, como noutros moitos, suponse que cada xogador, de forma independente, trata de maximizar a súa propia vantaxe sen importar os resultados para o outro xogador. As técnicas de análise da teoría de xogo estándar, por exemplo determinan o equilibrio de Nash poden levar a cada xogador a escoller traizoar o outro, pero curiosamente cada xogador obtería un mellor resultado se colaborasen. Desgraciadamente para os xogadores, cada prisioneiro está incentivado individualmente para defraudar o outro, incluso tras prometer colaborar. Este é o punto clave do dilema.

No dilema do prisioneiro iterado a cooperación pode obterse como un resultado de equilibrio. Aquí xógase repetidamente polo que, cando se repite o xogo, ofrécese a cada xogador a oportunidade de castigar o outro pola non cooperación nos xogos anteriores. Así, o incentivo para defraudar pode verse superado pola ameaza de castigo, que conduce a un resultado mellor, cooperativo.

O dilema do prisioneiro clásico

A enunciación do dilema do prisioneiro clásico é:

A policía detén dous sospeitosos. Non teñen probas suficientes e dependen dos testemuños dos detidos para impoñer un castigo. Separan os prisioneiros, polo que non teñen testemuño conxunto e descoñecen que fará o compañeiro. Se o prisioneiro A delata o prisioneiro B, o xogador A será condenado a 2 anos e o B a 10 anos. Se o compañeiro B delata o compañeiro A, o último será condenado a 10 anos mentres que o delator a 2 anos de cárcere. Se os prisioneiros calan, serán condenados a 5 anos de prisión. Se ambos os dous falan, os dous serán condenados á pena máxima, 10 anos.

Supoñamos que cada prisioneiro actúa de forma egoísta e a única meta é minimizar a súa estancia no cárcere. Cada prisioneiro ten dúas opcións: cooperar co cómplice ou traizoalo. O resultado de cada elección depende da elección do outro xogador. Desgraciadamente, están illados un do outro e non saben como actuará. E incluso tendo contacto con el, non pode estar seguro de que poida confiar nel.

Se esperas que o teu compañeiro colabore contigo, a elección óptima para ti sería delatar, condenándoo a el a 10 anos mentres que a túa pena sería soamente de 2 anos. Porén, o outro xogador co mesmo razoamento tenderá a confesar, polo que ámbolos dous serían condenados á pena máxima, 10 anos.

Confesar é a estratexia dominante para os dous actores individuais, xa que supón a pena mínima. Con todo, isto conduce a un resultado distinto ao esperado, pois se ambos os dous confesan son condenados a 10 anos. Aquí encóntrase o punto clave do dilema. O resultado das interaccións individuais produce un resultado que non é óptimo no sentido de Pareto; existe unha situación tal que a utilidade duns dos detidos podería mellorar (incluso dos dous) sen que isto implique un empeoramento para o resto. Noutras palabras, o resultado no cal ambos detidos non confesan domina paretianamente o resultado no cal os dous escollen confesar.

Dende a perspectiva do interese óptimo do grupo, o resultado correcto sería que ámbolos dous cooperasen e calasen xa que reduciría o tempo total de condena que se se delatasen. Calquera outra decisión sería peor para os prisioneiros se se avalía en conxunto. A pesar disto, se seguen os seus intereses egoístas, cada un dos prisioneiros recibirá unha sentenza peor que se non colaborasen.

No dilema do prisioneiro iterado, onde se pode castigar o compañeiro por confesar, entón o resultado cooperativo pode manterse. Neste xogo, se o teu compañeiro te traizoa e confesa unha vez, podes castigalo traizoándoo ti a próxima vez. Así, a opción iterada ofrece a opción de castigo ausente na teoría clásica do xogo.

Unha variante sinxela

O científico cognitivo Douglas Hofstadter expuxo que o dilema do prisioneiro se atopa moitas veces na vida corrente, máis doados de entender se están presentados coma un xogo ou intercambio. Un exemplo ilustrativo disto é cando dúas persoas intercambian dúas bolsas pechadas co acordo de que unha contén os cartos mentres que a outra contén a mercadoría comprada. Cada xogador pode escoller ser fiel ao acordo e poñer na bolsa o estipulado no acordo ou, pola contra, enganar e ofrecer a bolsa baleira. Nesta variante, o contrario que no dilema do prisioneiro clásico, enganar sempre é a mellor opción.

Matriz de pagos do dilema

No mesmo artigo, Hofstadter observou que a matriz de pagos do dilema do prisioneiro pode, de feito, enunciarse de moitas formas sempre que manteña este axioma:

T > R > C > P

Onde T é a tentación para traizoar [é dicir, o que obtés cando desertas e o outro xogador coopera); R é a recompensa da cooperación mutua; C é o castigo pola traizón mutua; e P é a paga do primo (é dicir, o que obtés se cooperas e o outro xogador deserta).

(É frecuente tamén (T + C)/2 < R, e isto requírese no caso iterado.)

Seguindo este principio, e simplificando o dilema do prisioneiro o escenario do cambio de bolsas do xogo anterior, obteremos a seguinte matriz de pagos canónica para o dilema do prisioneiro, isto é, a que se adoita amosar na literatura sobre este tema:

	Cooperar	Desertar
Cooperar	3, 3	-5, 5
Desertar	5, -5	-1, -1

En terminoloxía "ganancia-ganancia" a táboa sería semellante a esta:

	Cooperar	Desertar
Cooperar	ganancia - ganancia	perda substancial - ganancia substancial
Desertar	ganancia substancial - perda substancial	perda - perda

Véxase tamén

Ligazóns externas

Hofstadter, Douglas R. (1985) The Prisoner's Dilemma Computer Tournaments and the Evolution of Cooperation Ch.29 en Metamagical Themas: questing for the essence of mind and pattern (ISBN 0465045669).