Teoria dei giochi. 2. Giochi dinamici ad informazione ......Prof. Domenico Tosato - Economia...

Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 1

Capitolo 8

Teoria dei giochi.

2. Giochi dinamici ad informazione completa

Parte Ia. Giochi dinamici non ripetuti

8.1. Esempi di giochi dinamici

8.2. Descrizione di un gioco in forma estesa

8.3. Il principio della razionalità sequenziale: soluzione per induzione a ritroso

8.3.1. Rappresentazione del gioco in forma normale

8.3.2. Soluzione per induzione a ritroso

8.4. Il principio della razionalità sequenziale: equilibrio di Nash perfetto nei sottogiochi

8.4.1. Il gioco di entrata a informazione imperfetta in forma normale

8.4.2. Il concetto di sottogioco e di equilibrio di Nash perfetto nei sottogiochi

8.4.3. Equilibrio di Nash perfetto nei sottogiochi

8.5. Dalla forma normale alla forma estesa di un gioco

8.6. Strategie miste e strategie “comportamentali”

8.7. Critica del principio di induzione a ritroso

Parte IIa. Giochi ripetuti

8.8. Definizione di gioco ripetuto

8.9. Giochi ripetuti un numero finito di volte

8.10. The chain store paradox

8.11. Giochi ripetuti un numero infinito di volte (see the Lecture Note in English)

8.12. Folk theorem (see the Lecture Note in English)

Nel capitolo precedente abbiamo esaminato i principali aspetti della teoria dei giochi a mosse

simultanee (o giochi statici) con informazione completa. Abbiamo chiarito il senso di questi

termini: gioco a mosse simultanee significa che ogni partecipante decide le proprie strategie

senza conoscere le scelte degli altri partecipanti, scelte che possono essere contestuali a meno,

ma comunque assunte senza sapere le strategie degli altri. Gioco ad informazione completa

significa che nessun giocatore ha motivo di incertezza sugli elementi che definiscono il gioco:

numero dei giocatori, insieme delle strategie, payoff dei giocatori.

Passiamo ora ad esaminare i giochi dinamici nei quali si considera la possibilità che i giocatori

intervengano, anche più volte, nel gioco secondo una sequenza prestabilita di mosse. Non più


dunque mosse simultanee, bensì una successione temporale di mosse, che giustifica l’appellativo

di giochi dinamici. Manterremo peraltro ferma l’ipotesi di informazione completa.

L’esposizione si articola in due parti. Nella prima esaminiamo giochi che, per quanto articolati e

costituiti anche da una successione di mosse in cui uno stesso giocatore interviene in diverse fasi,

rappresentano una situazione di interazione strategica compiuta; nella seconda analizziamo

invece giochi che consistono nella ripetizione di un medesimo gioco, tipicamente di un gioco di

base a mosse simultanee.1

Iniziamo lo studio dei giochi dinamici non ripetuti con la presentazione, nel paragrafo 8.1, di due

giochi oligopolistici di entrata. Questo ci consente di illustrare con immediatezza la

fondamentale distinzione fra giochi ad informazione perfetta ed imperfetta e di introdurre

l’albero del gioco, per rappresentare la successione delle mosse e l’informazione dei giocatori.

La descrizione analitica dei diversi elementi dell’albero del gioco, nel paragrafo 8.2, costituisce

la rappresentazione in forma estesa di un gioco dinamico, che si contrappone alla

rappresentazione in forma normale del medesimo gioco.

I concetti di soluzione di un gioco dinamico sono esposti nel paragrafo 8.3, per giochi ad

informazione perfetta, e nel paragrafo 8.4, per giochi ad informazione imperfetta. I concetti di

soluzione – induzione a ritroso, nel primo caso, e di perfezione nei sottogiochi, nel secondo – si

fondano sul principio della razionalità sequenziale, che rappresenta una naturale estensione del

concetto di razionalità utilizzato per la determinazione dell’equilibrio di Nash nei giochi a mosse

simultanee. L’applicazione di tale principio consente di eliminare equilibri di Nash - negli

associati giochi a mosse simultanee - che si fondano su minacce (o promesse) non credibili.

Prendiamo in esame nel paragrafo 8.5 la relazione fra rappresentazione in forma normale e

rappresentazione in forma estesa di un gioco a mosse simultanee. Passiamo quindi allo studio

dell’estensione della soluzione di un gioco dinamico in strategie comportamentali, che

incorporano l’idea di una randomizzazione delle decisioni definita con riferimento ai diversi

insiemi informativi, anziché all’intero gioco (paragrafo 8.6). Concludiamo la prima parte del

capitolo (paragrafo 8.7) con la presentazione del gioco del millepiedi e delle critiche su questa

base rivolte alla soluzione per induzione a ritroso.

Nella seconda parte del capitolo esaminiamo i giochi ripetuti. L’interesse dei ricercatori, e quindi

anche degli economisti, per tali giochi è costituito dallo studio della possibilità che la ripetizione

del gioco faccia emergere l’esistenza di strategie di cooperazione tacita, laddove queste non

sussistono nel gioco di base. Il dilemma del prigioniero è il gioco emblematico entro il quale si

pone tale problema. Nel paragrafo 8.8 diamo una definizione di gioco ripetuto, distinguendo fra

gioco ripetuto un numero finito e un numero infinito di volte. Esaminiamo nel paragrafo 8.9 i

giochi ripetuti un numero finito di volte e mostriamo che, se il gioco di base ha un unico

equilibrio di Nash, procedendo per induzione a ritroso si raggiunge il risultato che l’unico

equilibrio di Nash perfetto nei sottogiochi del gioco ripetuto è rappresentato dalla strategia Non

cooperare mai. Questo risultato non appare particolarmente convincente quando la ripetizione

del gioco si estende su molti periodi. Nel paragrafo 8.10 prendiamo in esame una situazione di

1 Può naturalmente essere oggetto di ripetizione anche un gioco di base a mosse sequenziali. Questo è il caso più

complesso e dibattuto che esaminiamo nel paragrafo 8.10 dedicato alla presentazione del chain store paradox.


gioco, che l’autore, R. Selten, ha indicato come “the chain-store paradox” e vediamo come in

tale contesto si possa porre il problema della costruzione di una reputazione di comportamento

aggressivo. Concentriamo quindi l’attenzione nel paragrafo successivo 8.11 sui giochi ripetuti ad

orizzonte infinito: introduciamo i concetti di strategia del grilletto e di strategia TIT-for-TAT;

studiamo le condizioni per l’ottimalità di tali strategie rispetto ad una strategia di deviazione e

dimostriamo che costituiscono un equilibrio di Nash perfetto nei sotto giochi. Dedichiamo

l’ultimo paragrafo del capitolo alla presentazione del cosiddetto folk theorem e alle sue

implicazioni.

Parte Ia. Giochi dinamici non ripetuti

8.1 Esempi di giochi dinamici

Anche a costo di qualche ripetizione che dovremmo fare nel paragrafo successivo, entriamo nel

vivo attraverso la presentazione di due giochi di entrata, che definiscono due situazioni tipiche: il

primo è un gioco ad informazione perfetta, il secondo ad informazione imperfetta.2 Vi sono due

imprese: un potenziale entrante (E) e un monopolista incombente (M). Nel primo di questi

giochi, il gioco inizia con un’azione3 dell’entrante che ha la scelta fra restare fuori o entrare,

essendo implicita nella decisione di entrata la scelta della particolare modalità di entrata.

Indichiamo tali azioni in forma sintetica come (Out, In). L’incombente ha la mossa successiva;

preso atto della decisione dell’entrante, può scegliere fra due azioni: combattere l’entrata (C) o

non contrastare l’entrata, ossia accomodarla (A).

La rappresentazione del gioco in forma strategica, possibile come vedremo più avanti, non

consente di esprimere l’ordine delle mosse e quindi indicare chi deve prendere la decisione e

quando. Per far emergere questo fondamentale elemento del gioco, è necessario ricorrere ad una

2 Entrambi i giochi sono presi da Mas-Colell, Whinston e Green (1995) 3 A differenza di quanto avviene nei giochi statici a mosse simultanee, nei giochi dinamici è necessario distinguere fra

azioni e strategie. Questa distinzione verrà effettuata più avanti.

E

M

A

IN OUT

C ൬0

2൰

൬2

1൰ ൬

−3

−1൰

Figura 8.1. Gioco dinamico di entrata ad

informazione perfetta


rappresentazione in forma estesa, mediante lo strumento grafico dell’albero del gioco, di cui

daremo nel paragrafo successivo una descrizione formale. L’albero del gioco appena descritto è

riprodotto nella Fig. 8.1. Adottiamo la convenzione più usuale di rappresentare la successione

delle mosse scendendo lungo l’albero. Nel nostro caso, il nodo iniziale dell’albero è assegnato

all’entrante; i rami che si dipartono da tale nodo rappresentano le due azioni a sua disposizione.

Se il potenziale entrante decide di restare fuori (strategia Out), il gioco finisce; la scelta

dell’incombente di Combattere o di Accomodare è irrilevante. Sotto il nodo che viene raggiunto

a seguito della decisione Out dell’entrante poniamo in ordine verticale i payoff dei giocatori:

quindi per primo quello dell’entrante, che è il giocatore 1, e quindi quello dell’incombente, che è

il giocatore 2. Se il potenziale entrante decide di entrare (strategia In), l’incombente, preso atto di

tale decisione, ha la scelta fra le azioni Combattere e Accomodare. Il gioco si conclude con i

payoff indicati sotto i rami corrispondenti a queste due azioni. I valori numerici dei payoff

riflettono la considerazione che, in assenza di entrata, l’entrante non consegue né profitti, né

perdite (payoff zero), mentre l’incombente continua con profitti positivi (payoff 2); in presenza

di entrata, l’esito del gioco dipende dall’azione scelta dall’incombente: se Combattere, questo

innesca una guerra di prezzo con conseguenze negative per entrambi i giocatori (nell’ordine -3 e

-1); se Accomodare, i payoff sono positivi (rispettivamente 2 e 1). L’azione Combattere ha

quindi il preciso senso di una minaccia che ha lo scopo di dissuadere l’entrante dal decidere per

la strategia In.

Come indicato, il secondo è anch’esso un gioco di entrata, ma ad informazione imperfetta. Vi

sono sempre due imprese: un potenziale entrante (E) e un monopolista incombente (M). Il gioco

inizia con un’azione dell’entrante che ha la scelta fra restare fuori o entrare (strategie Out e In).

Ma, all’eventuale decisione di entrata, segue ora una seconda decisione dell’entrante riguardo

alla modalità di entrata: aggressiva (strategia Combattere) o conciliante (strategia Accomodare).

L’incombente, preso atto della decisione di entrata ma non della modalità con cui questa viene

effettuata, può rispondere con le medesime due azioni precedenti: combattere l’entrata (strategia

Combattere) o non contrastarla (strategia Accomodare). Si noti la differenza rispetto la

situazione precedente. Ora l’entrante ha due decisioni: nella prima fase del gioco, se entrare o

non entrare; e nella seconda fase, quale linea tenere in ipotesi di precedente decisione di entrata.

Si apre perciò nel secondo periodo un gioco ad informazione incompleta in cui i due giocatori

devono decidere simultaneamente le proprie azioni. Nella Fig. 8.2 è rappresentato l’albero di

questo gioco: la linea tratteggiata, che è l’elemento nuovo rispetto alla Fig. 8.1, esprime

graficamente la situazione di informazione imperfetta dell’incombente, che deve decidere non

sapendo che cosa ha contestualmente deciso l’entrante. Si osservi che la posizione dei due

giocatori in questa seconda fase del gioco è assolutamente simmetrica: anche l’entrante è in

condizione di informazione imperfetta, dato che deve a sua volta decidere non sapendo quale

strategia viene contestualmente scelta dall’incombente.


Figura 8.2. Gioco dinamico di entrata ad informazione imperfetta

8.2. Descrizione di un gioco in forma estesa

Mentre la descrizione in termini analitici di un gioco in forma strategica è molto semplice in

quanto richiede l’indicazione di tre soli elementi (il numero dei giocatori, l’insieme delle

strategie e i payoff), la descrizione analitica di un gioco in forma estesa è più complessa, perché

richiede di spiegare anche l’ordine delle mosse, a quale giocatore tocca la mossa e di quale

informazione dispone. Utilizziamo i giochi delle Figg. 8.1.a e 8.1.b per una immediata

esemplificazione dei vari punti della descrizione analitica che segue.

(i) Numero dei giocatori, che indichiamo con la lettera I. 2I in entrambi gli esempi di giochi

di entrata.

(ii) Insieme delle Azioni. Indichiamo con A l’insieme della azioni che possono essere assunte dai

giocatori a qualche punto del gioco: 1 2, ,..., IA A A A dove iA è l’insieme delle azioni del

giocatore i. Nel gioco ad informazione perfetta abbiamo: ,EA Out In e ,MA F A . Nel

gioco ad informazione imperfetta cambia l’insieme delle azioni dell’entrante, ma non quello

dell’incombente; abbiamo quindi: , , ,EA Out In F A e ,MA F A

E

M

Out

C A

C

F

A C

F

A

In


(iii) Insieme dei nodi e loro classificazione. Indichiamo con X l’insieme dei nodi e con kx X

1,2,...,k K gli elementi di questo insieme. 4 Nelle Figg. 8.1 i nodi sono espressamente

indicati con numerazione progressiva in ogni gioco. L’insieme dei nodi si divide nelle due

categorie dei nodi decisionali DX e dei nodi terminali TX :5 dai primi si dipartono uno o più

rami che raggiungono dei nodi successivi, mentre ciò non avviene per i secondi in quanto il

gioco ha fine. Ai nodi terminali sono associati i payoff dei giocatori. Nel gioco ad informazione

perfetta i nodi decisionali sono 1 3,DX x x , quelli terminali 2 4 5, ,TX x x x . Nel gioco ad

informazione imperfetta i nodi decisionali sono 1 3 4 5, , ,DX x x x x , quelli terminali

2 6 7 8 9, , , ,TX x x x x x .

(iv) Storia del gioco. Indichiamo con il termine di storia del gioco la successione delle azioni che

conducono ad un dato nodo dell’albero; ogni nodo è quindi identificato da una storia del gioco,

ad eccezione del nodo iniziale che, come tale, non può avere una storia. I nodi terminali sono

associati ad una storia completa del gioco. Nel gioco ad informazione perfetta abbiamo

2 1Ex a Out , 3 2Ex a In , 4 2 1;E Mx a In a C e 5 2 2;E Mx a In a A . Nel

gioco ad informazione imperfetta abbiamo, ad esempio, 6 2 3 1; ;E E Mx a In a C a C .

(v) Azioni possibili nel nodo x. Indichiamo con A x il sottoinsieme dell’insieme delle azioni

possibili nel nodo x così definito

(8.1) ,A x a A x a X

Il senso di questa definizione è che le azioni possibili nel nodo x sono quelle che conducono ad

un nodo successivo. Nel gioco ad informazione perfetta abbiamo, ad esempio,

3 1 2,M MA x a a e in quello ad informazioni imperfetta 6 1 2,M MA x a a .

(vi) Assegnazione dei nodi ai giocatori. Definiamo la funzione : DX I che assegna ad ogni

nodo decisionale il giocatore che ha la mossa in quel nodo e indichiamo l’insieme dei nodi del

giocatore i come i DX x X x i e con i ix X un generico nodo appartenente al

giocatore i. Negli esempi di gioco di entrata abbiamo, nel primo, 1EX x e 3MX x e, nel

secondo, 1 3,EX x x e 4 5,MX x x . L’assegnazione dei nodi ai giocatori determina una

partizione, esaustiva e completa, dei nodi decisionali: i D

I

X X .

(vii) Definizione degli insiemi informativi. Indichiamo con H x l’insieme informativo al quale

appartiene il nodo decisionale x. Un insieme informativo può esser costituito da un singolo nodo

- H x x 6 - o da più nodi, con la proprietà che se i nodi x ed x’ appartengono al medesimo

4 Poiché il gioco potrebbe avere dimensione infinita, come avviene nei giochi ripetuti ad orizzonte infinito, anche il

numero dei nodi potrebbe essere infinitamente grande. 5 Nei giochi ad informazione incompleta va aggiunta una terza categoria di nodi, quella riservata al ruolo svolto dalla

Natura, cui viene generalmente assegnato il nodo iniziale del gioco, indicato come nodo 0x .

6 Con questa scrittura indichiamo la circostanza che l’insieme H x contiene il solo elemento x .


insieme, e cioè H x H x , allora deve essere che le azioni disponibili in quei nodi sono le

medesime - A x A x - e i nodi appartengano al medesimo giocatore - x x .

Possiamo indicare con iH il sottoinsieme dei nodi informativi appartenenti al giocatore i e con

,i i iA x a A x a X l’insieme delle azioni disponibili al giocatore i nel nodo i ix X .

Graficamente i nodi appartenenti al medesimo insieme informativo sono uniti da una linea

tratteggiata. Negli insiemi informativi costituiti da un singolo nodo il giocatore cui spetta la

mossa conosce la storia del gioco che ha condotto a quell’insieme informativo. Questa

circostanza definisce un gioco ad informazione perfetta; è il caso del primo gioco di entrata:

l’incombente che, ha la mossa nel nodo 3x , conosce la precedente mossa dell’entrante. Negli

insiemi informativi costituiti da più nodi, il giocatore che deve decidere non sa in quale dei nodi

dell’insieme informativo si trova. La sua informazione relativamente alla storia del gioco è

quindi imperfetta. Questo è il caso del secondo gioco di entrata: l’insieme informativo

dell’incombente 4 5,MX x x è costituito da due nodi; l’incombente non sa se l’entrante ha

scelto l’azione C o l’azione A; non conosce quindi la storia del gioco.

(viii) Funzioni di payoff. Indichiamo con :i Tu X R la funzione di payoff del giocatore i;

questa funzione associa ad ogni nodo terminale, che rappresenta una storia completa del gioco,

un numero nell’insieme dei reali che costituisce appunto il payoff. Abbiamo, ad esempio, nel

primo gioco di entrata 4 3Eu x e 4 1Mu x .

Possiamo quindi definire un gioco ad informazione completa in forma estesa come

(8.2) 1

, , , , , ,I

E D T i T iG I A X X H u X

8.3. Il principio della razionalità sequenziale nei giochi ad informazione perfetta: soluzione

per induzione a ritroso


Von Neumann e Morgenstern (1944) hanno dimostrato che è possibile associare ad ogni gioco

dinamico in forma estesa un’unica rappresentazione in forma normale. 7 Utilizziamo questo

risultato per determinare delle soluzioni di equilibrio dei due esempi dl gioco di entrata,

iniziando da quello ad informazione perfetta.

7 Attenzione: non vale l’opposto. Per convincersene è sufficiente riflettere alla rappresentazione attraverso un albero di

un gioco a mosse simultanee, utilizzando lo strumento dell’insieme informativo per descrivere graficamente la

situazione di conoscenza imperfetta dei giocatori. E’ evidente che possiamo indifferentemente costruire l’albero

assegnando al giocatore 1 o al giocatore 2 il nodo iniziale.


Se confrontiamo la definizione analitica di un gioco in forma estesa, appena data con la (8.2),

con quella di un gioco in forma normale, data con la (7.1) del capitolo precedente che per

comodità riportiamo di seguito,

(8.3) 1, , ,

I

i i iG I S u s s

notiamo, anzi tutto, che nel passaggio dalla prima alla seconda si perde il riferimento ai nodi e

alla loro classificazione, all’assegnazione dei nodi ai giocatori cui spetta la mossa e alla

definizione di insiemi informativi. Questa perdita di informazione è ovvia conseguenza del fatto

che la forma normale è espressione di un gioco a mosse simultanee. Notiamo altresì che vi è una

diversa formulazione dei due elementi rimanenti: l’insieme delle azioni viene sostituito con

l’insieme delle strategie e diversa è la definizione delle funzioni di payoff.

Il passaggio dalle azioni alle strategie è delicato.

Definizione 8.1. Una strategia è un piano di azione per ognuna delle possibili circostanze

in cui un dato giocatore può venire a trovarsi durante lo svolgimento del gioco. E ciò

avviene in ogni insieme informativo in cui la mossa spetta a quel dato giocatore.

Torniamo, per chiarire questo punto, ai due esempi di gioco di entrata.

Nel gioco di entrata ad informazione perfetta, l’entrante ha un unico insieme informativo, il nodo

1x ; le sue strategie coincidono necessariamente con le sue azioni. Nel gioco di entrata ad

informazione imperfetta l’entrante ha due nodi informativi, i nodi 1x e 3x . Una strategia è una

regola di decisione, che potrebbe essere affidata ad un terzo, che definisce quale azione adottare,

nell’ordine, in ciascuno di questi nodi. Una strategia è quindi l’insieme delle possibili

combinazioni di azioni nei due nodi: nell’esempio,

(8.4) , , , , , , ,ES Out C Out A In C In A

A parole: ,Out C = (Out, Combattere se In); ,Out A = (Out, Accomodare se In); ,In C = (In,

Combattere se In); ,In A = (In, Accomodare se In).

L’insieme delle strategie (pure) così determinato può sembrare, a prima vista, paradossale: che

senso ha indicare di Combattere o di Accomodare dopo aver deciso l’azione Out nel nodo 1x ?

La scelta di azione nel nodo 3x è ovviamente irrilevante dopo aver deciso di restare fuori nel

precedente nodo 1x . Questa irrilevanza si riflette sui payoff, che sono i medesimi, ma per

completezza di definizione la descrizione delle strategie deve comprendere tutte le possibili

combinazioni di azioni disponibili per un giocatore nei diversi nodi in cui deve muovere.

Abbiamo perciò la seguente relazione fra l’insieme delle strategie iS del giocatore i e l’insieme

iA delle sue azioni

(8.5) i i

i ix H

S A x


Una volta definiti gli insiemi delle strategie le funzioni dei payoff devono essere determinate in

termini del profilo di strategie dei giocatori e non più in termini del nodo terminale raggiunto dal

gioco che rappresenta un profilo di azioni.

Nel gioco di entrata ad informazione perfetta ogni giocatore muove in un'unica occasione:

l’entrante, come abbiamo appena visto, nel nodo 1x e il monopolista incombente nel nodo 3x . Le

strategie dei due giocatori coincidono pertanto con le loro azioni: ,E ES A Out In e

,M MS A C A . La risultante matrice del gioco è indicata nella Fig. 8.3.

E M Combattere

(C)

Accomodare

(A)

Out 0, 2 0, 2

In -3, -1 2, 1

Figura 8.3 – Matrice dei payoff del gioco di entrata ad informazione perfetta

8.3.2. Soluzione per induzione a ritroso

Procedendo alla determinazione delle strategie che sono miglior risposta a qualche possibile

scelta del rivale, individuiamo due equilibri di Nash: (Out, C) e (In, A). Il primo si basa sulla

minaccia da parte dell’incombente di combattere l’entrata infliggendo all’entrante una pesante

perdita. Si tratta però di una minaccia poco credibile, perché se l’entrante decidesse di entrate

sarebbe conveniente per l’incombente scegliere la strategia Accomodare che dà payoff 1,

piuttosto che la strategia Combattere che dà payoff -1.

Attribuendo pertanto all’incombente razionalità di comportamento nella fase successiva alla

decisione di entrata, l’entrante confronta il payoff zero dalla strategia Out con il payoff 2 della

strategia In e razionalmente sceglie questa seconda strategia.

Il ragionamento ora svolto incorpora il principio della razionalità sequenziale: ogni giocatore

assume che tutti i giocatori si comportino in modo razionale nelle fasi successive del gioco.

Torniamo, alla luce di questo principio, all’albero del gioco della Fig. 8.1 e vediamo come

questo ci consente di semplificare l’individuazione di un equilibrio credibile, anche

graficamente. Osserviamo che nella ricerca di una soluzione non possiamo procedere partendo

dal giocatore che ha la mossa nel nodo iniziale, perché l’entrante non sa quale sarà la successiva

decisione dell’incombente e da questa dipende il suo payoff e quindi la sua scelta di strategia. E’

invece possibile individuare una soluzione partendo dal fondo del gioco. Posto che lo sviluppo

del gioco giunga al nodo 3x , il monopolista che si comporta in modo razionale in senso

strumentale sceglie la strategia Accomodare. Per l’ipotesi di conoscenza comune della

razionalità, l’entrante tiene conto di tale scelta e può quindi associare alla strategia In i payoff

risultati dalla decisione Accomodare dell’incombente. Questo consente di costruire il gioco

ridotto associato al gioco originale, di cui alla Fig. 8.4, e di confrontare direttamente i payoff per


l’entrante delle strategie Out e In. La soluzione così determinata utilizza il procedimento di

induzione a ritroso. Tale procedimento è alla base del seguente risultato analitico.

Proposizione 8.1. (Teorema di Zermelo)8 Ogni gioco finito EG ad informazione perfetta ha

un equilibrio di Nash in strategie pure determinabile attraverso il procedimento di

induzione a ritroso. Inoltre, se nessun giocatore ha il medesimo payoff in due nodi terminali,

l’equilibrio di Nash è unico.

L’ipotesi di razionalità sequenziale e il connesso procedimento di soluzione per induzione a

ritroso consentono di raggiungere l’importante risultato di eliminare l’equilibrio di Nash che si

fonda su una minaccia non credibile. Il modello di duopolio di Stackelberg costituisce

un’importante applicazione, che vedremo successivamente, di questo metodo di soluzione nel

caso di insiemi di strategie continui.

8.4. Il principio della razionalità sequenziale nei giochi ad informazione imperfetta:

equilibrio di Nash perfetto nei sottogiochi


Iniziamo la ricerca di soluzioni credibili del gioco di entrata ad informazione imperfetta di Fig.

8.2 dall’analisi della forma normale associata alla forma estesa. Abbiamo già determinato, nella

relazione (8.4), l’insieme delle strategie dell’entrante, mentre quello dell’incombente, che ha un

unico insieme informativo, coincide con l’insieme delle sue azioni. La matrice dei payoff è

quindi la 4x2, quattro righe e due colonne, presentata nella Fig. 8.5.

8 Il teorema è stato formulato dal matematico tedesco Zermelo nel 1913 e riformulato nella versione qui presentata da Kuhn (1953).

E

M

A

IN OUT

C ൬0

2൰

൬2

1൰ ൬

−3

−1൰

OUT IN

൬0

2൰ ൬

2

1൰

E

Figura 8.4. Gioco di entrata a informazione perfetta: gioco

originale e gioco ridotto


Procedendo, come abbiamo fatto nel paragrafo 8.3, all’individuazione delle strategie

razionalizzabili, emergono tre equilibri di Nash: , ,Out C C , , ,Out A C e , ,In A A . Di

nuovo i primi due equilibri appaiono sospetti, in quanto si fondano su una minaccia del

monopolista di combattere l’entrata con notevoli perdite per l’entrante. Dobbiamo di nuovo

chiederci se tale minaccia sia credibile. Il ragionamento è in tutto simile al precedente: se

l’entrante dovesse decidere di entrare con l’azione Accomodare – e vedremo subito che questa è

la sua scelta ottimale successivamente all’entrata – la decisione migliore per il monopolista

sarebbe Accomodare, e non Combattere.

E M Combattere

(C)

Accomodare

(A)

(Out,C) 0, 2 0, 2

(Out,A) 0,2 0,2

(In,C) -3. -1 1, 2

(In,A) -2, -1 3, 1

Figura 8.5 – Matrice dei payoff del gioco di entrata ad informazione imperfetta

Per poter scartare equilibri che si basano su minacce poco credibili, in quanto incoerenti con il

principio della razionalità delle scelte, dobbiamo individuare un criterio di affinamento

(refinement) dell’equilibrio di Nash. A questo fine Selten (1975)9 ha introdotto il criterio della

perfezione dell’equilibrio che generalizza, in un certo senso, il metodo dell’induzione a ritroso.

8.4.2. Il concetto di sottogioco e di equilibrio di Nash perfetto nei sottogiochi

Il gioco di entrata ad informazione imperfetta non consente di applicare in modo diretto il

principio dell’induzione a ritroso perché il secondo stadio è costituito da un gioco a mosse

simultanee fra entrante e incombente. Non vi sono dunque nodi terminali dai quali è possibile

partire per risalire a ritroso l’albero del gioco. Il principio della razionalità sequenziale e quello

della conoscenza comune della razionalità sono comunque applicabili anche in questo caso, più

generale del precedente.

Definizione 8.2. Sottogioco di un gioco è un gioco che inizia in un nodo singolo e contiene

tutti i nodi e gli insiemi informativi che seguono a quel nodo.

Lo stadio del gioco ad informazione imperfetta che inizia nel nodo 3x è un sottogioco proprio

dell’intero gioco in quanto soddisfa le condizioni della definizione 8.2: contiene tutti i nodi che

9 Il concetto di equilibrio perfetto nei sottogiochi è stato introdotto da Selten in primo lavoro del 1965 in lingua tedesca.

Facciamo qui riferimento al successivo e più accessibile articolo in lingua inglese del 1975.


seguono ad 3x e l’intero insieme informativo del monopolista. Per la definizione di sottogioco è

fondamentale, infatti, che gli insiemi informativi non vengano spezzati. Per convenzione, l’intero

gioco è anche sottogioco di se stesso. Il gioco ad informazione imperfetta contiene pertanto due

sottogiochi: l’intero gioco che inizia nel nodo 1x e il sottogioco proprio che inizia nel nodo 3x .

Sia

(8.6) S DX x X H x x

l’insieme degli insiemi informativi costituiti da un nodo singolo del gioco EG , s Sx X un

elemento di tale insieme, sH x l’insieme informativo che inizia nel nodo sx e E sG H x il

relativo sottogioco. Sia ,i is s un profilo di strategie del gioco EG e ,i s i ss x s x una

restrizione di tale profilo alle strategie del sottogioco E sG H x .

Definizione 8.3. Il profilo di strategie *, *i is s è un equilibrio di Nash perfetto nei

sottogiochi se la restrizione * , *i s i ss x s x è un equilibrio di Nash del sottogioco

E sG H x . In altri termini, il profilo di strategie *, *i is s è un equilibrio di Nash

perfetto nei sottogiochi se induce un equilibrio di Nash in ogni sottogioco.

8.4.3. Equilibrio di Nash perfetto nei sottogiochi nel gioco ad informazione imperfetta

Determiniamo l’equilibrio di Nash perfetto nei sottogiochi (ENPS). Applichiamo il principio di

razionalità sequenziale al sottogioco che inizia nel nodo 3x . Utilizzando la rappresentazione in

forma normale, la matrice dei payoff di tale sottogioco è la seguente.

E M Combattere

(C)

Accomodare

(A)

Combattere

(C) -3. -1 1, 2

Accomodare

(A) -2, -1 3, 1

Figura 8.6 – Matrice dei payoff del sottogioco di entrata ad informazione imperfetta

L’equilibrio di Nash di questo gioco è chiaramente costituito dal profilo di strategie ,A A . Gli

equilibri di Nash dell’intero gioco , ,Out C C e , ,Out A C non sono quindi equilibri

perfetti nei sottogiochi dato che inducono un profilo di strategie ,C C che non è un equilibrio


di Nash del sottogioco. Graficamente (Fig. 8.7), costruiamo il gioco ridotto sostituendo al

sottogioco che inizia in 3x i payoff dell’equilibrio di Nash. L’entrante confronta ora il payoff

zero dell’azione Out con il payoff tre dell’azione In e razionalmente sceglie quest’ultima. Il

procedimento di soluzione sia sotto il profilo logico, che sotto il profilo grafico ha quindi

evidenti punti di contatto con il metodo dell’induzione a ritroso, di cui costituisce una naturale

generalizzazione.

E’ immediata la dimostrazione della seguente proposizione che l’equilibrio di Nash dei giochi

dinamici ad informazione perfetta determinato attraverso l’induzione a ritroso è anche un

equilibrio di Nash perfetto nei sottogiochi.

Proposizione 8.3. Ogni gioco finito ad informazione perfetta ha un equilibrio di Nash in

strategie pure perfetto nei sottogiochi. Inoltre, se nessun giocatore ha il medesimo payoff in

due nodi terminali, tale equilibrio è l’unico perfetto nei sottogiochi.

8.5. Dalla forma estesa alla forma normale di un gioco

Nel gioco ad informazione imperfetta analizzato nel paragrafo precedente abbiamo preso in

esame una situazione dinamica nella quale, nel primo stadio del gioco, la mossa spetta ad un solo

giocatore, l’entrante, mentre nel secondo stadio si presenta una situazione di gioco a mosse

simultanee, che costituisce un sottogioco proprio dell’intero gioco. Questo sottogioco a mosse

simultanee trova agevole collocazione all’interno dell’albero: la costruzione di un insieme

informativo, contenente due nodi decisionali, rappresenta lo strumento analitico per esprimere la

mancata conoscenza dell’incombente delle modalità di entrata (aggressiva o accomodante) che

l’entrante potrebbe adottare contestualmente alla propria scelta di Combattere o Accomodare.

Questo mostra che è possibile dare una rappresentazione in forma estesa anche di un gioco per il

quale la matrice dei payoff costituisce il modo standard di rappresentazione.

Abbiamo visto nei paragrafi 8.3 e 8.4 che ad ogni gioco dinamico con due giocatori è possibile

associare una rappresentazione in forma normale costruendo la matrice di payoff risultante dalla

definizione dell’insieme delle strategie dei giocatori, come indicato nella relazione (8.5). Poiché

E

E

A

IN OUT

C ൬0

2൰

൬1

2൰ ൬

−3

−1൰

OUT IN

൬0

2൰ ൬

3

1൰

E

M

C C A A

൬−2

−1൰ ൬

3

1൰

Figura 8.7. Gioco del gioco di entrata ad informazione imperfetta:


l’insieme delle strategie è univocamente determinato dall’insieme delle azioni disponibili per i

giocatori nei diversi insiemi informativi loro assegnati nel gioco, ad ogni gioco dinamico con due

giocatori è associata un’unica matrice dei payoff. Esaminiamo le caratteristiche del passaggio

inverso da forma normale a forma estesa.

Prendiamo come punto di riferimento la matrice dei payoff del gioco a mosse simultanee di

battaglia dei sessi, che abbiamo esaminato nel paragrafo 7.2 del capitolo precedente e che

riproduciamo di seguito nella Fig. 8.8. E’ palese che la posizione di simmetria dei due giocatori

nel gioco a mosse simultanee, quanto alla possibile rappresentazione di un eventuale ordine delle

mosse, consente di assegnare il nodo iniziale dell’albero indifferente al giocatore 1 o al giocatore

2. Vi sono perciò due rappresentazioni equivalenti dello stesso gioco in forma estesa (v. Fig.

8.9).

Figura 8.8 – Matrice dei payoff del gioco della battaglia dei sessi

La medesima considerazione vale naturalmente per il sottogioco di entrata del gioco ad

informazione imperfetta del paragrafo 8.4. Il nodo iniziale 3x del sottogioco potrebbe

ugualmente bene essere assegnato all’entrante o all’incombente.

8.6. Strategie miste e strategie “comportamentali”

Abbiamo sviluppato lo studio dei giochi dinamici ad informazione imperfetta e del concetto di

equilibrio perfetto nei sottogiochi con riferimento esclusivo all’esistenza di soluzioni in strategie

1 2 Hockey Balletto

Hockey 2, 1 0, 0

Balletto 0, 0 1, 2

1

B H

൬0

0൰ ൬

2

1൰

2

H H B B

൬0

0൰ ൬

1

2൰

2

H B

B B

1

H H

൬2

1൰ ൬

1

2൰ ൬

0

0൰ ൬

0

0൰

Figura 8.9: Rappresentazione in forma estesa del gioco della battaglia dei

sessi


pure. Completiamo l’esame di questi giochi con lo studio delle soluzioni in strategie miste e

delle alternative con le quali si può formulare il processo di randomizzazione.

Consideriamo il seguente gioco dinamico in forma estesa (Fig. 8.10) e nella associata forma

normale (Fig. 8.11). Dall’esame della forma normale risulta immediatamente che il gioco non

ammette soluzione in strategie pure. Consideriamo perciò l’estensione mista del gioco. Per il

teorema di esistenza di soluzioni di Nash, il gioco ammette peraltro soluzione in strategie miste

Figura 8.10. Gioco dinamico di entrata in forma estesa

e, precisamente, 1 1 1 11 22 2 2 2

0,0, , ; , .

E M Sinistra (S) Destra (D)

(Out,Alto) 0, 2 0, 2

(Out,Basso) 0,2 0, 2

(In,Alto) 3. -1 1, 1

(In,Basso) 1, 1 3, -1

Figura 8.11 – Matrice dei payoff del gioco di entrata di Fig. 8.9

Essendo questo l’unico equilibrio di Nash dell’intero gioco è, ovviamente, anche un equilibrio

perfetto nei sottogiochi. Possiamo verificare questa affermazione prendendo in considerazione il

E

M

Out

A B

S

F

D S

F

D

In


sottogioco a mosse simultanee che inizia nel nodo 3x . Questo sottogioco ha equilibrio di Nash in

strategie miste, che indichiamo ora con la lettera anziché , 1 11 3 2 32 2

,x x . I

payoff attesi dei giocatori sono10

(8.7) 1 3

1 1, 2

2 2Eu x

e 2 3

1 1, 0

2 2Eu x

Questo consente di costruire il gioco ridotto di cui alla Fig. 8.12 e concludere che nel nodo 1x

l’entrante sceglie l’azione In. Indichiamo di nuovo questa scelta in termini probabilistici come

1 1 1 10; 1 1x x .

Abbiamo in tal modo individuato due scelte probabilistiche del giocatore entrante, una in

ciascuno dei suoi nodi decisionali. Poiché la nozione di strategia mista è propria di un gioco in

forma normale, denominiamo strategia comportamentale il processo di randomizzazione tra le

azioni possibili in ciascuno degli insiemi informativi di ogni giocatore in un gioco in forma

estesa.

Definizione 8.4. Dato un gioco in forma estesa EG , una strategia comportamentale del

giocatore i definisce, per ogni insieme informativo iH ed ogni azione ia A x , una

probabilità 0i ia x , con

1

i

i i

a A x

a x

per tutti gli i ix H .

Dato che la randomizzazione è ora sulle azioni e non sulle strategie, la corrispondente strategia

mista si ricava attraverso il principio della probabilità composta. Si ottiene:

(8.8)

11 1 1 1 3 2

11 1 1 1 3 2

1 11 1 1 1 3 2 2

1 11 1 1 1 3 2 2

, 0 0

, 0 0

, 1

, 1

Out Alto Out x Alto x

Out Basso Out x Basso x

In Alto In x Alto x

in Basso In x Basso x

10 V. Cap. 7.3 per il calcolo dei payoff attesi dei giocatori.

OUT IN

൬0

2൰ ൬

2

0൰

E

Figura 8.12 Forma ridotta del gioco di Figura 8.10


8.7. Critiche del principio di induzione a ritroso

Alla logica del principio di soluzione di un gioco dinamico per induzione a ritroso, fondato

sull’idea di razionalità sequenziale e di conoscenza comune della razionalità, sono state mosse

critiche importanti e apparentemente convincenti. Il gioco di Fig. 8.13, noto per la particolare

forma dell’albero come gioco del millepiedi (centipede game) proposto da Rosenthal (1981), ha

innescato un dibattito che periodicamente si rinnova.

Nel gioco del millepiedi vi sono due giocatori che muovono alternativamente, ciascuno con due

azioni: ( , )iA Stop Continua , 1,2i . Dopo la scelta Stop da parte di uno dei due giocatori il

gioco termina con i payoff indicati sotto i corrispondenti rami dell’albero; dopo la scelta

Continua da parte di un giocatore la mossa passa all’altro giocatore che ha, perciò la possibilità

di decidere se terminare il gioco a farlo proseguire. L’aspetto peculiare del gioco di Rosenthal è

il modo in cui sono determinati i payoff.

I giocatori iniziano con una dotazione di un euro ciascuno; se il giocatore 1, che dà inizio al

gioco, sceglie l’azione Stop, il gioco termina e i giocatori si tengono la propria dotazione di un

euro. Se, invece, il giocatore 1 sceglie all’inizio l’azione Continua, si passa al secondo stadio del

gioco; i payoff sono determinati da un arbitro esterno che toglie un euro al giocatore 1 e ne dà

due al giocatore 2, cui spetta ora la mossa. Se questi sceglie l’azione Stop, il gioco termina con

payoff (0,3). Se il giocatore 2 sceglie, a sua volta di continuare, si apre il terzo stadio del gioco in

cui la mossa ritorna al giocatore 1. Ad ogni alternanza della mossa, che presuppone la scelta

precedente dell’azione Continua, l’arbitro toglier un euro a chi ha scelto di continuare e ne dà

due a chi subentra nel gioco. Il gioco termina dopo una successione di 197 azioni Continua da

parte dei giocatori con payoff (100, 100).

Procediamo alla determinazione dell’equilibrio per induzione a ritroso. Il giocatore 2, cui spetta

la mossa nell’ultimo stadio, deve decidere tra l’azione Stop, che gli offre un payoff di 101 euro, e

l’azione Continua, che gli porta un payoff di 100 euro. Il giocatore 2 sceglie razionalmente

l’azione Stop. Per l’ipotesi di conoscenza comune della razionalità, il giocatore 1 è in grado di

C

൬97

100൰

S S S S S S

C C C 1 1 1 2 2 2

൬100

100൰

൬1

1൰ ൬

0

3൰ ൬

2

2൰ ൬

99

99൰ ൬

98

101൰

Figura 8.13. Gioco del millepiedi


anticipare tale comportamento del rivale e quindi di considerare il gioco ridotto risultante

dall’eliminazione dell’ultimo stadio, che presentiamo nella Fig. 8.14. Come si vede, il giocatore

1 confronta il payoff di 99 dall’azione Stop con i payoff di 98 dall’azione Continua e

razionalmente decide di terminare i gioco nel penultimo stadio. Ripetendo questo ragionamento

in ciascuno dei precedenti stadi del gioco si perviene, per induzione a ritroso, alla conclusione

che l’equilibrio del gioco consiste nella scelta dell’azione Stop da parte del giocatore 1 al primo

stadio del gioco stesso.

Questo è l’unico equilibrio di Nash perfetto nei sottogiochi. Si tratta di una conclusione

apparentemente poco ragionevole: se, come supponiamo, l’albero del gioco e la successione dei

payoff sono conoscenza comune e i giocatori sanno che adottando l’azione Continua possono

raggiungere un payoff di 100 euro ciascuno, certamente preferibile rispetto al misero payoff di

un solo euro. Abbiamo qui un caso macroscopico in cui l’unico equilibrio di Nash è largamente

Pareto inferiore rispetto ai payoff altrimenti conseguibili.11

La critica al procedimento di induzione a ritroso si fonda sulla convinzione che la razionalità

della soluzione proposta di un gioco dinamico ad informazione perfetta debba essere verificata

rispetto alla possibilità di una strategia di deviazione.12

Poniamoci la seguente domanda: che cosa induce un giocatore razionale a scegliere Stop

piuttosto che Continua all’inizio ed, eventualmente, in ogni stadio del gioco che venisse

raggiunto? In termini più generali, che cosa lo induce a restare sul sentiero di equilibrio

individuato dall’induzione a ritroso? La risposta sta nella certezza di ogni giocatore che, ove

dovesse scegliere l’azione Continua, l’altro giocatore sceglierebbe Stop. Diversamente,

dovremmo supporre che, per poter prendere in esame l’azione Continua allo stadio iniziale del

gioco, il giocatore 1 debba essere ragionevolmente sicuro che il giocatore 2 possa, a sua volta e

per effetto di tale decisione, essere indotto a scegliere Continua. Ma perché dovrebbe farlo?

11 La situazione del dilemma del prigioniero è per certi versi simile, ma per altri profondamente diversa: simile, in

quanto l’equilibrio di Nash è Pareto inferiore rispetto ai payoff conseguibili da un diverso profilo di azioni;

profondamente diversa, perché il dilemma del prigioniero è un gioco una tantum a mosse simultanee, mentre il

millepiedi è un gioco dinamico con una lunga successione di mosse alternativamente dell’uno e dell’altro giocatore. 12 Come vedremo nel prosieguo del capitolo, questo è il tema centrale della teoria dei giochi ripetuti.

C

൬97

100൰

S S S S S

C C 1 1 1 2 2

൬98

101൰

൬1

1൰ ൬

0

3൰ ൬

2

2൰ ൬

99

99൰

Figura 8.14. Gioco del millepiedi ridotto con

l’eliminazione dell’ultimo stadio


Binmore (1996) concorda che l’eventuale scelta Continua sarebbe evidenza di un

comportamento irrazionale, ma argomenta che l’altro giocatore non potrebbe non tenerne conto e

dovrebbe, quindi, necessariamente prendere in esame anche quanto può succedere fuori del

sentiero di equilibrio dell’induzione a ritroso. Di più, se si esclude di poter discutere di una

possibile strategia di deviazione, non si può neppure – e questo è il punto critico della tesi di

Binmore – dire alcunché sulla razionalità di attenersi al sentiero di equilibrio dell’induzione a

ritroso.

Fondare la critica dell’induzione a ritroso sull’ipotesi che i giocatori siano irrazionali in ogni

stadio del gioco, appare in verità poco convincente, non solo per il rifiuto in sé delle assunzioni

di razionalità individuale e di conoscenza comune della razionalità, ma anche perché manca un

collegamento diretto con la finalità ultima della critica: mostrare che i giocatori si rendono conto

che esistono situazioni Pareto superiori e si coordinano per raggiungerli. Estremizzando, si

rischia di sostenere che l’ottenimento di risultati migliori è possibile (solo!?) grazie

all’irrazionalità dei comportamenti degli agenti – circostanza questa che può anche

occasionalmente verificarsi. Ma si tratterebbe di una conclusione non solo assai poco

soddisfacente sul piano metodologico, ma altrettanto frustrante sul piano normativo.

La critica dell’induzione a ritroso va perciò costruita utilizzando strumenti analitici dai quali

risulti che, sotto opportune condizioni, la strategia di deviazione può essere una scelta ottimale,

fatti salvi i criteri di razionalità individuale e di conoscenza comune della razionalità. Selten

(1975) ha fornito uno spunto interessante a questo fine, suggerendo l’ipotesi che i giocatori

possano commettere errori involontari nella scelta delle proprie azioni. Harsanyi (1967-68) ha

contribuito con l’idea che vi possa essere incertezza sui tipi dei giocatori e che questo possa

esprimersi analiticamente in termini di probabilità sulla scelta delle azioni. Prendendo spunto da

queste considerazioni, un fondamento per una strategia di deviazione potrebbe essere costruito

ammettendo che i giocatori possano, con una data probabilità, allontanarsi dal sentiero di

equilibrio di induzione a ritroso. Ciò trasformerebbe il gioco ad informazione completa in un

gioco bayesiano ad informazione incompleta, il cui studio richiede lo sviluppo di opportuni

strumenti analitici.


Parte IIa. Giochi ripetuti

8.8. Definizione di gioco ripetuto

Consideriamo il seguente gioco di base G, o gioco di stadio, preso dall’articolo di Axelrod

(1981) (v. Fig. 8.15). Si tratta di un gioco a mosse simultanee di dilemma del prigioniero con

azioni Cooperare e Non Cooperare, che sostituiscono rispettivamente le azioni Negare e

Confessare del gioco originale. E’ immediato verificare, ritornando al paragrafo 7.2, lettera a) del

precedente capitolo, che il gioco in esame ha natura di dilemma del prigioniero. Il gioco ha un

equilibrio di Nash in strategia dominante (Non Cooperare, Non Cooperare). Ci chiediamo se, in

ipotesi di ripetizione del gioco, non possano emergere strategie ottimali di cooperazione escluse

nel gioco una tantum.

1 2 Cooperare

Non

cooperare

Cooperare 3, 3 0, 5

Non

cooperare 5, 0 1, 1

Figura 8.15 – Matrice dei payoff di un gioco di dilemma del prigioniero

I giochi ripetuti sono una particolare categoria di giochi dinamici, che consistono nella

ripetizione del medesimo gioco di base, che può essere un gioco a mosse simultanee, come

quello dell’esempio qui considerato, o un intero gioco dinamico con più stadi. Nella definizione

di gioco ripetuto consideriamo di seguito il solo caso di giochi di base a mosse simultanee,

poiché questo consente di semplificarne la presentazione, seppur con la perdita di qualche

generalità.

Definizione 8.5. Dato il gioco di base a mosse simultanee G, indichiamo con G T il

medesimo gioco ripetuto con un orizzonte temporale T, in cui gli esiti degli stadi precedenti

del gioco (storia del gioco) sono noti prima che abbia inizio lo stadio successivo. Il numero

delle ripetizioni del gioco può essere sia finito che infinito.

Per comodità analitica, supponiamo che il gioco G T inizi al tempo 0 e prosegua fino al

termine dell’orizzonte temporale predefinito, con una durata quindi di 1T stadi (periodi); come

abbiamo fatto nella presentazione dei giochi a mosse simultanee (paragrafo 7.1) e nei giochi

dinamici (paragrafo 8.2), nel gioco ripetuto G T indichiamo con:


i) tiA l’insieme delle azioni del giocatore i nello stadio t del gioco; poiché tale insieme rimane

invariato nei successivi stadi del gioco, si ha ti iA A , 0,1,...,t T ; e con i iA A A lo spazio

delle azioni;

ii) ,i ia a a A un profilo di azioni dei giocatori nel periodo 0,1,..., 1t ;

iii) 0 1 1, ,...,t th a a a la storia del gioco costituita dalla successione dei profili di azione

scelti dai giocatori nei successivi stadi del gioco; ovviamente 0h è un insieme vuoto;

iv) tis h la strategia del giocatore i nello stadio t, data la storia th ; formalmente, t

is h è una

regola di azione che associa ad ogni possibile storia un’azione i ia A ; nel nostro caso,

Cooperare o Non Cooperare in funzione delle precedenti decisioni dei giocatori; una strategia

pura is del giocatore i è quindi una successione di strategie pure tis h per tutti i possibili stadi

del gioco; ,i is s indica un profilo di strategie pure dei giocatori;

v) 0

, ,T

T t t t ti i i i i i

t

U s s u a h a h

il payoff del giocatore i definito come somma dei

payoff ,t ti i iu a h a h

dei successivi stadi del gioco, attualizzati al presente al fattore di

sconto per unità di tempo. Possiamo dare tre interpretazioni del fattore di sconto. La prima si

fonda sulla considerazione, tradizionale nella teoria economica, che una somma di danaro

disponibile nel futuro vale meno della corrispondente somma disponibile nel presente e vada

quindi scontata al tasso di interesse di mercato i: quindi 1

1 i

. La seconda, che si adatta ad

una situazione in cui i payoff sono intesi come utilità, fa di un fattore di sconto che esprime le

preferenze intertemporali di un agente: quindi 1

1

. In questo caso possiamo considerare

come una misura del grado di impazienza del giocatore. La terza fa riferimento alla possibilità

che il gioco possa non ripetersi nel futuro e traduce tale incertezza attraverso la probabilità p di

continuazione del gioco nello stadio successivo. In entrambi i casi il fattore di sconto è un

numero strettamente compreso fra zero ed uno.13

Possiamo a questo punto, riprendendo la Definizione 8.4, dare una definizione formale di gioco

ripetuto.

Definizione 8.6. Dato il gioco di base a mosse simultanee G, il medesimo gioco ripetuto

1T volte, in cui gli esiti degli stadi precedenti del gioco (storia del gioco) sono noti prima

che abbia inizio lo stadio successivo, è il gioco

(8.9) 1, 0

, , , , ,

I T

t t t ti i i i i i

t i t

G T I A h s U u a h a h

13 V. Axelrod (1981, p. 308).


8.9. Giochi ripetuti un numero finito di volte

Consideriamo ora il gioco di Fig. 8.15 ripetuto due volte. La rappresentazione grafica del

risultante albero del gioco è indicata nella Fig. 8.16. Per motivi di spazio ci limitiamo ad indicare

il gioco di secondo stadio solo con riferimento alle storie 1 0 0 0 0, , ,h C C NC NC ,

graficamente agli estremi dell’albero. I payoff apposti ai nodi terminali sono ottenuti per somma,

per comodità, non scontata dei payoff del profilo di azioni del primo stadio e di quello del

secondo stadio. Così il payoff del profilo di strategie 1 1,C C , dopo il profilo di strategie

0 0,C C , è 6,6 .

Costruiamo la matrice dei payoff, indicando per ciascuna delle possibili storie del gioco di primo

stadio le possibili scelte Cooperare o Non Cooperare del secondo stadio. Nel costruire tale

matrice dobbiamo ricordare che, per la Definizione 8.5, la storia del gioco è ugualmente nota ai

giocatori. Questo significa che nella matrice dei payoff sono riempite solamente le celle sulla

diagonale dei quattro blocchi in cui è divisa la matrice (v. Fig. 8.17). Quanto ai valori dei payoff,

1

2

1 1 1 1

2 2

COOP. NON COOP.

COOP.

COOP.

COOP.

COOP.

COOP.

COOP.

COOP.

COOP.

NON COOP.

NON COOP.

NON COOP.

NON COOP.

NON COOP.

NON COOP.

NON COOP.

൬6

6൰ ൬

3

8൰ ൬

8

3൰ ൬

4

4൰ ൬

4

4൰ ൬

1

6൰ ൬

6

1൰ ൬

2

2൰

Figura 8.16. Gioco del dilemma del prigioniero ripetuto due volte


prendiamo ad esempio la prima cella del blocco sud-ovest della matrice: 8,3 sono i payoff

risultanti dalla storia del gioco 0 0,C C e dal profilo di strategie 1 1,NC C .

Le strategie razionalizzabili sono, come sempre, individuate, per il giocatore 1, da una barretta

sopra il payoff e, per il giocatore 2, da una barretta sotto il payoff. Il profilo di strategie che è

equilibrio di Nash nel secondo stadio del gioco è chiaramente 1 1,NC NC , per qualsiasi

possibile storia del gioco. Possiamo perciò procedere ora per induzione a ritroso e costruire

l’albero del gioco ridotto (Fig. 8.18), che altro non è che un gioco a mosse simultanee. I payoff

di tale gioco sono quelli del primo stadio cui vanno aggiunti i payoff del gioco di secondo stadio

risultanti, come abbiamo appena indicato, dal profilo di strategie 1 1,NC NC Questi payoff sono

proprio quelli delle quattro celle della matrice di Fig. 8.17. La corrispondente matrice dei payoff

è riprodotta nella Fig. 8.18. L’equilibrio di Nash è 0 0,NC NC anche nello stadio iniziale del

gioco ripetuto.

C1h1 NC1h1

C0,C0 C0,NC0 NC0,C0 NC0,NC0 C0,C0 C0,NC0 NC0,C0 NC0,NC0

𝐶1ℎ1 =

𝐶0, 𝐶0

𝐶0, 𝑁𝐶0

𝑁𝐶0, 𝐶0

𝑁𝐶0, 𝑁𝐶0

6,6 3,8

3,8 0,10

8,3 5,5

4,4 1,6

𝑁𝐶1ℎ1 =

𝐶0, 𝐶0

𝐶0, 𝑁𝐶0

𝑁𝐶0, 𝐶0

𝑁𝐶0, 𝑁𝐶0

8,3 4, 4

5,5 1, 6

10,0 6,1

6,1 2, 2

Figura 8.17. Matrice dei payoff del gioco del dilemma del prigioniero ripetuto due volte

Il risultato così ottenuto per il gioco ripetuto due volte si estende ad un gioco ripetuto un

qualsiasi numero finito di volte. L’unico equilibrio di Nash perfetto nei sottogiochi è costituito

dalla ripetizione della strategia Non Cooperare.


La soluzione del gioco ripetuto un numero finito, per quanto grande, di volte si fonda sulla rigida

applicazione del principio di induzione a ritroso. La ratio dietro alla soluzione di non cooperare

mai si fonda sulla constatazione che non ha senso cooperare nell’ultimo stadio del gioco; ma

questo significa che non ha senso farlo neppure nello stadio immediatamente precedente, perché

l’eventuale decisione di cooperare non potrebbe indurre l’altro giocatore a farlo dato che, in ogni

caso, nell’ultimo stadio il profilo di azioni di equilibrio è Non Cooperare. E così in tutte le

precedenti fasi del gioco ripetuto.

Proposizione 8.3. Se il gioco di base G ha un unico equilibrio di Nash, il gioco ad orizzonte

finito G T ha un unico equilibrio di Nash perfetto nei sottogiochi che consiste nel profilo

di strategie (Non Cooperare, Non Cooperare) ripetuto in tutti gli stadi del gioco.14

Il risultato raggiunto è alquanto deludente: non si riesce ad affermare una premessa credibile

(Cooperare) in grado di influenzare il comportamento futuro. I limiti di questo risultato sono

esaminati nel paragrafo successivo con riferimento al gioco proposto da Selten noto come

“paradosso” della catena di negozi. Un radicale mutamento di prospettive emerge poi nell’ipotesi

di ripetizione un numero infinito di volte, che analizziamo nel paragrafo 8.11.

8.10. The chain store paradox

In un lavoro dal titolo appunto di The chain store paradox Selten (1978) si propone di illustrare

le difficoltà cui va incontro la logica dell’induzione a ritroso come criterio di soluzione di un

gioco ad orizzonte finito. A questo fine Selten costruisce il seguente gioco.

14 Se il gioco di base ha più equilibri di Nash, è possibile individuare, ancorché in modo alquanto artificioso, strategie

di equilibrio del gioco ripetuto un numero finito di volte più ampie della semplice ripetizione di uno degli equilibri di

Nash del gioco di base.

1 2 Cooperare

Non

cooperare

Cooperare 4, 4 1, 6

Non

cooperare 6, 1 2,2

Figura 8.18. Matrice dei payoff del gioco

ripetuto due volte

1

2

COOP.

COOP.

COOP.

NON COOP.

NON COOP.

NON COOP.

൬4

4൰ ൬

1

6൰ ൬

6

1൰ ൬

2

2൰

Figura 8.17. Forma ridotta del gioco


Una catena di negozi (the chain store), indicata come giocatore CS, ha punti vendita in 20

città/quartieri, dove opera come monopolista incombente. In ognuna di queste città deve

affrontare la competizione di un distinto potenziale entrante, in grado di procurarsi i mezzi

finanziari per aprire un nuovo negozio in quell’unica sede. Indichiamo i potenziali entranti come

altrettanti giocatori 1,2,...,20k .15 Ognuno dei potenziali entranti ha la scelta fra le azioni

,Out In , mentre il monopolista incombente ha, a sua volta, la scelta fra una strategia aggressiva

(Fight) ed una strategia accomodante (Cooperate). L’interazione strategica fra potenziali entranti

e incombente è modellizzata come un gioco dinamico ad informazione completa e perfetta, in cui

la prima mossa spetta all’entrante, la seconda all’incombente. Si suppone che il gioco sia ripetuto

in successione in ciascuna delle 20 città; possiamo quindi identificare l’orizzonte temporale del

gioco in 20T periodi. In ogni stadio del gioco l’esito dello stesso nelle fasi precedenti è

conoscenza comune dei giocatori. L’albero del gioco, con i relativi payoff, è presentato nella Fig.

8.19; la matrice dei payoff della forma normale associata è indicata nella Fig. 8.20.

Figura 8.19. Forma estesa del gioco Figura 8.20. Forma normale del

“chain store” gioco “the chain store”

Il gioco ha due equilibri di Nash (Out, Fight) e (In, Cooperate); solo il secondo è perfetto nei

sottogiochi – in effetti è determinato per semplice induzione a ritroso – mentre il primo si fonda

su una minaccia non credibile.

La Fig. 8.21 mostra l’albero del gioco ripetuto due volte con l’ingresso di un secondo potenziale

entrante. Le Figg. 8.22 e 8.23, ottenute per successiva induzione a ritroso, mostrano l’albero del

gioco relativo al periodo uno e la successiva situazione di scelta dell’entrante nella prima città.

Come si vede, il risultato della logica dell’induzione a ritroso è che il monopolista sceglie di

cooperare in entrambe le città e che in entrambe le città si verifica l’entrata del potenziale

entrante.

15 Un gioco con queste caratteristiche è noto in letteratura come un gioco con un giocatore a lunga vita (one long-lived

player) – l’incombente catena di negozi – che interagisce con una successione di oppositori - i potenziali entranti.

E CS Fight Cooperate

Out 1, 5 1, 5

In 0, 0 2,2


Figura 8.21 – Gioco “the chain store” ripetuto due volte

Figura 8.22 – Gioco ridotto al periodo 1 Figura 8.23 – Gioco ridotto alla scelta

dell’entrante

La considerazione del gioco esteso alle 20 città non modifica la conclusione già raggiunta. E’

chiaro che alla catena di negozi conviene una strategia di cooperazione nell’ultimo periodo del

gioco, ossia quando affronta l’entrata nella 20ma città: il payoff da cooperazione è maggiore di

quello da aggressione. Ma allora non è conveniente combattere l’entrata neppure nella città

immediatamente precedente; e così, di seguito, fino alla prima. La logica dell’induzione a ritroso

non ammette deroga.

Selten si interroga sul risultato raggiunto e contrappone alla logica della teoria dei giochi ripetuti

un numero finito di volte un’ipotesi di comportamento volto a scoraggiare l’entrata, ossia


l’ipotesi che l’incombente scelga una strategia di deterrenza, fondata sull’idea che un

comportamento aggressivo da subito, anche a costo di una rinuncia ad un maggiore payoff,

costituisca un disincentivo ai successivi potenziali entranti ad affrontare i rischi dell’entrata.

Selten costruisce dei facili esempi. Supponiamo che l’incombente decida di adottare una

strategia accomodante nelle ultime tre città ed una strategia aggressiva nelle prime 17 e che tale

minaccia venga ritenuta credibile dai potenziali entranti. I payoff non scontati dei giocatori sono:

(8.10)

1 1,...,17 per

2 18,..., 20

5 17 2 3 91

k

CS

ku

k

u

Supponiamo che 10 dei primi 17 potenziali entranti non credano alla minaccia e decidano quindi

di entrate comunque. I payoff sono ora:

(8.11)

0 1,...,17

1 per 1,...,17

2 18,..., 20

0 10 5 7 2 3 41

k

CS

k

u k

k

u

Anche in questo secondo caso la strategia di deterrenza risulta preferibile. Di qui la

denominazione del problema posto e lasciato irrisolto da Selten come the chain store paradox.

La strategia aggressiva di deterrenza all’entrata di possibili competitori è chiaramente una

strategia predatoria, in concreto realizzabile attraverso politiche di prezzo e di investimento. I

payoff del gioco di Selten lo mettono chiaramente in luce: l’incombente è disposto a rinunciare

al profitto – ed eventualmente a sostenere una perdita di breve periodo – a favore di un maggior

profitto di lungo periodo, posto che la strategia di deterrenza abbia successo, posto cioè che

mediante tale strategia l’incombente sia in grado di costruirsi una reputazione di giocatore

aggressivo. 16 Lo studio di questo problema, in relazione ad un’unica interazione fra un

incombente ed un potenziale entrante, ha condotto J. Bain (1956) a distinguere i tre casi di

entrata bloccata, combattuta e accomodata in funzione del costo di entrata per l’entrante. Quello

di Bain è quindi un gioco dinamico una tantum, ben diverso da quello di Selten che è un gioco

dinamico ripetuto.

Per la soluzione del paradosso all’interno della logica della teoria dei giochi sono stati proposti

due modelli di informazione incompleta. Nel primo di Kreps e Wilson (1982) si suppone che

l’entrante non conosca i possibili tipi dell’incombente e i relativi payoff. Se si ammette, quindi,

che – con probabilità positiva - l’incombente potrebbe trarre payoff maggiore dalla strategia

aggressiva rispetto alla strategia accomodante, si può giungere a giustificare la scelta di non

entrare da parte dei potenziali entranti. Sempre in un contesto di informazione incompleta,

Milgrom e Roberts (1982) suppongono invece che gli entranti siano incerti sulle strategie

dell’incombente e ritengano quindi che, con probabilità positiva, l’incombente potrebbe avere

solo la strategia aggressiva. Anche in questo caso la strategia di deterrenza potrebbe risultate

16 Non mancano in letteratura le critiche a tale ipotesi. Si osserva che quando il monopolista dovesse ritornare ad una

politica di alti prezzi, potrebbero riproporsi le condizioni favorevoli per un’entrata.


preferibile per l’incombente. Resta comunque irrisolto il problema di quando è conveniente per

l’incombente passare dalla strategia aggressiva a quella accomodante.

8.11. Giochi ripetuti un numero infinito di volte

Consideriamo l’ipotesi di giochi ripetuti un numero infinito di volte fra i medesimi giocatori.17

E’ chiaro che la distinzione fra ripetizione un numero finito, ma grande, di volte e ripetizione un

numero infinito di volte può apparire molto tenue sotto il profilo del realismo e della rilevanza da

un punto di vista operativo. E’ certamente vero che nessuno è in grado di programmare le proprie

azioni molto lontano nel futuro, ma se pensiamo come tipici partecipanti al gioco imprese che

operano in un contesto oligopolistico, possiamo concretamente attribuire ai giocatori il

convincimento che la situazione competitiva si protragga nel tempo. Se tale convincimento viene

espresso in termini di probabilità p che il gioco si ripeta nel periodo (stadio) successivo,

possiamo indicare con tp la probabilità che si rinnovi dopo t periodi.

La distinzione è, comunque, quanto mai rilevante sotto il profilo analitico, perché in un gioco ad

orizzonte infinito viene meno la possibilità di adottare il procedimento di induzione a ritroso,

dato che il gioco che inizia in un qualsiasi stadio è sempre, per definizione, un gioco ad orizzonte

infinito. Questa circostanza apre la strada a considerare strategie completamente nuove, in cui

Cooperare sempre può emergere come equilibrio di Nash perfetto nei sottogiochi.

Sia il dilemma del prigioniero di Fig. 8.15 il gioco di base ripetuto un numero infinito di volte.

Concentriamo l’attenzione su alcune possibili strategie.

i) Strategia Non Cooperare mai

Definizione 8.7. La strategia t consiste nell’iniziare il gioco non cooperando e nel

continuarlo non cooperando mai per qualsiasi possibile storia del gioco in t:

(8.12) 0i

i ti

NC

NC

per

0

, 0t

h

h t

A parole, il giocatore i inizia il gioco non cooperando e non coopera in ogni stadio successivo,

quale che sia la storia del gioco. In buona sostanza, la t è una strategia di deviazione

permanente dalla cooperazione. E’ chiaro che la miglior risposta per il giocatore i è Non

Cooperare per qualsiasi 0t . Un’eventuale deviazione da tale strategia, per passare

improvvisamente alla cooperazione, comporterebbe, infatti, una perdita di payoff per il giocatore

i. Ne segue che i t , 1,2i , è un equilibrio di Nash perfetto nei sottogiochi.

ii) Strategia del grilletto

17 In letteratura tale situazione è spesso indicata come gioco fra due giocatori a lunga vita (two long-lived players). v. n.

15.


Definizione 8.8. La strategia del grilletto18 è una strategia di severa punizione per chi

devia dalla cooperazione:

(8.13)

0

, 0

i

ti i

ti

C

C

NC t

se

0 0 1 1

0 0 1 1

0

, ,..., ,

, ,..., ,

t t ti i i i

t t ti i i i

t

h C C C C

h C C NC C

A parole, il giocatore i inizia il gioco cooperando e continua a cooperare in ogni stadio

successivo se entrambi i giocatori hanno cooperato in ogni stadio precedente, ma passa ad una

strategia di permanente non cooperazione se nello stadio precedente del gioco l’altro giocatore

ha deviato dalla cooperazione. Strategia del grilletto, perché punisce senza possibilità di appello

il comportamento “sleale” dell’altro.

Supponiamo allora che il giocatore i segua la strategia del grilletto, esaminiamo a quali

condizioni è conveniente anche per il giocatore i adottare tale strategia piuttosto che una strategia

di deviazione a qualche stadio del gioco. Costruiamo, per semplicità, tale strategia di deviazione

supponendo che il giocatore i inizi il gioco non cooperando; ciò significa che tale strategia

coincide con la strategia di deviazione i t di cui alla Definizione 8.7. La storia del gioco allo

stato successivo è 1 0 0,i ih NC C ; ciò significa che il giocatore i passa, conformemente

alla strategia del grilletto che per ipotesi adotta, ad una strategia di permanente non

cooperazione.

Confrontiamo i payoff ad orizzonte infinito, dato il fattore di sconto 1 ,19 della strategia del

grilletto ,i i iU e di quella di deviazione ,i i iU in risposta al giocatore i che segue la

strategia del grilletto. Abbiamo

(8.14) 2 3, 3 3 3 ...

1i i iU

(8.15) 2 3, 5 1 ... 51

i i iU

A parole, se entrambi i giocatori seguono la strategia del grilletto e iniziano cooperando, il gioco

continua con un profilo di azioni (Cooperare, Cooperare) in tutti i successivi, infiniti stadi del

gioco; il payoff del gioco è pertanto rappresentato dal valore attuale del payoff , 3i i iu C C .

18 In lingua inglese trigger strategy o, anche, grim strategy. 19 Nell’esempio di gioco ad orizzonte finito a due soli periodi, abbiamo posto per comodità il tasso di sconto pari ad

uno. Le conclusioni non sarebbero mutate se avessimo fatto una scelta diversa di e considerato un orizzonte più

esteso. In un gioco ad orizzonte infinito è invece necessario assumere un valore di minore di uno. In caso contrario, i

payoff di cui alle (8.14) e (8.15) avrebbero entrambi valore infinito e non sarebbe possibile un confronto. Se, come

precedentemente menzionato, pensiamo che vi sia una probabilità p che il gioco si ripeta nel periodo successivo e tp

dopo t stadi del gioco, questa probabilità svolge un ruolo analogo a quello del fattore di sconto. Con 1 diviene

necessario utilizzare una diversa funzione di utilità, ad esempio, il payoff medio per periodo, con possibili problemi di

convergenza ad orizzonte infinito.


Se il primo giocatore devia all’inizio del gioco, il suo payoff immediato è , 5i i iu NC C , ma il

gioco continua con un profilo di azioni (Non Cooperare, Non Cooperare) in tutti i successivi,

infiniti stadi del gioco, il cui payoff, che inizia nello stadio successivo al primo e va quindi

scontato al presente, è pari al valore attuale del payoff , 1i i iu NC NC ad orizzonte infinito.

Dalla somma di questi termini si perviene al payoff indicato nella (8.15).

La strategia del grilletto è quindi preferibile rispetto alla strategia di deviazione se il payoff della

prima è non inferiore a quello della seconda, e cioè se

(8.16) 3

51 1

e, quindi, risolvendo, se

(8.17) 1

2

Questo significa che, se il fattore di sconto è sufficientemente elevato, e nel nostro caso

possiamo certamente ritenerlo tale, la strategia del grilletto è la strategia ottimale. Rovesciando la

conclusione, la strategia di cooperazione è sconfitta dalla strategia di deviazione se il fattore di

sconto è inferiore ad un mezzo.

Dobbiamo verificare che la strategia del grilletto, ove valga la condizione (8.17) sul fattore di

sconto, sia un equilibrio di Nash perfetto nei sottogiochi. Procediamo per induzione. Abbiamo

dimostrato che la strategia del grilletto è un equilibrio di Nash perfetto nei sottogiochi nel gioco

che inizia nel periodo 0t . Supponiamo sia vero nel periodo 1t e dimostriamo che è

equilibrio perfetto nei sottogiochi del gioco che inizia nel periodo successivo. Il sottogioco che

inizia nel periodo t può avere due storie: i) di cooperazione in tutti i precedenti stadi del gioco

stesso oppure ii) di deviazione nel precedente stadio da parte di un giocatore. Nel primo caso, la

strategia del grilletto impone ad entrambi i giocatori di continuare a cooperare; pertanto il

sottogioco che inizia nel successivo stadio t è identico al precedente. Di conseguenza, la

strategia del grilletto, che abbiamo visto essere un equilibrio di Nash nel sottogioco che inizia in

1t , lo anche nel sottogioco che inizia in t . Nel secondo caso, nel gioco che inizia in t la

strategia del grilletto impone ad entrambi i giocatori di non cooperare; poiché abbiamo già

mostrato che tale strategia è un equilibrio di Nash perfetto nel (sotto)gioco che inizia in 0t , lo

è anche nel sottogioco che inizia in t.

Il risultato ora raggiunto può essere formulato in modo più generale. Sostituiamo allo specifico

gioco del dilemma del prigioniero rappresentato dalla matrice dei payoff di Fig. 8.14 la

formulazione di Axelrod (1981) introdotta nel capitolo precedente al paragrafo 7.2 e qui

riprodotta nella Fig. 8.24.


1 2 Cooperare Non

cooperare

Cooperare R, R S, T

Non

cooperare T, S P, P

Figura 8.24 – Matrice dei payoff di un generico gioco di dilemma del prigioniero

Il significato delle lettere che definiscono i vari payoff è il seguente: R è la ricompensa per la

cooperazione; T la tentazione a comportarsi in modo furbesco deviando dalla cooperazione; P la

punizione per la scelta di non cooperare; e, infine, S la stupidità di voler insistere a cooperare

quando l’altro non coopera. Il beneficio immediato derivante dalla tentazione ad abbandonare la

cooperazione è costituito dalla differenza T R ; la perdita che subisce chi devia dalla

cooperazione e che inizia dal periodo successivo è 1

R P

. La strategia di permanente

cooperazione è ottimale se la perdita è non inferiore al beneficio:

(8.18) 1

R PT R

Risolvendo si ottiene

(8.19) T R

T P

e, sostituendo i valori della matrice dei payoff di Fig. 8.14, la relazione (8.17).20

iii) Strategia TIT-for-TAT

La strategia del grilletto è una strategia di punizione particolarmente severa nei confronti di chi

devia dalla cooperazione, nel senso che non ammette la possibilità di un ritorno alla

cooperazione. Una strategia che, invece, lo prevede è stata proposta dal matematico austriaco

Rapoport, invitato da Axelrod a partecipare, unitamente ad una quindicina di altri studiosi, ad un

esperimento di gioco ripetuto di dilemma del prigioniero. L’esperimento condotto da Axelrod è

consistito nel chiedere ad ogni partecipante di proporre una strategia su computer con la quale

20 Questa modalità di presentazione della condizione di ottimalità della strategia del grilletto è stata utilizzata in

particolare da Barro e Gordon (1983) nella formulazione della politica monetaria ottimale in un contesto di aspettative

razionali.


misurarsi con un altro partecipante estratto a sorte in un gioco di dilemma del prigioniero

ripetuto 200 volte.21 TIT-for-TAT è risultata la strategia vincente.

Definizione 8.9. TIT-for-TAT è una strategia che inizia con la cooperazione e che negli

stadi successivi del gioco ripete la mossa fatta dall’altro partecipante nello stadio

precedente: Cooperare in t, se l’altro giocatore ha cooperato in 1t ; Non cooperare in t,

se l’altro giocatore non ha cooperato in 1t :22

(8.20)

0i

ti i

ti

C

C

NC

se

0 0 1 1

0 0 1 1

0

, ,..., ,

, ,..., ,

t t ti i i i

t t ti i i i

t

h C C C C

h C C NC C

A parole, il giocatore i inizia il gioco cooperando e coopera in t se l’altro giocatore ha

cooperato nello stadio precedente, ma risponde con la non cooperazione se nello stadio

precedente del gioco l’altro giocatore non ha cooperato. A differenza della definizione della

strategia del grilletto i t , la strategia TIT-for-TAT i t non prevede quindi una punizione

permanente di un eventuale comportamento “sleale”, riservandosi di premiare con la

cooperazione il possibile ritorno alla cooperazione dell’altro giocatore.

Supponiamo allora che il giocatore i segua la strategia TIT-for-TAT, esaminiamo le possibili

scelte del giocatore i, che può iniziare il gioco alternativamente con Cooperazione o Non

cooperazione. Se la miglior risposta del giocatore i è Cooperazione, la storia all’inizio dello

stadio successivo del gioco è 1 0 0,i ih C C ; il giocatore –i continua a cooperare, come pure il

giocatore i, dato che non vi sono motivi per ritenere che avendo risposto con cooperazione a

cooperazione in 0t , debba cambiare la propria scelta in 1t . Questo significa che entrambi i

giocatori adottano la strategia TIT-for-TAT, il cui payoff ad orizzonte infinito coincide con quello

del profilo di strategie del grilletto di cui alla relazione (8.14); si ha quindi

(8.21) 2 3, 3 3 3 ... ,

1i i i i i iU U

Supponiamo ora che la miglior risposta del sia con Non cooperare. Allora, seguendo per ipotesi

la TIT-for-TAT, il giocatore i gioca NC1

iNC Si aprono allora, nel periodo 1t , due strade per

il giocatore i: la prima è che la miglior risposta del giocatore i sia di non cooperare, cui il

giocatore i risponde, coerentemente, in 2t con non cooperazione. Il gioco si sviluppa in tal

caso con il seguente profilo di strategie

21 L’intero esperimento così delineato è stato condotto per cinque volte. Una seconda versione dell’esperimento è stata

effettuata da Axelrod dopo qualche tempo con un maggior numero di partecipanti e con un numero di ripetizioni

determinato casualmente. La strategia vincente è risultata la stessa del primo esperimento. 22 TIT-for-TAT è un’espressione inglese che significa “ritorsione equivalente”. Il termine ritorsione risulta calzante con

riferimento alla mossa non cooperare in risposta alla mancata cooperazione, meno appropriata alla mossa cooperare in

risposta al ritorno alla cooperazione.


Fig. 8.25 – Profilo di strategie di non cooperazione

Il payoff è il medesimo del profilo di strategie ,i i di cui alla (8.15); si ha pertanto

(8.22) 2 3, 5 1 ... 5 ,1

i i i i i iU U

La seconda strada è che la miglior risposta del giocatore i, che ha iniziato il gioco con Non

cooperare, alla scelta 1

iNC in linea con la strategia TIT-for-TAT del giocatore i sia di

Cooperare La risultante strategia prende il nome di strategia dell’alternanza, che indichiamo con

i .23 La storia del gioco in ogni t è quindi 0 0 1 1 2 2, , , , , ,...ti i i i i ih NC C C NC NC C come

indicato nella Fig. 8.26.

Fig. 8.26 – Profilo di strategie di alternanza

Il payoff della strategia dell’alternanza in risposta alla TIT-for-TAT è di conseguenza

(8.23) 2 3

2

5, 5 0 5 0 ...

1i i iU

Da un confronto fra la (8.21), la (8.22) e la (8.23) si possono trarre le seguenti conclusioni:

23 La strategia dell’alternanza è quindi una Tit-for-Tat che inizia con la non cooperazione e adotta in ogni periodo la

medesima strategia scelta dall’altro giocatore nel periodo precedente. Di qui una sorta di doppia alternanza di strategie.


- per 2

3 la TIT-for-TAT è una risposta ottimale alla TIT-for-TAT; in tal caso la TIT-for-TAT si

identifica con la strategia del grilletto che abbiamo visto essere ottimale rispetto alla strategia

della deviazione per 1

2 ;

- per 1 2

4 3 il payoff della strategia TIT-for-TAT è maggiore di quello della strategia del

grilletto ed è dunque vincente in un gioco ripetuto un numero indefinitamente grande di volte

rispetto alla strategia trigger;

- per 1

4 la strategia di deviazione è preferibile ad entrambe.

Possiamo visualizzare queste conclusioni sull’insieme 0,1 dei possibili valori di nella Fig.

8.27. Ne emerge un quadro che, utilizzando il concetto di payoff dominance di derivazione dalla

problematica della selezione degli equilibri, consente di ordinare le tre strategie considerate.

Fig. 8.27 – Fattore di sconto e payoff dominance delle strategie

8.12. Folk theorem

Torniamo al gioco di base del dilemma del prigioniero di cui alla matrice dei payoff di Fig. 8.14.

Indichiamo con il termine di payoff ammissibili l’insieme (involucro convesso) dei payoff

ottenibili per combinazione convessa dei payoff in strategie pure di tale gioco. Tale insieme è

riprodotto nella Fig. 8.25: gli angoli del quadrilatero sono i payoff in strategie pure, i punti sulla

frontiera sono i payoff risultanti dalla combinazione di una strategia pura da parte di un giocatore

e di una strategia mista da parte dell’altro; i punti interni, infine, risultano dall’utilizzazione di

strategie strettamente miste di entrambi i giocatori – ad esempio, il punto A 2.25,2.25 , sulla

diagonale principale, è il vettore di payoff risultante dal profilo di strategie miste simmetriche

1 1,

2 2i i

. 24 I punti fuori della diagonale corrispondono a strategie miste non

simmetriche dei giocatori.

24 Poiché l’insieme delle azioni possibili di ogni giocatore contiene due soli elementi – Cooperare o Non Cooperare –

indichiamo la strategia mista con la sola probabilità assegnata all’azione Cooperare.


Figura 8.25. Payoff ammissibili del gioco del dilemma del prigioniero

Consideriamo ora la seguente strategia del gioco ripetuto un numero infinito di volte

(8.24)

0

per

0

i

ti i

ti

t

0 0 1 1

0 0 1 1

0

0 se , ,..., ,

0 se , ,..., 0,

t ti i i i

t ti i i i

t

t

t

La strategia mista i t è una strategia del grilletto in cui, data la scelta di una strategia mista

nel gioco di base i , il giocatore i risponde con la ripetizione di quella strategia se nessuno

dei due giocatori si allontana dalla propria strategia mista i negli stadi precedenti del gioco e

passa ad una strategia di permanente punizione 0ti se l’altro devia 0t

i .

Procediamo come prima ad un confronto di strategia supponendo che la strategia mista del gioco

di base sia 1 1

,2 2

i i

con payoff per il giocatore i

1 1, 2.25

2 2iu

. Supponiamo che il

giocatore i segua la strategia del grilletto ; determiniamo a quali condizioni è conveniente

anche per il giocatore i adottare la medesima strategia i t piuttosto che la strategia di

deviazione i t . Assumiamo, in questo secondo caso, che il giocatore i inizi il gioco non

cooperando. Abbiamo

(8.25) 2 2.25, 2.25 2.25 2.25 ...

1i i iU

(8.26) 2 31 1, 5 1 1 ... 3

2 2 1i i iU

La strategia del grilletto è quindi preferibile rispetto alla strategia di deviazione se il payoff

della prima è non inferiore a quello della seconda, e cioè se

(8.27) 2.25

31 1

e, quindi, risolvendo, se


(8.28) 1.5

4

Otteniamo una condizione di ottimalità anche per questa seconda strategia del grilletto, la cui

convenienza rispetto alla strategia di deviazione dipende ora da un valore del fattore di sconto

inferiore al precedente. La ragione sta nel fatto che il beneficio immediato di una deviazione

dalla strategia mista alla strategia pura di non cooperazione è ora ridotto e quindi ,i i iU

,i i iU per un più ampio insieme di valori del tasso di sconto. E’ agevole intuire che se

prendiamo in esame una strategia mista che assegna un peso ancora minore al payoff della

cooperazione, l’ottimalità di tale strategia viene ora a dipendere da una condizione ancora meno

stringente sul valore del fattore di sconto.

Queste considerazioni conducono ad un risultato inatteso: l’insieme delle strategie del grilletto

potenzialmente ottimali, se accompagnate da appropriati valori del fattore di sconto, è

infinitamente grande. Tale conclusione forma oggetto della seguente proposizione, 25 qui

formulata con riferimento ai soli giochi del dilemma del prigioniero (Friedman, 1971).

Figura 8.26. Sottoinsieme dei payoff ammissibili come equilibri di Nash perfetti

nei sottogiochi del gioco del dilemma del prigioniero ripetuto infinite volte

Proposizione 8.4. (folk theorem) Sia G un gioco di dilemma del prigioniero, *, *i iu u il

vettore dei payoff dell’equilibrio di Nash e ,i iu u un qualsiasi altro vettore di payoff

ammissibili. Allora, se , *, *i i i iu u u u per ogni giocatore i e se è sufficientemente

vicino ad uno, esiste un equilibrio di Nash perfetto nei sottogiochi del gioco G ripetuto infinite

volte che consente di ottenere il vettore di payoff ,i iu u in ogni stadio del gioco.26

25 La formulazione è ripresa da Gibbons (1992), cui si rinvia per la dimostrazione. 26 Il folk theorem esclude come possibili strategie che generano un equilibrio di Nash perfetto nei sottogiochi del gioco

ripetuto infinite volte, quelle strategie miste del gioco di base che risulterebbero dominate per l’uno o per l’altro

giocatore dalla strategia di non cooperare mai.


L’insieme dei payoff conseguibili nel gioco ripetuto è indicato nella Fig. 8.26.


Bibliografia

Axelrod, R. (1981), “The Emergence of Cooperation among Egoists”, in The American Political

Science Review, pp. 306-318

Barro, R.J. e D.B. Gordon (1983), “Rules, Discretion and Reputation in a Model of Monetary

Policy”, Journal of Monetary Economics, vol. 12, pp. 101-121

Binmore, K. (1996), “A Note on Backward Induction”, Games and Economic Behavior, vol. 17,

pp. 135-137

Friedman, J. (1971), “A Non-cooperative Equilibrium for Supergames”, Review of Economic

Studies, vol. 38, pp. 1-12

Gibbons, R. (1992), A Primer in Game Theory, Englewood Cliffs,, Harvester-Wheatsheaf; trad.

Italiana Teoria dei Giochi, (1994), Bologna, Il Mulino

Mas-Colell, A., M.D. Whinston e J.R. Green (1995), Microeconomic Theory, New York, Oxford

University Press

Selten, R. (1975), “Re-examination of the Perfectness Concept for Equilibrium Points in

Extensive Games”, International Journal of Game Theory, vol. 4, pp. 25-55

--------------- (1978), “The Chain-store Paradox”, Theory and Decision, vol. 9, n. 2, pp. 127-159

Date post:	03-Apr-2020
Category:	Documents
Upload:	others
View:	5 times
Download:	0 times

Teoria dei giochi. 2. Giochi dinamici ad informazione ......Prof. Domenico Tosato - Economia...

Documents