Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 1
Capitolo 8
Teoria dei giochi.
2. Giochi dinamici ad informazione completa
Parte Ia. Giochi dinamici non ripetuti
8.1. Esempi di giochi dinamici
8.2. Descrizione di un gioco in forma estesa
8.3. Il principio della razionalità sequenziale: soluzione per induzione a ritroso
8.3.1. Rappresentazione del gioco in forma normale
8.3.2. Soluzione per induzione a ritroso
8.4. Il principio della razionalità sequenziale: equilibrio di Nash perfetto nei sottogiochi
8.4.1. Il gioco di entrata a informazione imperfetta in forma normale
8.4.2. Il concetto di sottogioco e di equilibrio di Nash perfetto nei sottogiochi
8.4.3. Equilibrio di Nash perfetto nei sottogiochi
8.5. Dalla forma normale alla forma estesa di un gioco
8.6. Strategie miste e strategie “comportamentali”
8.7. Critica del principio di induzione a ritroso
Parte IIa. Giochi ripetuti
8.8. Definizione di gioco ripetuto
8.9. Giochi ripetuti un numero finito di volte
8.10. The chain store paradox
8.11. Giochi ripetuti un numero infinito di volte (see the Lecture Note in English)
8.12. Folk theorem (see the Lecture Note in English)
Nel capitolo precedente abbiamo esaminato i principali aspetti della teoria dei giochi a mosse
simultanee (o giochi statici) con informazione completa. Abbiamo chiarito il senso di questi
termini: gioco a mosse simultanee significa che ogni partecipante decide le proprie strategie
senza conoscere le scelte degli altri partecipanti, scelte che possono essere contestuali a meno,
ma comunque assunte senza sapere le strategie degli altri. Gioco ad informazione completa
significa che nessun giocatore ha motivo di incertezza sugli elementi che definiscono il gioco:
numero dei giocatori, insieme delle strategie, payoff dei giocatori.
Passiamo ora ad esaminare i giochi dinamici nei quali si considera la possibilità che i giocatori
intervengano, anche più volte, nel gioco secondo una sequenza prestabilita di mosse. Non più
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 2
dunque mosse simultanee, bensì una successione temporale di mosse, che giustifica l’appellativo
di giochi dinamici. Manterremo peraltro ferma l’ipotesi di informazione completa.
L’esposizione si articola in due parti. Nella prima esaminiamo giochi che, per quanto articolati e
costituiti anche da una successione di mosse in cui uno stesso giocatore interviene in diverse fasi,
rappresentano una situazione di interazione strategica compiuta; nella seconda analizziamo
invece giochi che consistono nella ripetizione di un medesimo gioco, tipicamente di un gioco di
base a mosse simultanee.1
Iniziamo lo studio dei giochi dinamici non ripetuti con la presentazione, nel paragrafo 8.1, di due
giochi oligopolistici di entrata. Questo ci consente di illustrare con immediatezza la
fondamentale distinzione fra giochi ad informazione perfetta ed imperfetta e di introdurre
l’albero del gioco, per rappresentare la successione delle mosse e l’informazione dei giocatori.
La descrizione analitica dei diversi elementi dell’albero del gioco, nel paragrafo 8.2, costituisce
la rappresentazione in forma estesa di un gioco dinamico, che si contrappone alla
rappresentazione in forma normale del medesimo gioco.
I concetti di soluzione di un gioco dinamico sono esposti nel paragrafo 8.3, per giochi ad
informazione perfetta, e nel paragrafo 8.4, per giochi ad informazione imperfetta. I concetti di
soluzione – induzione a ritroso, nel primo caso, e di perfezione nei sottogiochi, nel secondo – si
fondano sul principio della razionalità sequenziale, che rappresenta una naturale estensione del
concetto di razionalità utilizzato per la determinazione dell’equilibrio di Nash nei giochi a mosse
simultanee. L’applicazione di tale principio consente di eliminare equilibri di Nash - negli
associati giochi a mosse simultanee - che si fondano su minacce (o promesse) non credibili.
Prendiamo in esame nel paragrafo 8.5 la relazione fra rappresentazione in forma normale e
rappresentazione in forma estesa di un gioco a mosse simultanee. Passiamo quindi allo studio
dell’estensione della soluzione di un gioco dinamico in strategie comportamentali, che
incorporano l’idea di una randomizzazione delle decisioni definita con riferimento ai diversi
insiemi informativi, anziché all’intero gioco (paragrafo 8.6). Concludiamo la prima parte del
capitolo (paragrafo 8.7) con la presentazione del gioco del millepiedi e delle critiche su questa
base rivolte alla soluzione per induzione a ritroso.
Nella seconda parte del capitolo esaminiamo i giochi ripetuti. L’interesse dei ricercatori, e quindi
anche degli economisti, per tali giochi è costituito dallo studio della possibilità che la ripetizione
del gioco faccia emergere l’esistenza di strategie di cooperazione tacita, laddove queste non
sussistono nel gioco di base. Il dilemma del prigioniero è il gioco emblematico entro il quale si
pone tale problema. Nel paragrafo 8.8 diamo una definizione di gioco ripetuto, distinguendo fra
gioco ripetuto un numero finito e un numero infinito di volte. Esaminiamo nel paragrafo 8.9 i
giochi ripetuti un numero finito di volte e mostriamo che, se il gioco di base ha un unico
equilibrio di Nash, procedendo per induzione a ritroso si raggiunge il risultato che l’unico
equilibrio di Nash perfetto nei sottogiochi del gioco ripetuto è rappresentato dalla strategia Non
cooperare mai. Questo risultato non appare particolarmente convincente quando la ripetizione
del gioco si estende su molti periodi. Nel paragrafo 8.10 prendiamo in esame una situazione di
1 Può naturalmente essere oggetto di ripetizione anche un gioco di base a mosse sequenziali. Questo è il caso più
complesso e dibattuto che esaminiamo nel paragrafo 8.10 dedicato alla presentazione del chain store paradox.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 3
gioco, che l’autore, R. Selten, ha indicato come “the chain-store paradox” e vediamo come in
tale contesto si possa porre il problema della costruzione di una reputazione di comportamento
aggressivo. Concentriamo quindi l’attenzione nel paragrafo successivo 8.11 sui giochi ripetuti ad
orizzonte infinito: introduciamo i concetti di strategia del grilletto e di strategia TIT-for-TAT;
studiamo le condizioni per l’ottimalità di tali strategie rispetto ad una strategia di deviazione e
dimostriamo che costituiscono un equilibrio di Nash perfetto nei sotto giochi. Dedichiamo
l’ultimo paragrafo del capitolo alla presentazione del cosiddetto folk theorem e alle sue
implicazioni.
Parte Ia. Giochi dinamici non ripetuti
8.1 Esempi di giochi dinamici
Anche a costo di qualche ripetizione che dovremmo fare nel paragrafo successivo, entriamo nel
vivo attraverso la presentazione di due giochi di entrata, che definiscono due situazioni tipiche: il
primo è un gioco ad informazione perfetta, il secondo ad informazione imperfetta.2 Vi sono due
imprese: un potenziale entrante (E) e un monopolista incombente (M). Nel primo di questi
giochi, il gioco inizia con un’azione3 dell’entrante che ha la scelta fra restare fuori o entrare,
essendo implicita nella decisione di entrata la scelta della particolare modalità di entrata.
Indichiamo tali azioni in forma sintetica come (Out, In). L’incombente ha la mossa successiva;
preso atto della decisione dell’entrante, può scegliere fra due azioni: combattere l’entrata (C) o
non contrastare l’entrata, ossia accomodarla (A).
La rappresentazione del gioco in forma strategica, possibile come vedremo più avanti, non
consente di esprimere l’ordine delle mosse e quindi indicare chi deve prendere la decisione e
quando. Per far emergere questo fondamentale elemento del gioco, è necessario ricorrere ad una
2 Entrambi i giochi sono presi da Mas-Colell, Whinston e Green (1995) 3 A differenza di quanto avviene nei giochi statici a mosse simultanee, nei giochi dinamici è necessario distinguere fra
azioni e strategie. Questa distinzione verrà effettuata più avanti.
E
M
A
IN OUT
C ൬0
2൰
൬2
1൰ ൬
−3
−1൰
Figura 8.1. Gioco dinamico di entrata ad
informazione perfetta
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 4
rappresentazione in forma estesa, mediante lo strumento grafico dell’albero del gioco, di cui
daremo nel paragrafo successivo una descrizione formale. L’albero del gioco appena descritto è
riprodotto nella Fig. 8.1. Adottiamo la convenzione più usuale di rappresentare la successione
delle mosse scendendo lungo l’albero. Nel nostro caso, il nodo iniziale dell’albero è assegnato
all’entrante; i rami che si dipartono da tale nodo rappresentano le due azioni a sua disposizione.
Se il potenziale entrante decide di restare fuori (strategia Out), il gioco finisce; la scelta
dell’incombente di Combattere o di Accomodare è irrilevante. Sotto il nodo che viene raggiunto
a seguito della decisione Out dell’entrante poniamo in ordine verticale i payoff dei giocatori:
quindi per primo quello dell’entrante, che è il giocatore 1, e quindi quello dell’incombente, che è
il giocatore 2. Se il potenziale entrante decide di entrare (strategia In), l’incombente, preso atto di
tale decisione, ha la scelta fra le azioni Combattere e Accomodare. Il gioco si conclude con i
payoff indicati sotto i rami corrispondenti a queste due azioni. I valori numerici dei payoff
riflettono la considerazione che, in assenza di entrata, l’entrante non consegue né profitti, né
perdite (payoff zero), mentre l’incombente continua con profitti positivi (payoff 2); in presenza
di entrata, l’esito del gioco dipende dall’azione scelta dall’incombente: se Combattere, questo
innesca una guerra di prezzo con conseguenze negative per entrambi i giocatori (nell’ordine -3 e
-1); se Accomodare, i payoff sono positivi (rispettivamente 2 e 1). L’azione Combattere ha
quindi il preciso senso di una minaccia che ha lo scopo di dissuadere l’entrante dal decidere per
la strategia In.
Come indicato, il secondo è anch’esso un gioco di entrata, ma ad informazione imperfetta. Vi
sono sempre due imprese: un potenziale entrante (E) e un monopolista incombente (M). Il gioco
inizia con un’azione dell’entrante che ha la scelta fra restare fuori o entrare (strategie Out e In).
Ma, all’eventuale decisione di entrata, segue ora una seconda decisione dell’entrante riguardo
alla modalità di entrata: aggressiva (strategia Combattere) o conciliante (strategia Accomodare).
L’incombente, preso atto della decisione di entrata ma non della modalità con cui questa viene
effettuata, può rispondere con le medesime due azioni precedenti: combattere l’entrata (strategia
Combattere) o non contrastarla (strategia Accomodare). Si noti la differenza rispetto la
situazione precedente. Ora l’entrante ha due decisioni: nella prima fase del gioco, se entrare o
non entrare; e nella seconda fase, quale linea tenere in ipotesi di precedente decisione di entrata.
Si apre perciò nel secondo periodo un gioco ad informazione incompleta in cui i due giocatori
devono decidere simultaneamente le proprie azioni. Nella Fig. 8.2 è rappresentato l’albero di
questo gioco: la linea tratteggiata, che è l’elemento nuovo rispetto alla Fig. 8.1, esprime
graficamente la situazione di informazione imperfetta dell’incombente, che deve decidere non
sapendo che cosa ha contestualmente deciso l’entrante. Si osservi che la posizione dei due
giocatori in questa seconda fase del gioco è assolutamente simmetrica: anche l’entrante è in
condizione di informazione imperfetta, dato che deve a sua volta decidere non sapendo quale
strategia viene contestualmente scelta dall’incombente.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 5
Figura 8.2. Gioco dinamico di entrata ad informazione imperfetta
8.2. Descrizione di un gioco in forma estesa
Mentre la descrizione in termini analitici di un gioco in forma strategica è molto semplice in
quanto richiede l’indicazione di tre soli elementi (il numero dei giocatori, l’insieme delle
strategie e i payoff), la descrizione analitica di un gioco in forma estesa è più complessa, perché
richiede di spiegare anche l’ordine delle mosse, a quale giocatore tocca la mossa e di quale
informazione dispone. Utilizziamo i giochi delle Figg. 8.1.a e 8.1.b per una immediata
esemplificazione dei vari punti della descrizione analitica che segue.
(i) Numero dei giocatori, che indichiamo con la lettera I. 2I in entrambi gli esempi di giochi
di entrata.
(ii) Insieme delle Azioni. Indichiamo con A l’insieme della azioni che possono essere assunte dai
giocatori a qualche punto del gioco: 1 2, ,..., IA A A A dove iA è l’insieme delle azioni del
giocatore i. Nel gioco ad informazione perfetta abbiamo: ,EA Out In e ,MA F A . Nel
gioco ad informazione imperfetta cambia l’insieme delle azioni dell’entrante, ma non quello
dell’incombente; abbiamo quindi: , , ,EA Out In F A e ,MA F A
E
M
Out
C A
C
F
A C
F
A
In
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 6
(iii) Insieme dei nodi e loro classificazione. Indichiamo con X l’insieme dei nodi e con kx X
1,2,...,k K gli elementi di questo insieme. 4 Nelle Figg. 8.1 i nodi sono espressamente
indicati con numerazione progressiva in ogni gioco. L’insieme dei nodi si divide nelle due
categorie dei nodi decisionali DX e dei nodi terminali TX :5 dai primi si dipartono uno o più
rami che raggiungono dei nodi successivi, mentre ciò non avviene per i secondi in quanto il
gioco ha fine. Ai nodi terminali sono associati i payoff dei giocatori. Nel gioco ad informazione
perfetta i nodi decisionali sono 1 3,DX x x , quelli terminali 2 4 5, ,TX x x x . Nel gioco ad
informazione imperfetta i nodi decisionali sono 1 3 4 5, , ,DX x x x x , quelli terminali
2 6 7 8 9, , , ,TX x x x x x .
(iv) Storia del gioco. Indichiamo con il termine di storia del gioco la successione delle azioni che
conducono ad un dato nodo dell’albero; ogni nodo è quindi identificato da una storia del gioco,
ad eccezione del nodo iniziale che, come tale, non può avere una storia. I nodi terminali sono
associati ad una storia completa del gioco. Nel gioco ad informazione perfetta abbiamo
2 1Ex a Out , 3 2Ex a In , 4 2 1;E Mx a In a C e 5 2 2;E Mx a In a A . Nel
gioco ad informazione imperfetta abbiamo, ad esempio, 6 2 3 1; ;E E Mx a In a C a C .
(v) Azioni possibili nel nodo x. Indichiamo con A x il sottoinsieme dell’insieme delle azioni
possibili nel nodo x così definito
(8.1) ,A x a A x a X
Il senso di questa definizione è che le azioni possibili nel nodo x sono quelle che conducono ad
un nodo successivo. Nel gioco ad informazione perfetta abbiamo, ad esempio,
3 1 2,M MA x a a e in quello ad informazioni imperfetta 6 1 2,M MA x a a .
(vi) Assegnazione dei nodi ai giocatori. Definiamo la funzione : DX I che assegna ad ogni
nodo decisionale il giocatore che ha la mossa in quel nodo e indichiamo l’insieme dei nodi del
giocatore i come i DX x X x i e con i ix X un generico nodo appartenente al
giocatore i. Negli esempi di gioco di entrata abbiamo, nel primo, 1EX x e 3MX x e, nel
secondo, 1 3,EX x x e 4 5,MX x x . L’assegnazione dei nodi ai giocatori determina una
partizione, esaustiva e completa, dei nodi decisionali: i D
I
X X .
(vii) Definizione degli insiemi informativi. Indichiamo con H x l’insieme informativo al quale
appartiene il nodo decisionale x. Un insieme informativo può esser costituito da un singolo nodo
- H x x 6 - o da più nodi, con la proprietà che se i nodi x ed x’ appartengono al medesimo
4 Poiché il gioco potrebbe avere dimensione infinita, come avviene nei giochi ripetuti ad orizzonte infinito, anche il
numero dei nodi potrebbe essere infinitamente grande. 5 Nei giochi ad informazione incompleta va aggiunta una terza categoria di nodi, quella riservata al ruolo svolto dalla
Natura, cui viene generalmente assegnato il nodo iniziale del gioco, indicato come nodo 0x .
6 Con questa scrittura indichiamo la circostanza che l’insieme H x contiene il solo elemento x .
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 7
insieme, e cioè H x H x , allora deve essere che le azioni disponibili in quei nodi sono le
medesime - A x A x - e i nodi appartengano al medesimo giocatore - x x .
Possiamo indicare con iH il sottoinsieme dei nodi informativi appartenenti al giocatore i e con
,i i iA x a A x a X l’insieme delle azioni disponibili al giocatore i nel nodo i ix X .
Graficamente i nodi appartenenti al medesimo insieme informativo sono uniti da una linea
tratteggiata. Negli insiemi informativi costituiti da un singolo nodo il giocatore cui spetta la
mossa conosce la storia del gioco che ha condotto a quell’insieme informativo. Questa
circostanza definisce un gioco ad informazione perfetta; è il caso del primo gioco di entrata:
l’incombente che, ha la mossa nel nodo 3x , conosce la precedente mossa dell’entrante. Negli
insiemi informativi costituiti da più nodi, il giocatore che deve decidere non sa in quale dei nodi
dell’insieme informativo si trova. La sua informazione relativamente alla storia del gioco è
quindi imperfetta. Questo è il caso del secondo gioco di entrata: l’insieme informativo
dell’incombente 4 5,MX x x è costituito da due nodi; l’incombente non sa se l’entrante ha
scelto l’azione C o l’azione A; non conosce quindi la storia del gioco.
(viii) Funzioni di payoff. Indichiamo con :i Tu X R la funzione di payoff del giocatore i;
questa funzione associa ad ogni nodo terminale, che rappresenta una storia completa del gioco,
un numero nell’insieme dei reali che costituisce appunto il payoff. Abbiamo, ad esempio, nel
primo gioco di entrata 4 3Eu x e 4 1Mu x .
Possiamo quindi definire un gioco ad informazione completa in forma estesa come
(8.2) 1
, , , , , ,I
E D T i T iG I A X X H u X
8.3. Il principio della razionalità sequenziale nei giochi ad informazione perfetta: soluzione
per induzione a ritroso
8.3.1. Rappresentazione del gioco in forma normale
Von Neumann e Morgenstern (1944) hanno dimostrato che è possibile associare ad ogni gioco
dinamico in forma estesa un’unica rappresentazione in forma normale. 7 Utilizziamo questo
risultato per determinare delle soluzioni di equilibrio dei due esempi dl gioco di entrata,
iniziando da quello ad informazione perfetta.
7 Attenzione: non vale l’opposto. Per convincersene è sufficiente riflettere alla rappresentazione attraverso un albero di
un gioco a mosse simultanee, utilizzando lo strumento dell’insieme informativo per descrivere graficamente la
situazione di conoscenza imperfetta dei giocatori. E’ evidente che possiamo indifferentemente costruire l’albero
assegnando al giocatore 1 o al giocatore 2 il nodo iniziale.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 8
Se confrontiamo la definizione analitica di un gioco in forma estesa, appena data con la (8.2),
con quella di un gioco in forma normale, data con la (7.1) del capitolo precedente che per
comodità riportiamo di seguito,
(8.3) 1, , ,
I
i i iG I S u s s
notiamo, anzi tutto, che nel passaggio dalla prima alla seconda si perde il riferimento ai nodi e
alla loro classificazione, all’assegnazione dei nodi ai giocatori cui spetta la mossa e alla
definizione di insiemi informativi. Questa perdita di informazione è ovvia conseguenza del fatto
che la forma normale è espressione di un gioco a mosse simultanee. Notiamo altresì che vi è una
diversa formulazione dei due elementi rimanenti: l’insieme delle azioni viene sostituito con
l’insieme delle strategie e diversa è la definizione delle funzioni di payoff.
Il passaggio dalle azioni alle strategie è delicato.
Definizione 8.1. Una strategia è un piano di azione per ognuna delle possibili circostanze
in cui un dato giocatore può venire a trovarsi durante lo svolgimento del gioco. E ciò
avviene in ogni insieme informativo in cui la mossa spetta a quel dato giocatore.
Torniamo, per chiarire questo punto, ai due esempi di gioco di entrata.
Nel gioco di entrata ad informazione perfetta, l’entrante ha un unico insieme informativo, il nodo
1x ; le sue strategie coincidono necessariamente con le sue azioni. Nel gioco di entrata ad
informazione imperfetta l’entrante ha due nodi informativi, i nodi 1x e 3x . Una strategia è una
regola di decisione, che potrebbe essere affidata ad un terzo, che definisce quale azione adottare,
nell’ordine, in ciascuno di questi nodi. Una strategia è quindi l’insieme delle possibili
combinazioni di azioni nei due nodi: nell’esempio,
(8.4) , , , , , , ,ES Out C Out A In C In A
A parole: ,Out C = (Out, Combattere se In); ,Out A = (Out, Accomodare se In); ,In C = (In,
Combattere se In); ,In A = (In, Accomodare se In).
L’insieme delle strategie (pure) così determinato può sembrare, a prima vista, paradossale: che
senso ha indicare di Combattere o di Accomodare dopo aver deciso l’azione Out nel nodo 1x ?
La scelta di azione nel nodo 3x è ovviamente irrilevante dopo aver deciso di restare fuori nel
precedente nodo 1x . Questa irrilevanza si riflette sui payoff, che sono i medesimi, ma per
completezza di definizione la descrizione delle strategie deve comprendere tutte le possibili
combinazioni di azioni disponibili per un giocatore nei diversi nodi in cui deve muovere.
Abbiamo perciò la seguente relazione fra l’insieme delle strategie iS del giocatore i e l’insieme
iA delle sue azioni
(8.5) i i
i ix H
S A x
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 9
Una volta definiti gli insiemi delle strategie le funzioni dei payoff devono essere determinate in
termini del profilo di strategie dei giocatori e non più in termini del nodo terminale raggiunto dal
gioco che rappresenta un profilo di azioni.
Nel gioco di entrata ad informazione perfetta ogni giocatore muove in un'unica occasione:
l’entrante, come abbiamo appena visto, nel nodo 1x e il monopolista incombente nel nodo 3x . Le
strategie dei due giocatori coincidono pertanto con le loro azioni: ,E ES A Out In e
,M MS A C A . La risultante matrice del gioco è indicata nella Fig. 8.3.
E M Combattere
(C)
Accomodare
(A)
Out 0, 2 0, 2
In -3, -1 2, 1
Figura 8.3 – Matrice dei payoff del gioco di entrata ad informazione perfetta
8.3.2. Soluzione per induzione a ritroso
Procedendo alla determinazione delle strategie che sono miglior risposta a qualche possibile
scelta del rivale, individuiamo due equilibri di Nash: (Out, C) e (In, A). Il primo si basa sulla
minaccia da parte dell’incombente di combattere l’entrata infliggendo all’entrante una pesante
perdita. Si tratta però di una minaccia poco credibile, perché se l’entrante decidesse di entrate
sarebbe conveniente per l’incombente scegliere la strategia Accomodare che dà payoff 1,
piuttosto che la strategia Combattere che dà payoff -1.
Attribuendo pertanto all’incombente razionalità di comportamento nella fase successiva alla
decisione di entrata, l’entrante confronta il payoff zero dalla strategia Out con il payoff 2 della
strategia In e razionalmente sceglie questa seconda strategia.
Il ragionamento ora svolto incorpora il principio della razionalità sequenziale: ogni giocatore
assume che tutti i giocatori si comportino in modo razionale nelle fasi successive del gioco.
Torniamo, alla luce di questo principio, all’albero del gioco della Fig. 8.1 e vediamo come
questo ci consente di semplificare l’individuazione di un equilibrio credibile, anche
graficamente. Osserviamo che nella ricerca di una soluzione non possiamo procedere partendo
dal giocatore che ha la mossa nel nodo iniziale, perché l’entrante non sa quale sarà la successiva
decisione dell’incombente e da questa dipende il suo payoff e quindi la sua scelta di strategia. E’
invece possibile individuare una soluzione partendo dal fondo del gioco. Posto che lo sviluppo
del gioco giunga al nodo 3x , il monopolista che si comporta in modo razionale in senso
strumentale sceglie la strategia Accomodare. Per l’ipotesi di conoscenza comune della
razionalità, l’entrante tiene conto di tale scelta e può quindi associare alla strategia In i payoff
risultati dalla decisione Accomodare dell’incombente. Questo consente di costruire il gioco
ridotto associato al gioco originale, di cui alla Fig. 8.4, e di confrontare direttamente i payoff per
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 10
l’entrante delle strategie Out e In. La soluzione così determinata utilizza il procedimento di
induzione a ritroso. Tale procedimento è alla base del seguente risultato analitico.
Proposizione 8.1. (Teorema di Zermelo)8 Ogni gioco finito EG ad informazione perfetta ha
un equilibrio di Nash in strategie pure determinabile attraverso il procedimento di
induzione a ritroso. Inoltre, se nessun giocatore ha il medesimo payoff in due nodi terminali,
l’equilibrio di Nash è unico.
L’ipotesi di razionalità sequenziale e il connesso procedimento di soluzione per induzione a
ritroso consentono di raggiungere l’importante risultato di eliminare l’equilibrio di Nash che si
fonda su una minaccia non credibile. Il modello di duopolio di Stackelberg costituisce
un’importante applicazione, che vedremo successivamente, di questo metodo di soluzione nel
caso di insiemi di strategie continui.
8.4. Il principio della razionalità sequenziale nei giochi ad informazione imperfetta:
equilibrio di Nash perfetto nei sottogiochi
8.4.1. Rappresentazione del gioco in forma normale
Iniziamo la ricerca di soluzioni credibili del gioco di entrata ad informazione imperfetta di Fig.
8.2 dall’analisi della forma normale associata alla forma estesa. Abbiamo già determinato, nella
relazione (8.4), l’insieme delle strategie dell’entrante, mentre quello dell’incombente, che ha un
unico insieme informativo, coincide con l’insieme delle sue azioni. La matrice dei payoff è
quindi la 4x2, quattro righe e due colonne, presentata nella Fig. 8.5.
8 Il teorema è stato formulato dal matematico tedesco Zermelo nel 1913 e riformulato nella versione qui presentata da Kuhn (1953).
E
M
A
IN OUT
C ൬0
2൰
൬2
1൰ ൬
−3
−1൰
OUT IN
൬0
2൰ ൬
2
1൰
E
Figura 8.4. Gioco di entrata a informazione perfetta: gioco
originale e gioco ridotto
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 11
Procedendo, come abbiamo fatto nel paragrafo 8.3, all’individuazione delle strategie
razionalizzabili, emergono tre equilibri di Nash: , ,Out C C , , ,Out A C e , ,In A A . Di
nuovo i primi due equilibri appaiono sospetti, in quanto si fondano su una minaccia del
monopolista di combattere l’entrata con notevoli perdite per l’entrante. Dobbiamo di nuovo
chiederci se tale minaccia sia credibile. Il ragionamento è in tutto simile al precedente: se
l’entrante dovesse decidere di entrare con l’azione Accomodare – e vedremo subito che questa è
la sua scelta ottimale successivamente all’entrata – la decisione migliore per il monopolista
sarebbe Accomodare, e non Combattere.
E M Combattere
(C)
Accomodare
(A)
(Out,C) 0, 2 0, 2
(Out,A) 0,2 0,2
(In,C) -3. -1 1, 2
(In,A) -2, -1 3, 1
Figura 8.5 – Matrice dei payoff del gioco di entrata ad informazione imperfetta
Per poter scartare equilibri che si basano su minacce poco credibili, in quanto incoerenti con il
principio della razionalità delle scelte, dobbiamo individuare un criterio di affinamento
(refinement) dell’equilibrio di Nash. A questo fine Selten (1975)9 ha introdotto il criterio della
perfezione dell’equilibrio che generalizza, in un certo senso, il metodo dell’induzione a ritroso.
8.4.2. Il concetto di sottogioco e di equilibrio di Nash perfetto nei sottogiochi
Il gioco di entrata ad informazione imperfetta non consente di applicare in modo diretto il
principio dell’induzione a ritroso perché il secondo stadio è costituito da un gioco a mosse
simultanee fra entrante e incombente. Non vi sono dunque nodi terminali dai quali è possibile
partire per risalire a ritroso l’albero del gioco. Il principio della razionalità sequenziale e quello
della conoscenza comune della razionalità sono comunque applicabili anche in questo caso, più
generale del precedente.
Definizione 8.2. Sottogioco di un gioco è un gioco che inizia in un nodo singolo e contiene
tutti i nodi e gli insiemi informativi che seguono a quel nodo.
Lo stadio del gioco ad informazione imperfetta che inizia nel nodo 3x è un sottogioco proprio
dell’intero gioco in quanto soddisfa le condizioni della definizione 8.2: contiene tutti i nodi che
9 Il concetto di equilibrio perfetto nei sottogiochi è stato introdotto da Selten in primo lavoro del 1965 in lingua tedesca.
Facciamo qui riferimento al successivo e più accessibile articolo in lingua inglese del 1975.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 12
seguono ad 3x e l’intero insieme informativo del monopolista. Per la definizione di sottogioco è
fondamentale, infatti, che gli insiemi informativi non vengano spezzati. Per convenzione, l’intero
gioco è anche sottogioco di se stesso. Il gioco ad informazione imperfetta contiene pertanto due
sottogiochi: l’intero gioco che inizia nel nodo 1x e il sottogioco proprio che inizia nel nodo 3x .
Sia
(8.6) S DX x X H x x
l’insieme degli insiemi informativi costituiti da un nodo singolo del gioco EG , s Sx X un
elemento di tale insieme, sH x l’insieme informativo che inizia nel nodo sx e E sG H x il
relativo sottogioco. Sia ,i is s un profilo di strategie del gioco EG e ,i s i ss x s x una
restrizione di tale profilo alle strategie del sottogioco E sG H x .
Definizione 8.3. Il profilo di strategie *, *i is s è un equilibrio di Nash perfetto nei
sottogiochi se la restrizione * , *i s i ss x s x è un equilibrio di Nash del sottogioco
E sG H x . In altri termini, il profilo di strategie *, *i is s è un equilibrio di Nash
perfetto nei sottogiochi se induce un equilibrio di Nash in ogni sottogioco.
8.4.3. Equilibrio di Nash perfetto nei sottogiochi nel gioco ad informazione imperfetta
Determiniamo l’equilibrio di Nash perfetto nei sottogiochi (ENPS). Applichiamo il principio di
razionalità sequenziale al sottogioco che inizia nel nodo 3x . Utilizzando la rappresentazione in
forma normale, la matrice dei payoff di tale sottogioco è la seguente.
E M Combattere
(C)
Accomodare
(A)
Combattere
(C) -3. -1 1, 2
Accomodare
(A) -2, -1 3, 1
Figura 8.6 – Matrice dei payoff del sottogioco di entrata ad informazione imperfetta
L’equilibrio di Nash di questo gioco è chiaramente costituito dal profilo di strategie ,A A . Gli
equilibri di Nash dell’intero gioco , ,Out C C e , ,Out A C non sono quindi equilibri
perfetti nei sottogiochi dato che inducono un profilo di strategie ,C C che non è un equilibrio
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 13
di Nash del sottogioco. Graficamente (Fig. 8.7), costruiamo il gioco ridotto sostituendo al
sottogioco che inizia in 3x i payoff dell’equilibrio di Nash. L’entrante confronta ora il payoff
zero dell’azione Out con il payoff tre dell’azione In e razionalmente sceglie quest’ultima. Il
procedimento di soluzione sia sotto il profilo logico, che sotto il profilo grafico ha quindi
evidenti punti di contatto con il metodo dell’induzione a ritroso, di cui costituisce una naturale
generalizzazione.
E’ immediata la dimostrazione della seguente proposizione che l’equilibrio di Nash dei giochi
dinamici ad informazione perfetta determinato attraverso l’induzione a ritroso è anche un
equilibrio di Nash perfetto nei sottogiochi.
Proposizione 8.3. Ogni gioco finito ad informazione perfetta ha un equilibrio di Nash in
strategie pure perfetto nei sottogiochi. Inoltre, se nessun giocatore ha il medesimo payoff in
due nodi terminali, tale equilibrio è l’unico perfetto nei sottogiochi.
8.5. Dalla forma estesa alla forma normale di un gioco
Nel gioco ad informazione imperfetta analizzato nel paragrafo precedente abbiamo preso in
esame una situazione dinamica nella quale, nel primo stadio del gioco, la mossa spetta ad un solo
giocatore, l’entrante, mentre nel secondo stadio si presenta una situazione di gioco a mosse
simultanee, che costituisce un sottogioco proprio dell’intero gioco. Questo sottogioco a mosse
simultanee trova agevole collocazione all’interno dell’albero: la costruzione di un insieme
informativo, contenente due nodi decisionali, rappresenta lo strumento analitico per esprimere la
mancata conoscenza dell’incombente delle modalità di entrata (aggressiva o accomodante) che
l’entrante potrebbe adottare contestualmente alla propria scelta di Combattere o Accomodare.
Questo mostra che è possibile dare una rappresentazione in forma estesa anche di un gioco per il
quale la matrice dei payoff costituisce il modo standard di rappresentazione.
Abbiamo visto nei paragrafi 8.3 e 8.4 che ad ogni gioco dinamico con due giocatori è possibile
associare una rappresentazione in forma normale costruendo la matrice di payoff risultante dalla
definizione dell’insieme delle strategie dei giocatori, come indicato nella relazione (8.5). Poiché
E
E
A
IN OUT
C ൬0
2൰
൬1
2൰ ൬
−3
−1൰
OUT IN
൬0
2൰ ൬
3
1൰
E
M
C C A A
൬−2
−1൰ ൬
3
1൰
Figura 8.7. Gioco del gioco di entrata ad informazione imperfetta:
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 14
l’insieme delle strategie è univocamente determinato dall’insieme delle azioni disponibili per i
giocatori nei diversi insiemi informativi loro assegnati nel gioco, ad ogni gioco dinamico con due
giocatori è associata un’unica matrice dei payoff. Esaminiamo le caratteristiche del passaggio
inverso da forma normale a forma estesa.
Prendiamo come punto di riferimento la matrice dei payoff del gioco a mosse simultanee di
battaglia dei sessi, che abbiamo esaminato nel paragrafo 7.2 del capitolo precedente e che
riproduciamo di seguito nella Fig. 8.8. E’ palese che la posizione di simmetria dei due giocatori
nel gioco a mosse simultanee, quanto alla possibile rappresentazione di un eventuale ordine delle
mosse, consente di assegnare il nodo iniziale dell’albero indifferente al giocatore 1 o al giocatore
2. Vi sono perciò due rappresentazioni equivalenti dello stesso gioco in forma estesa (v. Fig.
8.9).
Figura 8.8 – Matrice dei payoff del gioco della battaglia dei sessi
La medesima considerazione vale naturalmente per il sottogioco di entrata del gioco ad
informazione imperfetta del paragrafo 8.4. Il nodo iniziale 3x del sottogioco potrebbe
ugualmente bene essere assegnato all’entrante o all’incombente.
8.6. Strategie miste e strategie “comportamentali”
Abbiamo sviluppato lo studio dei giochi dinamici ad informazione imperfetta e del concetto di
equilibrio perfetto nei sottogiochi con riferimento esclusivo all’esistenza di soluzioni in strategie
1 2 Hockey Balletto
Hockey 2, 1 0, 0
Balletto 0, 0 1, 2
1
B H
൬0
0൰ ൬
2
1൰
2
H H B B
൬0
0൰ ൬
1
2൰
2
H B
B B
1
H H
൬2
1൰ ൬
1
2൰ ൬
0
0൰ ൬
0
0൰
Figura 8.9: Rappresentazione in forma estesa del gioco della battaglia dei
sessi
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 15
pure. Completiamo l’esame di questi giochi con lo studio delle soluzioni in strategie miste e
delle alternative con le quali si può formulare il processo di randomizzazione.
Consideriamo il seguente gioco dinamico in forma estesa (Fig. 8.10) e nella associata forma
normale (Fig. 8.11). Dall’esame della forma normale risulta immediatamente che il gioco non
ammette soluzione in strategie pure. Consideriamo perciò l’estensione mista del gioco. Per il
teorema di esistenza di soluzioni di Nash, il gioco ammette peraltro soluzione in strategie miste
Figura 8.10. Gioco dinamico di entrata in forma estesa
e, precisamente, 1 1 1 11 22 2 2 2
0,0, , ; , .
E M Sinistra (S) Destra (D)
(Out,Alto) 0, 2 0, 2
(Out,Basso) 0,2 0, 2
(In,Alto) 3. -1 1, 1
(In,Basso) 1, 1 3, -1
Figura 8.11 – Matrice dei payoff del gioco di entrata di Fig. 8.9
Essendo questo l’unico equilibrio di Nash dell’intero gioco è, ovviamente, anche un equilibrio
perfetto nei sottogiochi. Possiamo verificare questa affermazione prendendo in considerazione il
E
M
Out
A B
S
F
D S
F
D
In
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 16
sottogioco a mosse simultanee che inizia nel nodo 3x . Questo sottogioco ha equilibrio di Nash in
strategie miste, che indichiamo ora con la lettera anziché , 1 11 3 2 32 2
,x x . I
payoff attesi dei giocatori sono10
(8.7) 1 3
1 1, 2
2 2Eu x
e 2 3
1 1, 0
2 2Eu x
Questo consente di costruire il gioco ridotto di cui alla Fig. 8.12 e concludere che nel nodo 1x
l’entrante sceglie l’azione In. Indichiamo di nuovo questa scelta in termini probabilistici come
1 1 1 10; 1 1x x .
Abbiamo in tal modo individuato due scelte probabilistiche del giocatore entrante, una in
ciascuno dei suoi nodi decisionali. Poiché la nozione di strategia mista è propria di un gioco in
forma normale, denominiamo strategia comportamentale il processo di randomizzazione tra le
azioni possibili in ciascuno degli insiemi informativi di ogni giocatore in un gioco in forma
estesa.
Definizione 8.4. Dato un gioco in forma estesa EG , una strategia comportamentale del
giocatore i definisce, per ogni insieme informativo iH ed ogni azione ia A x , una
probabilità 0i ia x , con
1
i
i i
a A x
a x
per tutti gli i ix H .
Dato che la randomizzazione è ora sulle azioni e non sulle strategie, la corrispondente strategia
mista si ricava attraverso il principio della probabilità composta. Si ottiene:
(8.8)
11 1 1 1 3 2
11 1 1 1 3 2
1 11 1 1 1 3 2 2
1 11 1 1 1 3 2 2
, 0 0
, 0 0
, 1
, 1
Out Alto Out x Alto x
Out Basso Out x Basso x
In Alto In x Alto x
in Basso In x Basso x
10 V. Cap. 7.3 per il calcolo dei payoff attesi dei giocatori.
OUT IN
൬0
2൰ ൬
2
0൰
E
Figura 8.12 Forma ridotta del gioco di Figura 8.10
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 17
8.7. Critiche del principio di induzione a ritroso
Alla logica del principio di soluzione di un gioco dinamico per induzione a ritroso, fondato
sull’idea di razionalità sequenziale e di conoscenza comune della razionalità, sono state mosse
critiche importanti e apparentemente convincenti. Il gioco di Fig. 8.13, noto per la particolare
forma dell’albero come gioco del millepiedi (centipede game) proposto da Rosenthal (1981), ha
innescato un dibattito che periodicamente si rinnova.
Nel gioco del millepiedi vi sono due giocatori che muovono alternativamente, ciascuno con due
azioni: ( , )iA Stop Continua , 1,2i . Dopo la scelta Stop da parte di uno dei due giocatori il
gioco termina con i payoff indicati sotto i corrispondenti rami dell’albero; dopo la scelta
Continua da parte di un giocatore la mossa passa all’altro giocatore che ha, perciò la possibilità
di decidere se terminare il gioco a farlo proseguire. L’aspetto peculiare del gioco di Rosenthal è
il modo in cui sono determinati i payoff.
I giocatori iniziano con una dotazione di un euro ciascuno; se il giocatore 1, che dà inizio al
gioco, sceglie l’azione Stop, il gioco termina e i giocatori si tengono la propria dotazione di un
euro. Se, invece, il giocatore 1 sceglie all’inizio l’azione Continua, si passa al secondo stadio del
gioco; i payoff sono determinati da un arbitro esterno che toglie un euro al giocatore 1 e ne dà
due al giocatore 2, cui spetta ora la mossa. Se questi sceglie l’azione Stop, il gioco termina con
payoff (0,3). Se il giocatore 2 sceglie, a sua volta di continuare, si apre il terzo stadio del gioco in
cui la mossa ritorna al giocatore 1. Ad ogni alternanza della mossa, che presuppone la scelta
precedente dell’azione Continua, l’arbitro toglier un euro a chi ha scelto di continuare e ne dà
due a chi subentra nel gioco. Il gioco termina dopo una successione di 197 azioni Continua da
parte dei giocatori con payoff (100, 100).
Procediamo alla determinazione dell’equilibrio per induzione a ritroso. Il giocatore 2, cui spetta
la mossa nell’ultimo stadio, deve decidere tra l’azione Stop, che gli offre un payoff di 101 euro, e
l’azione Continua, che gli porta un payoff di 100 euro. Il giocatore 2 sceglie razionalmente
l’azione Stop. Per l’ipotesi di conoscenza comune della razionalità, il giocatore 1 è in grado di
C
൬97
100൰
S S S S S S
C C C 1 1 1 2 2 2
൬100
100൰
൬1
1൰ ൬
0
3൰ ൬
2
2൰ ൬
99
99൰ ൬
98
101൰
Figura 8.13. Gioco del millepiedi
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 18
anticipare tale comportamento del rivale e quindi di considerare il gioco ridotto risultante
dall’eliminazione dell’ultimo stadio, che presentiamo nella Fig. 8.14. Come si vede, il giocatore
1 confronta il payoff di 99 dall’azione Stop con i payoff di 98 dall’azione Continua e
razionalmente decide di terminare i gioco nel penultimo stadio. Ripetendo questo ragionamento
in ciascuno dei precedenti stadi del gioco si perviene, per induzione a ritroso, alla conclusione
che l’equilibrio del gioco consiste nella scelta dell’azione Stop da parte del giocatore 1 al primo
stadio del gioco stesso.
Questo è l’unico equilibrio di Nash perfetto nei sottogiochi. Si tratta di una conclusione
apparentemente poco ragionevole: se, come supponiamo, l’albero del gioco e la successione dei
payoff sono conoscenza comune e i giocatori sanno che adottando l’azione Continua possono
raggiungere un payoff di 100 euro ciascuno, certamente preferibile rispetto al misero payoff di
un solo euro. Abbiamo qui un caso macroscopico in cui l’unico equilibrio di Nash è largamente
Pareto inferiore rispetto ai payoff altrimenti conseguibili.11
La critica al procedimento di induzione a ritroso si fonda sulla convinzione che la razionalità
della soluzione proposta di un gioco dinamico ad informazione perfetta debba essere verificata
rispetto alla possibilità di una strategia di deviazione.12
Poniamoci la seguente domanda: che cosa induce un giocatore razionale a scegliere Stop
piuttosto che Continua all’inizio ed, eventualmente, in ogni stadio del gioco che venisse
raggiunto? In termini più generali, che cosa lo induce a restare sul sentiero di equilibrio
individuato dall’induzione a ritroso? La risposta sta nella certezza di ogni giocatore che, ove
dovesse scegliere l’azione Continua, l’altro giocatore sceglierebbe Stop. Diversamente,
dovremmo supporre che, per poter prendere in esame l’azione Continua allo stadio iniziale del
gioco, il giocatore 1 debba essere ragionevolmente sicuro che il giocatore 2 possa, a sua volta e
per effetto di tale decisione, essere indotto a scegliere Continua. Ma perché dovrebbe farlo?
11 La situazione del dilemma del prigioniero è per certi versi simile, ma per altri profondamente diversa: simile, in
quanto l’equilibrio di Nash è Pareto inferiore rispetto ai payoff conseguibili da un diverso profilo di azioni;
profondamente diversa, perché il dilemma del prigioniero è un gioco una tantum a mosse simultanee, mentre il
millepiedi è un gioco dinamico con una lunga successione di mosse alternativamente dell’uno e dell’altro giocatore. 12 Come vedremo nel prosieguo del capitolo, questo è il tema centrale della teoria dei giochi ripetuti.
C
൬97
100൰
S S S S S
C C 1 1 1 2 2
൬98
101൰
൬1
1൰ ൬
0
3൰ ൬
2
2൰ ൬
99
99൰
Figura 8.14. Gioco del millepiedi ridotto con
l’eliminazione dell’ultimo stadio
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 19
Binmore (1996) concorda che l’eventuale scelta Continua sarebbe evidenza di un
comportamento irrazionale, ma argomenta che l’altro giocatore non potrebbe non tenerne conto e
dovrebbe, quindi, necessariamente prendere in esame anche quanto può succedere fuori del
sentiero di equilibrio dell’induzione a ritroso. Di più, se si esclude di poter discutere di una
possibile strategia di deviazione, non si può neppure – e questo è il punto critico della tesi di
Binmore – dire alcunché sulla razionalità di attenersi al sentiero di equilibrio dell’induzione a
ritroso.
Fondare la critica dell’induzione a ritroso sull’ipotesi che i giocatori siano irrazionali in ogni
stadio del gioco, appare in verità poco convincente, non solo per il rifiuto in sé delle assunzioni
di razionalità individuale e di conoscenza comune della razionalità, ma anche perché manca un
collegamento diretto con la finalità ultima della critica: mostrare che i giocatori si rendono conto
che esistono situazioni Pareto superiori e si coordinano per raggiungerli. Estremizzando, si
rischia di sostenere che l’ottenimento di risultati migliori è possibile (solo!?) grazie
all’irrazionalità dei comportamenti degli agenti – circostanza questa che può anche
occasionalmente verificarsi. Ma si tratterebbe di una conclusione non solo assai poco
soddisfacente sul piano metodologico, ma altrettanto frustrante sul piano normativo.
La critica dell’induzione a ritroso va perciò costruita utilizzando strumenti analitici dai quali
risulti che, sotto opportune condizioni, la strategia di deviazione può essere una scelta ottimale,
fatti salvi i criteri di razionalità individuale e di conoscenza comune della razionalità. Selten
(1975) ha fornito uno spunto interessante a questo fine, suggerendo l’ipotesi che i giocatori
possano commettere errori involontari nella scelta delle proprie azioni. Harsanyi (1967-68) ha
contribuito con l’idea che vi possa essere incertezza sui tipi dei giocatori e che questo possa
esprimersi analiticamente in termini di probabilità sulla scelta delle azioni. Prendendo spunto da
queste considerazioni, un fondamento per una strategia di deviazione potrebbe essere costruito
ammettendo che i giocatori possano, con una data probabilità, allontanarsi dal sentiero di
equilibrio di induzione a ritroso. Ciò trasformerebbe il gioco ad informazione completa in un
gioco bayesiano ad informazione incompleta, il cui studio richiede lo sviluppo di opportuni
strumenti analitici.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 20
Parte IIa. Giochi ripetuti
8.8. Definizione di gioco ripetuto
Consideriamo il seguente gioco di base G, o gioco di stadio, preso dall’articolo di Axelrod
(1981) (v. Fig. 8.15). Si tratta di un gioco a mosse simultanee di dilemma del prigioniero con
azioni Cooperare e Non Cooperare, che sostituiscono rispettivamente le azioni Negare e
Confessare del gioco originale. E’ immediato verificare, ritornando al paragrafo 7.2, lettera a) del
precedente capitolo, che il gioco in esame ha natura di dilemma del prigioniero. Il gioco ha un
equilibrio di Nash in strategia dominante (Non Cooperare, Non Cooperare). Ci chiediamo se, in
ipotesi di ripetizione del gioco, non possano emergere strategie ottimali di cooperazione escluse
nel gioco una tantum.
1 2 Cooperare
Non
cooperare
Cooperare 3, 3 0, 5
Non
cooperare 5, 0 1, 1
Figura 8.15 – Matrice dei payoff di un gioco di dilemma del prigioniero
I giochi ripetuti sono una particolare categoria di giochi dinamici, che consistono nella
ripetizione del medesimo gioco di base, che può essere un gioco a mosse simultanee, come
quello dell’esempio qui considerato, o un intero gioco dinamico con più stadi. Nella definizione
di gioco ripetuto consideriamo di seguito il solo caso di giochi di base a mosse simultanee,
poiché questo consente di semplificarne la presentazione, seppur con la perdita di qualche
generalità.
Definizione 8.5. Dato il gioco di base a mosse simultanee G, indichiamo con G T il
medesimo gioco ripetuto con un orizzonte temporale T, in cui gli esiti degli stadi precedenti
del gioco (storia del gioco) sono noti prima che abbia inizio lo stadio successivo. Il numero
delle ripetizioni del gioco può essere sia finito che infinito.
Per comodità analitica, supponiamo che il gioco G T inizi al tempo 0 e prosegua fino al
termine dell’orizzonte temporale predefinito, con una durata quindi di 1T stadi (periodi); come
abbiamo fatto nella presentazione dei giochi a mosse simultanee (paragrafo 7.1) e nei giochi
dinamici (paragrafo 8.2), nel gioco ripetuto G T indichiamo con:
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 21
i) tiA l’insieme delle azioni del giocatore i nello stadio t del gioco; poiché tale insieme rimane
invariato nei successivi stadi del gioco, si ha ti iA A , 0,1,...,t T ; e con i iA A A lo spazio
delle azioni;
ii) ,i ia a a A un profilo di azioni dei giocatori nel periodo 0,1,..., 1t ;
iii) 0 1 1, ,...,t th a a a la storia del gioco costituita dalla successione dei profili di azione
scelti dai giocatori nei successivi stadi del gioco; ovviamente 0h è un insieme vuoto;
iv) tis h la strategia del giocatore i nello stadio t, data la storia th ; formalmente, t
is h è una
regola di azione che associa ad ogni possibile storia un’azione i ia A ; nel nostro caso,
Cooperare o Non Cooperare in funzione delle precedenti decisioni dei giocatori; una strategia
pura is del giocatore i è quindi una successione di strategie pure tis h per tutti i possibili stadi
del gioco; ,i is s indica un profilo di strategie pure dei giocatori;
v) 0
, ,T
T t t t ti i i i i i
t
U s s u a h a h
il payoff del giocatore i definito come somma dei
payoff ,t ti i iu a h a h
dei successivi stadi del gioco, attualizzati al presente al fattore di
sconto per unità di tempo. Possiamo dare tre interpretazioni del fattore di sconto. La prima si
fonda sulla considerazione, tradizionale nella teoria economica, che una somma di danaro
disponibile nel futuro vale meno della corrispondente somma disponibile nel presente e vada
quindi scontata al tasso di interesse di mercato i: quindi 1
1 i
. La seconda, che si adatta ad
una situazione in cui i payoff sono intesi come utilità, fa di un fattore di sconto che esprime le
preferenze intertemporali di un agente: quindi 1
1
. In questo caso possiamo considerare
come una misura del grado di impazienza del giocatore. La terza fa riferimento alla possibilità
che il gioco possa non ripetersi nel futuro e traduce tale incertezza attraverso la probabilità p di
continuazione del gioco nello stadio successivo. In entrambi i casi il fattore di sconto è un
numero strettamente compreso fra zero ed uno.13
Possiamo a questo punto, riprendendo la Definizione 8.4, dare una definizione formale di gioco
ripetuto.
Definizione 8.6. Dato il gioco di base a mosse simultanee G, il medesimo gioco ripetuto
1T volte, in cui gli esiti degli stadi precedenti del gioco (storia del gioco) sono noti prima
che abbia inizio lo stadio successivo, è il gioco
(8.9) 1, 0
, , , , ,
I T
t t t ti i i i i i
t i t
G T I A h s U u a h a h
13 V. Axelrod (1981, p. 308).
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 22
8.9. Giochi ripetuti un numero finito di volte
Consideriamo ora il gioco di Fig. 8.15 ripetuto due volte. La rappresentazione grafica del
risultante albero del gioco è indicata nella Fig. 8.16. Per motivi di spazio ci limitiamo ad indicare
il gioco di secondo stadio solo con riferimento alle storie 1 0 0 0 0, , ,h C C NC NC ,
graficamente agli estremi dell’albero. I payoff apposti ai nodi terminali sono ottenuti per somma,
per comodità, non scontata dei payoff del profilo di azioni del primo stadio e di quello del
secondo stadio. Così il payoff del profilo di strategie 1 1,C C , dopo il profilo di strategie
0 0,C C , è 6,6 .
Costruiamo la matrice dei payoff, indicando per ciascuna delle possibili storie del gioco di primo
stadio le possibili scelte Cooperare o Non Cooperare del secondo stadio. Nel costruire tale
matrice dobbiamo ricordare che, per la Definizione 8.5, la storia del gioco è ugualmente nota ai
giocatori. Questo significa che nella matrice dei payoff sono riempite solamente le celle sulla
diagonale dei quattro blocchi in cui è divisa la matrice (v. Fig. 8.17). Quanto ai valori dei payoff,
1
2
1 1 1 1
2 2
COOP. NON COOP.
COOP.
COOP.
COOP.
COOP.
COOP.
COOP.
COOP.
COOP.
NON COOP.
NON COOP.
NON COOP.
NON COOP.
NON COOP.
NON COOP.
NON COOP.
൬6
6൰ ൬
3
8൰ ൬
8
3൰ ൬
4
4൰ ൬
4
4൰ ൬
1
6൰ ൬
6
1൰ ൬
2
2൰
Figura 8.16. Gioco del dilemma del prigioniero ripetuto due volte
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 23
prendiamo ad esempio la prima cella del blocco sud-ovest della matrice: 8,3 sono i payoff
risultanti dalla storia del gioco 0 0,C C e dal profilo di strategie 1 1,NC C .
Le strategie razionalizzabili sono, come sempre, individuate, per il giocatore 1, da una barretta
sopra il payoff e, per il giocatore 2, da una barretta sotto il payoff. Il profilo di strategie che è
equilibrio di Nash nel secondo stadio del gioco è chiaramente 1 1,NC NC , per qualsiasi
possibile storia del gioco. Possiamo perciò procedere ora per induzione a ritroso e costruire
l’albero del gioco ridotto (Fig. 8.18), che altro non è che un gioco a mosse simultanee. I payoff
di tale gioco sono quelli del primo stadio cui vanno aggiunti i payoff del gioco di secondo stadio
risultanti, come abbiamo appena indicato, dal profilo di strategie 1 1,NC NC Questi payoff sono
proprio quelli delle quattro celle della matrice di Fig. 8.17. La corrispondente matrice dei payoff
è riprodotta nella Fig. 8.18. L’equilibrio di Nash è 0 0,NC NC anche nello stadio iniziale del
gioco ripetuto.
C1h1 NC1h1
C0,C0 C0,NC0 NC0,C0 NC0,NC0 C0,C0 C0,NC0 NC0,C0 NC0,NC0
𝐶1ℎ1 =
𝐶0, 𝐶0
𝐶0, 𝑁𝐶0
𝑁𝐶0, 𝐶0
𝑁𝐶0, 𝑁𝐶0
6,6 3,8
3,8 0,10
8,3 5,5
4,4 1,6
𝑁𝐶1ℎ1 =
𝐶0, 𝐶0
𝐶0, 𝑁𝐶0
𝑁𝐶0, 𝐶0
𝑁𝐶0, 𝑁𝐶0
8,3 4, 4
5,5 1, 6
10,0 6,1
6,1 2, 2
Figura 8.17. Matrice dei payoff del gioco del dilemma del prigioniero ripetuto due volte
Il risultato così ottenuto per il gioco ripetuto due volte si estende ad un gioco ripetuto un
qualsiasi numero finito di volte. L’unico equilibrio di Nash perfetto nei sottogiochi è costituito
dalla ripetizione della strategia Non Cooperare.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 24
La soluzione del gioco ripetuto un numero finito, per quanto grande, di volte si fonda sulla rigida
applicazione del principio di induzione a ritroso. La ratio dietro alla soluzione di non cooperare
mai si fonda sulla constatazione che non ha senso cooperare nell’ultimo stadio del gioco; ma
questo significa che non ha senso farlo neppure nello stadio immediatamente precedente, perché
l’eventuale decisione di cooperare non potrebbe indurre l’altro giocatore a farlo dato che, in ogni
caso, nell’ultimo stadio il profilo di azioni di equilibrio è Non Cooperare. E così in tutte le
precedenti fasi del gioco ripetuto.
Proposizione 8.3. Se il gioco di base G ha un unico equilibrio di Nash, il gioco ad orizzonte
finito G T ha un unico equilibrio di Nash perfetto nei sottogiochi che consiste nel profilo
di strategie (Non Cooperare, Non Cooperare) ripetuto in tutti gli stadi del gioco.14
Il risultato raggiunto è alquanto deludente: non si riesce ad affermare una premessa credibile
(Cooperare) in grado di influenzare il comportamento futuro. I limiti di questo risultato sono
esaminati nel paragrafo successivo con riferimento al gioco proposto da Selten noto come
“paradosso” della catena di negozi. Un radicale mutamento di prospettive emerge poi nell’ipotesi
di ripetizione un numero infinito di volte, che analizziamo nel paragrafo 8.11.
8.10. The chain store paradox
In un lavoro dal titolo appunto di The chain store paradox Selten (1978) si propone di illustrare
le difficoltà cui va incontro la logica dell’induzione a ritroso come criterio di soluzione di un
gioco ad orizzonte finito. A questo fine Selten costruisce il seguente gioco.
14 Se il gioco di base ha più equilibri di Nash, è possibile individuare, ancorché in modo alquanto artificioso, strategie
di equilibrio del gioco ripetuto un numero finito di volte più ampie della semplice ripetizione di uno degli equilibri di
Nash del gioco di base.
1 2 Cooperare
Non
cooperare
Cooperare 4, 4 1, 6
Non
cooperare 6, 1 2,2
Figura 8.18. Matrice dei payoff del gioco
ripetuto due volte
1
2
COOP.
COOP.
COOP.
NON COOP.
NON COOP.
NON COOP.
൬4
4൰ ൬
1
6൰ ൬
6
1൰ ൬
2
2൰
Figura 8.17. Forma ridotta del gioco
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 25
Una catena di negozi (the chain store), indicata come giocatore CS, ha punti vendita in 20
città/quartieri, dove opera come monopolista incombente. In ognuna di queste città deve
affrontare la competizione di un distinto potenziale entrante, in grado di procurarsi i mezzi
finanziari per aprire un nuovo negozio in quell’unica sede. Indichiamo i potenziali entranti come
altrettanti giocatori 1,2,...,20k .15 Ognuno dei potenziali entranti ha la scelta fra le azioni
,Out In , mentre il monopolista incombente ha, a sua volta, la scelta fra una strategia aggressiva
(Fight) ed una strategia accomodante (Cooperate). L’interazione strategica fra potenziali entranti
e incombente è modellizzata come un gioco dinamico ad informazione completa e perfetta, in cui
la prima mossa spetta all’entrante, la seconda all’incombente. Si suppone che il gioco sia ripetuto
in successione in ciascuna delle 20 città; possiamo quindi identificare l’orizzonte temporale del
gioco in 20T periodi. In ogni stadio del gioco l’esito dello stesso nelle fasi precedenti è
conoscenza comune dei giocatori. L’albero del gioco, con i relativi payoff, è presentato nella Fig.
8.19; la matrice dei payoff della forma normale associata è indicata nella Fig. 8.20.
Figura 8.19. Forma estesa del gioco Figura 8.20. Forma normale del
“chain store” gioco “the chain store”
Il gioco ha due equilibri di Nash (Out, Fight) e (In, Cooperate); solo il secondo è perfetto nei
sottogiochi – in effetti è determinato per semplice induzione a ritroso – mentre il primo si fonda
su una minaccia non credibile.
La Fig. 8.21 mostra l’albero del gioco ripetuto due volte con l’ingresso di un secondo potenziale
entrante. Le Figg. 8.22 e 8.23, ottenute per successiva induzione a ritroso, mostrano l’albero del
gioco relativo al periodo uno e la successiva situazione di scelta dell’entrante nella prima città.
Come si vede, il risultato della logica dell’induzione a ritroso è che il monopolista sceglie di
cooperare in entrambe le città e che in entrambe le città si verifica l’entrata del potenziale
entrante.
15 Un gioco con queste caratteristiche è noto in letteratura come un gioco con un giocatore a lunga vita (one long-lived
player) – l’incombente catena di negozi – che interagisce con una successione di oppositori - i potenziali entranti.
E CS Fight Cooperate
Out 1, 5 1, 5
In 0, 0 2,2
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 26
Figura 8.21 – Gioco “the chain store” ripetuto due volte
Figura 8.22 – Gioco ridotto al periodo 1 Figura 8.23 – Gioco ridotto alla scelta
dell’entrante
La considerazione del gioco esteso alle 20 città non modifica la conclusione già raggiunta. E’
chiaro che alla catena di negozi conviene una strategia di cooperazione nell’ultimo periodo del
gioco, ossia quando affronta l’entrata nella 20ma città: il payoff da cooperazione è maggiore di
quello da aggressione. Ma allora non è conveniente combattere l’entrata neppure nella città
immediatamente precedente; e così, di seguito, fino alla prima. La logica dell’induzione a ritroso
non ammette deroga.
Selten si interroga sul risultato raggiunto e contrappone alla logica della teoria dei giochi ripetuti
un numero finito di volte un’ipotesi di comportamento volto a scoraggiare l’entrata, ossia
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 27
l’ipotesi che l’incombente scelga una strategia di deterrenza, fondata sull’idea che un
comportamento aggressivo da subito, anche a costo di una rinuncia ad un maggiore payoff,
costituisca un disincentivo ai successivi potenziali entranti ad affrontare i rischi dell’entrata.
Selten costruisce dei facili esempi. Supponiamo che l’incombente decida di adottare una
strategia accomodante nelle ultime tre città ed una strategia aggressiva nelle prime 17 e che tale
minaccia venga ritenuta credibile dai potenziali entranti. I payoff non scontati dei giocatori sono:
(8.10)
1 1,...,17 per
2 18,..., 20
5 17 2 3 91
k
CS
ku
k
u
Supponiamo che 10 dei primi 17 potenziali entranti non credano alla minaccia e decidano quindi
di entrate comunque. I payoff sono ora:
(8.11)
0 1,...,17
1 per 1,...,17
2 18,..., 20
0 10 5 7 2 3 41
k
CS
k
u k
k
u
Anche in questo secondo caso la strategia di deterrenza risulta preferibile. Di qui la
denominazione del problema posto e lasciato irrisolto da Selten come the chain store paradox.
La strategia aggressiva di deterrenza all’entrata di possibili competitori è chiaramente una
strategia predatoria, in concreto realizzabile attraverso politiche di prezzo e di investimento. I
payoff del gioco di Selten lo mettono chiaramente in luce: l’incombente è disposto a rinunciare
al profitto – ed eventualmente a sostenere una perdita di breve periodo – a favore di un maggior
profitto di lungo periodo, posto che la strategia di deterrenza abbia successo, posto cioè che
mediante tale strategia l’incombente sia in grado di costruirsi una reputazione di giocatore
aggressivo. 16 Lo studio di questo problema, in relazione ad un’unica interazione fra un
incombente ed un potenziale entrante, ha condotto J. Bain (1956) a distinguere i tre casi di
entrata bloccata, combattuta e accomodata in funzione del costo di entrata per l’entrante. Quello
di Bain è quindi un gioco dinamico una tantum, ben diverso da quello di Selten che è un gioco
dinamico ripetuto.
Per la soluzione del paradosso all’interno della logica della teoria dei giochi sono stati proposti
due modelli di informazione incompleta. Nel primo di Kreps e Wilson (1982) si suppone che
l’entrante non conosca i possibili tipi dell’incombente e i relativi payoff. Se si ammette, quindi,
che – con probabilità positiva - l’incombente potrebbe trarre payoff maggiore dalla strategia
aggressiva rispetto alla strategia accomodante, si può giungere a giustificare la scelta di non
entrare da parte dei potenziali entranti. Sempre in un contesto di informazione incompleta,
Milgrom e Roberts (1982) suppongono invece che gli entranti siano incerti sulle strategie
dell’incombente e ritengano quindi che, con probabilità positiva, l’incombente potrebbe avere
solo la strategia aggressiva. Anche in questo caso la strategia di deterrenza potrebbe risultate
16 Non mancano in letteratura le critiche a tale ipotesi. Si osserva che quando il monopolista dovesse ritornare ad una
politica di alti prezzi, potrebbero riproporsi le condizioni favorevoli per un’entrata.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 28
preferibile per l’incombente. Resta comunque irrisolto il problema di quando è conveniente per
l’incombente passare dalla strategia aggressiva a quella accomodante.
8.11. Giochi ripetuti un numero infinito di volte
Consideriamo l’ipotesi di giochi ripetuti un numero infinito di volte fra i medesimi giocatori.17
E’ chiaro che la distinzione fra ripetizione un numero finito, ma grande, di volte e ripetizione un
numero infinito di volte può apparire molto tenue sotto il profilo del realismo e della rilevanza da
un punto di vista operativo. E’ certamente vero che nessuno è in grado di programmare le proprie
azioni molto lontano nel futuro, ma se pensiamo come tipici partecipanti al gioco imprese che
operano in un contesto oligopolistico, possiamo concretamente attribuire ai giocatori il
convincimento che la situazione competitiva si protragga nel tempo. Se tale convincimento viene
espresso in termini di probabilità p che il gioco si ripeta nel periodo (stadio) successivo,
possiamo indicare con tp la probabilità che si rinnovi dopo t periodi.
La distinzione è, comunque, quanto mai rilevante sotto il profilo analitico, perché in un gioco ad
orizzonte infinito viene meno la possibilità di adottare il procedimento di induzione a ritroso,
dato che il gioco che inizia in un qualsiasi stadio è sempre, per definizione, un gioco ad orizzonte
infinito. Questa circostanza apre la strada a considerare strategie completamente nuove, in cui
Cooperare sempre può emergere come equilibrio di Nash perfetto nei sottogiochi.
Sia il dilemma del prigioniero di Fig. 8.15 il gioco di base ripetuto un numero infinito di volte.
Concentriamo l’attenzione su alcune possibili strategie.
i) Strategia Non Cooperare mai
Definizione 8.7. La strategia t consiste nell’iniziare il gioco non cooperando e nel
continuarlo non cooperando mai per qualsiasi possibile storia del gioco in t:
(8.12) 0i
i ti
NC
NC
per
0
, 0t
h
h t
A parole, il giocatore i inizia il gioco non cooperando e non coopera in ogni stadio successivo,
quale che sia la storia del gioco. In buona sostanza, la t è una strategia di deviazione
permanente dalla cooperazione. E’ chiaro che la miglior risposta per il giocatore i è Non
Cooperare per qualsiasi 0t . Un’eventuale deviazione da tale strategia, per passare
improvvisamente alla cooperazione, comporterebbe, infatti, una perdita di payoff per il giocatore
i. Ne segue che i t , 1,2i , è un equilibrio di Nash perfetto nei sottogiochi.
ii) Strategia del grilletto
17 In letteratura tale situazione è spesso indicata come gioco fra due giocatori a lunga vita (two long-lived players). v. n.
15.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 29
Definizione 8.8. La strategia del grilletto18 è una strategia di severa punizione per chi
devia dalla cooperazione:
(8.13)
0
, 0
i
ti i
ti
C
C
NC t
se
0 0 1 1
0 0 1 1
0
, ,..., ,
, ,..., ,
t t ti i i i
t t ti i i i
t
h C C C C
h C C NC C
A parole, il giocatore i inizia il gioco cooperando e continua a cooperare in ogni stadio
successivo se entrambi i giocatori hanno cooperato in ogni stadio precedente, ma passa ad una
strategia di permanente non cooperazione se nello stadio precedente del gioco l’altro giocatore
ha deviato dalla cooperazione. Strategia del grilletto, perché punisce senza possibilità di appello
il comportamento “sleale” dell’altro.
Supponiamo allora che il giocatore i segua la strategia del grilletto, esaminiamo a quali
condizioni è conveniente anche per il giocatore i adottare tale strategia piuttosto che una strategia
di deviazione a qualche stadio del gioco. Costruiamo, per semplicità, tale strategia di deviazione
supponendo che il giocatore i inizi il gioco non cooperando; ciò significa che tale strategia
coincide con la strategia di deviazione i t di cui alla Definizione 8.7. La storia del gioco allo
stato successivo è 1 0 0,i ih NC C ; ciò significa che il giocatore i passa, conformemente
alla strategia del grilletto che per ipotesi adotta, ad una strategia di permanente non
cooperazione.
Confrontiamo i payoff ad orizzonte infinito, dato il fattore di sconto 1 ,19 della strategia del
grilletto ,i i iU e di quella di deviazione ,i i iU in risposta al giocatore i che segue la
strategia del grilletto. Abbiamo
(8.14) 2 3, 3 3 3 ...
1i i iU
(8.15) 2 3, 5 1 ... 51
i i iU
A parole, se entrambi i giocatori seguono la strategia del grilletto e iniziano cooperando, il gioco
continua con un profilo di azioni (Cooperare, Cooperare) in tutti i successivi, infiniti stadi del
gioco; il payoff del gioco è pertanto rappresentato dal valore attuale del payoff , 3i i iu C C .
18 In lingua inglese trigger strategy o, anche, grim strategy. 19 Nell’esempio di gioco ad orizzonte finito a due soli periodi, abbiamo posto per comodità il tasso di sconto pari ad
uno. Le conclusioni non sarebbero mutate se avessimo fatto una scelta diversa di e considerato un orizzonte più
esteso. In un gioco ad orizzonte infinito è invece necessario assumere un valore di minore di uno. In caso contrario, i
payoff di cui alle (8.14) e (8.15) avrebbero entrambi valore infinito e non sarebbe possibile un confronto. Se, come
precedentemente menzionato, pensiamo che vi sia una probabilità p che il gioco si ripeta nel periodo successivo e tp
dopo t stadi del gioco, questa probabilità svolge un ruolo analogo a quello del fattore di sconto. Con 1 diviene
necessario utilizzare una diversa funzione di utilità, ad esempio, il payoff medio per periodo, con possibili problemi di
convergenza ad orizzonte infinito.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 30
Se il primo giocatore devia all’inizio del gioco, il suo payoff immediato è , 5i i iu NC C , ma il
gioco continua con un profilo di azioni (Non Cooperare, Non Cooperare) in tutti i successivi,
infiniti stadi del gioco, il cui payoff, che inizia nello stadio successivo al primo e va quindi
scontato al presente, è pari al valore attuale del payoff , 1i i iu NC NC ad orizzonte infinito.
Dalla somma di questi termini si perviene al payoff indicato nella (8.15).
La strategia del grilletto è quindi preferibile rispetto alla strategia di deviazione se il payoff della
prima è non inferiore a quello della seconda, e cioè se
(8.16) 3
51 1
e, quindi, risolvendo, se
(8.17) 1
2
Questo significa che, se il fattore di sconto è sufficientemente elevato, e nel nostro caso
possiamo certamente ritenerlo tale, la strategia del grilletto è la strategia ottimale. Rovesciando la
conclusione, la strategia di cooperazione è sconfitta dalla strategia di deviazione se il fattore di
sconto è inferiore ad un mezzo.
Dobbiamo verificare che la strategia del grilletto, ove valga la condizione (8.17) sul fattore di
sconto, sia un equilibrio di Nash perfetto nei sottogiochi. Procediamo per induzione. Abbiamo
dimostrato che la strategia del grilletto è un equilibrio di Nash perfetto nei sottogiochi nel gioco
che inizia nel periodo 0t . Supponiamo sia vero nel periodo 1t e dimostriamo che è
equilibrio perfetto nei sottogiochi del gioco che inizia nel periodo successivo. Il sottogioco che
inizia nel periodo t può avere due storie: i) di cooperazione in tutti i precedenti stadi del gioco
stesso oppure ii) di deviazione nel precedente stadio da parte di un giocatore. Nel primo caso, la
strategia del grilletto impone ad entrambi i giocatori di continuare a cooperare; pertanto il
sottogioco che inizia nel successivo stadio t è identico al precedente. Di conseguenza, la
strategia del grilletto, che abbiamo visto essere un equilibrio di Nash nel sottogioco che inizia in
1t , lo anche nel sottogioco che inizia in t . Nel secondo caso, nel gioco che inizia in t la
strategia del grilletto impone ad entrambi i giocatori di non cooperare; poiché abbiamo già
mostrato che tale strategia è un equilibrio di Nash perfetto nel (sotto)gioco che inizia in 0t , lo
è anche nel sottogioco che inizia in t.
Il risultato ora raggiunto può essere formulato in modo più generale. Sostituiamo allo specifico
gioco del dilemma del prigioniero rappresentato dalla matrice dei payoff di Fig. 8.14 la
formulazione di Axelrod (1981) introdotta nel capitolo precedente al paragrafo 7.2 e qui
riprodotta nella Fig. 8.24.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 31
1 2 Cooperare Non
cooperare
Cooperare R, R S, T
Non
cooperare T, S P, P
Figura 8.24 – Matrice dei payoff di un generico gioco di dilemma del prigioniero
Il significato delle lettere che definiscono i vari payoff è il seguente: R è la ricompensa per la
cooperazione; T la tentazione a comportarsi in modo furbesco deviando dalla cooperazione; P la
punizione per la scelta di non cooperare; e, infine, S la stupidità di voler insistere a cooperare
quando l’altro non coopera. Il beneficio immediato derivante dalla tentazione ad abbandonare la
cooperazione è costituito dalla differenza T R ; la perdita che subisce chi devia dalla
cooperazione e che inizia dal periodo successivo è 1
R P
. La strategia di permanente
cooperazione è ottimale se la perdita è non inferiore al beneficio:
(8.18) 1
R PT R
Risolvendo si ottiene
(8.19) T R
T P
e, sostituendo i valori della matrice dei payoff di Fig. 8.14, la relazione (8.17).20
iii) Strategia TIT-for-TAT
La strategia del grilletto è una strategia di punizione particolarmente severa nei confronti di chi
devia dalla cooperazione, nel senso che non ammette la possibilità di un ritorno alla
cooperazione. Una strategia che, invece, lo prevede è stata proposta dal matematico austriaco
Rapoport, invitato da Axelrod a partecipare, unitamente ad una quindicina di altri studiosi, ad un
esperimento di gioco ripetuto di dilemma del prigioniero. L’esperimento condotto da Axelrod è
consistito nel chiedere ad ogni partecipante di proporre una strategia su computer con la quale
20 Questa modalità di presentazione della condizione di ottimalità della strategia del grilletto è stata utilizzata in
particolare da Barro e Gordon (1983) nella formulazione della politica monetaria ottimale in un contesto di aspettative
razionali.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 32
misurarsi con un altro partecipante estratto a sorte in un gioco di dilemma del prigioniero
ripetuto 200 volte.21 TIT-for-TAT è risultata la strategia vincente.
Definizione 8.9. TIT-for-TAT è una strategia che inizia con la cooperazione e che negli
stadi successivi del gioco ripete la mossa fatta dall’altro partecipante nello stadio
precedente: Cooperare in t, se l’altro giocatore ha cooperato in 1t ; Non cooperare in t,
se l’altro giocatore non ha cooperato in 1t :22
(8.20)
0i
ti i
ti
C
C
NC
se
0 0 1 1
0 0 1 1
0
, ,..., ,
, ,..., ,
t t ti i i i
t t ti i i i
t
h C C C C
h C C NC C
A parole, il giocatore i inizia il gioco cooperando e coopera in t se l’altro giocatore ha
cooperato nello stadio precedente, ma risponde con la non cooperazione se nello stadio
precedente del gioco l’altro giocatore non ha cooperato. A differenza della definizione della
strategia del grilletto i t , la strategia TIT-for-TAT i t non prevede quindi una punizione
permanente di un eventuale comportamento “sleale”, riservandosi di premiare con la
cooperazione il possibile ritorno alla cooperazione dell’altro giocatore.
Supponiamo allora che il giocatore i segua la strategia TIT-for-TAT, esaminiamo le possibili
scelte del giocatore i, che può iniziare il gioco alternativamente con Cooperazione o Non
cooperazione. Se la miglior risposta del giocatore i è Cooperazione, la storia all’inizio dello
stadio successivo del gioco è 1 0 0,i ih C C ; il giocatore –i continua a cooperare, come pure il
giocatore i, dato che non vi sono motivi per ritenere che avendo risposto con cooperazione a
cooperazione in 0t , debba cambiare la propria scelta in 1t . Questo significa che entrambi i
giocatori adottano la strategia TIT-for-TAT, il cui payoff ad orizzonte infinito coincide con quello
del profilo di strategie del grilletto di cui alla relazione (8.14); si ha quindi
(8.21) 2 3, 3 3 3 ... ,
1i i i i i iU U
Supponiamo ora che la miglior risposta del sia con Non cooperare. Allora, seguendo per ipotesi
la TIT-for-TAT, il giocatore i gioca NC1
iNC Si aprono allora, nel periodo 1t , due strade per
il giocatore i: la prima è che la miglior risposta del giocatore i sia di non cooperare, cui il
giocatore i risponde, coerentemente, in 2t con non cooperazione. Il gioco si sviluppa in tal
caso con il seguente profilo di strategie
21 L’intero esperimento così delineato è stato condotto per cinque volte. Una seconda versione dell’esperimento è stata
effettuata da Axelrod dopo qualche tempo con un maggior numero di partecipanti e con un numero di ripetizioni
determinato casualmente. La strategia vincente è risultata la stessa del primo esperimento. 22 TIT-for-TAT è un’espressione inglese che significa “ritorsione equivalente”. Il termine ritorsione risulta calzante con
riferimento alla mossa non cooperare in risposta alla mancata cooperazione, meno appropriata alla mossa cooperare in
risposta al ritorno alla cooperazione.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 33
Fig. 8.25 – Profilo di strategie di non cooperazione
Il payoff è il medesimo del profilo di strategie ,i i di cui alla (8.15); si ha pertanto
(8.22) 2 3, 5 1 ... 5 ,1
i i i i i iU U
La seconda strada è che la miglior risposta del giocatore i, che ha iniziato il gioco con Non
cooperare, alla scelta 1
iNC in linea con la strategia TIT-for-TAT del giocatore i sia di
Cooperare La risultante strategia prende il nome di strategia dell’alternanza, che indichiamo con
i .23 La storia del gioco in ogni t è quindi 0 0 1 1 2 2, , , , , ,...ti i i i i ih NC C C NC NC C come
indicato nella Fig. 8.26.
Fig. 8.26 – Profilo di strategie di alternanza
Il payoff della strategia dell’alternanza in risposta alla TIT-for-TAT è di conseguenza
(8.23) 2 3
2
5, 5 0 5 0 ...
1i i iU
Da un confronto fra la (8.21), la (8.22) e la (8.23) si possono trarre le seguenti conclusioni:
23 La strategia dell’alternanza è quindi una Tit-for-Tat che inizia con la non cooperazione e adotta in ogni periodo la
medesima strategia scelta dall’altro giocatore nel periodo precedente. Di qui una sorta di doppia alternanza di strategie.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 34
- per 2
3 la TIT-for-TAT è una risposta ottimale alla TIT-for-TAT; in tal caso la TIT-for-TAT si
identifica con la strategia del grilletto che abbiamo visto essere ottimale rispetto alla strategia
della deviazione per 1
2 ;
- per 1 2
4 3 il payoff della strategia TIT-for-TAT è maggiore di quello della strategia del
grilletto ed è dunque vincente in un gioco ripetuto un numero indefinitamente grande di volte
rispetto alla strategia trigger;
- per 1
4 la strategia di deviazione è preferibile ad entrambe.
Possiamo visualizzare queste conclusioni sull’insieme 0,1 dei possibili valori di nella Fig.
8.27. Ne emerge un quadro che, utilizzando il concetto di payoff dominance di derivazione dalla
problematica della selezione degli equilibri, consente di ordinare le tre strategie considerate.
Fig. 8.27 – Fattore di sconto e payoff dominance delle strategie
8.12. Folk theorem
Torniamo al gioco di base del dilemma del prigioniero di cui alla matrice dei payoff di Fig. 8.14.
Indichiamo con il termine di payoff ammissibili l’insieme (involucro convesso) dei payoff
ottenibili per combinazione convessa dei payoff in strategie pure di tale gioco. Tale insieme è
riprodotto nella Fig. 8.25: gli angoli del quadrilatero sono i payoff in strategie pure, i punti sulla
frontiera sono i payoff risultanti dalla combinazione di una strategia pura da parte di un giocatore
e di una strategia mista da parte dell’altro; i punti interni, infine, risultano dall’utilizzazione di
strategie strettamente miste di entrambi i giocatori – ad esempio, il punto A 2.25,2.25 , sulla
diagonale principale, è il vettore di payoff risultante dal profilo di strategie miste simmetriche
1 1,
2 2i i
. 24 I punti fuori della diagonale corrispondono a strategie miste non
simmetriche dei giocatori.
24 Poiché l’insieme delle azioni possibili di ogni giocatore contiene due soli elementi – Cooperare o Non Cooperare –
indichiamo la strategia mista con la sola probabilità assegnata all’azione Cooperare.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 35
Figura 8.25. Payoff ammissibili del gioco del dilemma del prigioniero
Consideriamo ora la seguente strategia del gioco ripetuto un numero infinito di volte
(8.24)
0
per
0
i
ti i
ti
t
0 0 1 1
0 0 1 1
0
0 se , ,..., ,
0 se , ,..., 0,
t ti i i i
t ti i i i
t
t
t
La strategia mista i t è una strategia del grilletto in cui, data la scelta di una strategia mista
nel gioco di base i , il giocatore i risponde con la ripetizione di quella strategia se nessuno
dei due giocatori si allontana dalla propria strategia mista i negli stadi precedenti del gioco e
passa ad una strategia di permanente punizione 0ti se l’altro devia 0t
i .
Procediamo come prima ad un confronto di strategia supponendo che la strategia mista del gioco
di base sia 1 1
,2 2
i i
con payoff per il giocatore i
1 1, 2.25
2 2iu
. Supponiamo che il
giocatore i segua la strategia del grilletto ; determiniamo a quali condizioni è conveniente
anche per il giocatore i adottare la medesima strategia i t piuttosto che la strategia di
deviazione i t . Assumiamo, in questo secondo caso, che il giocatore i inizi il gioco non
cooperando. Abbiamo
(8.25) 2 2.25, 2.25 2.25 2.25 ...
1i i iU
(8.26) 2 31 1, 5 1 1 ... 3
2 2 1i i iU
La strategia del grilletto è quindi preferibile rispetto alla strategia di deviazione se il payoff
della prima è non inferiore a quello della seconda, e cioè se
(8.27) 2.25
31 1
e, quindi, risolvendo, se
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 36
(8.28) 1.5
4
Otteniamo una condizione di ottimalità anche per questa seconda strategia del grilletto, la cui
convenienza rispetto alla strategia di deviazione dipende ora da un valore del fattore di sconto
inferiore al precedente. La ragione sta nel fatto che il beneficio immediato di una deviazione
dalla strategia mista alla strategia pura di non cooperazione è ora ridotto e quindi ,i i iU
,i i iU per un più ampio insieme di valori del tasso di sconto. E’ agevole intuire che se
prendiamo in esame una strategia mista che assegna un peso ancora minore al payoff della
cooperazione, l’ottimalità di tale strategia viene ora a dipendere da una condizione ancora meno
stringente sul valore del fattore di sconto.
Queste considerazioni conducono ad un risultato inatteso: l’insieme delle strategie del grilletto
potenzialmente ottimali, se accompagnate da appropriati valori del fattore di sconto, è
infinitamente grande. Tale conclusione forma oggetto della seguente proposizione, 25 qui
formulata con riferimento ai soli giochi del dilemma del prigioniero (Friedman, 1971).
Figura 8.26. Sottoinsieme dei payoff ammissibili come equilibri di Nash perfetti
nei sottogiochi del gioco del dilemma del prigioniero ripetuto infinite volte
Proposizione 8.4. (folk theorem) Sia G un gioco di dilemma del prigioniero, *, *i iu u il
vettore dei payoff dell’equilibrio di Nash e ,i iu u un qualsiasi altro vettore di payoff
ammissibili. Allora, se , *, *i i i iu u u u per ogni giocatore i e se è sufficientemente
vicino ad uno, esiste un equilibrio di Nash perfetto nei sottogiochi del gioco G ripetuto infinite
volte che consente di ottenere il vettore di payoff ,i iu u in ogni stadio del gioco.26
25 La formulazione è ripresa da Gibbons (1992), cui si rinvia per la dimostrazione. 26 Il folk theorem esclude come possibili strategie che generano un equilibrio di Nash perfetto nei sottogiochi del gioco
ripetuto infinite volte, quelle strategie miste del gioco di base che risulterebbero dominate per l’uno o per l’altro
giocatore dalla strategia di non cooperare mai.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 37
L’insieme dei payoff conseguibili nel gioco ripetuto è indicato nella Fig. 8.26.
Prof. Domenico Tosato - Economia dell’Organizzazione Industriale a.a. 2010-2011 – Dispense per gli studenti 38
Bibliografia
Axelrod, R. (1981), “The Emergence of Cooperation among Egoists”, in The American Political
Science Review, pp. 306-318
Barro, R.J. e D.B. Gordon (1983), “Rules, Discretion and Reputation in a Model of Monetary
Policy”, Journal of Monetary Economics, vol. 12, pp. 101-121
Binmore, K. (1996), “A Note on Backward Induction”, Games and Economic Behavior, vol. 17,
pp. 135-137
Friedman, J. (1971), “A Non-cooperative Equilibrium for Supergames”, Review of Economic
Studies, vol. 38, pp. 1-12
Gibbons, R. (1992), A Primer in Game Theory, Englewood Cliffs,, Harvester-Wheatsheaf; trad.
Italiana Teoria dei Giochi, (1994), Bologna, Il Mulino
Mas-Colell, A., M.D. Whinston e J.R. Green (1995), Microeconomic Theory, New York, Oxford
University Press
Selten, R. (1975), “Re-examination of the Perfectness Concept for Equilibrium Points in
Extensive Games”, International Journal of Game Theory, vol. 4, pp. 25-55
--------------- (1978), “The Chain-store Paradox”, Theory and Decision, vol. 9, n. 2, pp. 127-159