Iterowany Dylemat Więźnia

Dylemat więźnia – to brzmi groźnie. A chodzi o nic innego, jak eksperyment myślowy, pokazujący ciekawe aspekty teorii gier, czyli dziedziny zajmującej się między innymi podejmowaniem decyzji. Iterowany dylemat więźnia – to odmiana tej gry, opisująca pewne relacje społeczne występujące na przykład w ramach (współ)pracy.

Czym jest dylemat więźnia?

Jak to często bywa, sam dylemat więźnia jest o wiele starszy niż jego nazwa. Ta pierwszy raz została użyta w 1992 roku przez Alberta Tuckera, który przy okazji sformalizował zasady tego eksperymentu. Sama gra pochodzi z lat 50-tych z RAND Corporation, gdzie analizowali ją Melvin Dresher i Merrill Flood.

Wyobraźmy sobie sytuację, w której dwóch podejrzanych zostało zatrzymanych przez policję i osadzono ich w areszcie, w osobnych celach. Wszyscy wiedzą, że dowody ich obciążające są zbyt słabe, żeby postawić im zarzuty. Policja posiada jednak wystarczające dowody na oskarżenie i skazanie ich za pomniejsze przestępstwo, przez co obaj mogą spędzić w więzieniu rok.

Sprytna policja proponuje każdemu z nich układ: jeżeli przestępca zgodzi się zeznawać przeciwko swojemu koledze, to tym samym zapewni on wymagane dowody, co umożliwi skazanie jego kompana na trzy lata więzienia. W nagrodę za współpracę, przestępcy zostanie darowane ta pomniejsza przewina.

Podejrzani jednak znajdują się w osobnych celach i nie wiedzą, co robi drugi. Jeśli obaj będą współpracować z policją, obaj trafią do więzienia na 2 lata. Jeżeli nikt nie zdecyduje się na współpracę, obaj spędzą w więzieniu rok. Jeśli jednak tylko jeden z nich dostarczy obciążające dowody, to wyjdzie on na wolność, a jego kompan odsiedzi trzy lata.

No i co tu zrobić?

Rozwiązania dylematu więźnia

Niestety, niezależnie od tego, co zrobi nasz „przeciwnik”, zawsze opłaca się grać nieczysto, czyli w tym przypadku – współpracować z policją. Jeżeli zachowamy się honorowo to albo odsiedzimy rok, albo trzy lata (gdy nasz kompan będzie współpracował). Jeśli jednak dostarczymy dowodów przeciwko naszemu wspólnikowi to możliwe rezultaty to: dwa lata odsiadki albo wyjście na wolność.

Mówiąc wprost – nie opłaca się być miłym.

W klasycznym modelu jedynym racjonalnym wyborem jest więc zdradzić naszego kompana i pójść na współpracę z policją. A skoro to jedyny racjonalny wybór, to obaj (racjonalni) przestępcy zdradzają i w konsekwencji odsiadują wyższe wyroki, niż gdyby siedzieli cicho. Życie.

Ale czy na pewno? W prawdziwym życiu rzadko kiedy mamy do czynienia z akcjami, które nie mają żadnych konsekwencji. Wyobraźmy sobie, co by się działo, gdybyśmy dylemat więźnia rozpatrywali w seriach. To znaczy, że w każdej kolejnej rundzie możemy się „odegrać” za to, co nasz przeciwnik zrobił w poprzedniej iteracji.

W przypadku, w którym nasze decyzje mają dalsze konsekwencje, sytuacja zmienia się diametralnie. Łatwo wyobrazić sobie sytuację, w której obaj przestępcy siedzą cicho w rundzie numer jeden. W takim przypadku, zachęceni „uczciwością” wspólnika pewnie w dalszych rundach nadal będziemy kontynuować naszą niepisaną kooperację.

Pytanie brzmi jednak: jakie podejście jest najbardziej opłacalne? W turnieju algorytmicznym przeprowadzonym przez Roberta Axelroda zaproszono zgłaszających do przesyłania swoich rozwiązań dylematu więźnia. Wszystkie algorytmy konkurowały ze sobą w różnych konfiguracjach, aby wyłonić zwycięzcę.

Jeżeli weźmiemy pod uwagę jedynie strategie deterministyczne, czyli takie bez losowości, to najlepiej spisuje się strategia „wet za wet”, zwana również „jak Kuba bogu”. Zawiera się ona w dwóch warunkach: w pierwszej rundzie współpracuj (nie zdradzaj), a w kolejnej rób to, co przeciwnik zrobił w poprzedniej. Jeśli więc on nas poświęcił, my poświęcimy jego w kolejnej iteracji. Jeżeli jednak on milczał jak grób – my również to róbmy. Proste? Proste.

To pokazuje, że przy pewnych warunkach najbardziej racjonalnym (najlepiej spisującym się) sposobem jest współpraca. Nawet w przypadku tak „beznadziejnej” sytuacji, jak dylemat więźnia.

„Wszyscy chcą mnie oszukać!”

Zakładanie z góry, ze „wszyscy chcą mnie oszukać” prowadzi donikąd. Sami zastawiamy na siebie pułapkę, a nasza nieufność działa na naszą szkodę. Mówiliśmy już o tym między innymi narzekając na „polską szkołę managementu„.

Iterowany dylemat więźnia jest na tyle stary, że precyzyjnie określono warunki algorytmów, które sprawdzają się dobrze. Przede wszystkim muszą one być miłe, tzn. nie działające na szkodę naszego partnera bez negatywnych akcji z jego strony. Po drugie, musimy zakładać jakiś odwet za działanie na naszą szkodę. Bez tego będziemy po prostu wykorzystywani.

Trzeci warunek to umiejętność wybaczania, czyli zatrzymanie akcji odwetowych w sytuacji, w której nasz wspólnik wraca do grania do jednej bramki. Niektóre algorytmy robią to losowo – co jakiś czas, niejako wyciągając gałązkę oliwną do naszego przeciwnika. Czwarty i równie istotny warunek to powstrzymanie się od celowania w lepszy wynik niż nasz przeciwnik.

Te warunki pozwalają na skuteczną współpracę i maksymalizowanie naszych wyników czyli minimalizowanie łącznego wyroku.

Dylemat więźnia w rzeczywistości

Na (nie)szczęście ludzie nie zachowują się racjonalnie. Mówiliśmy już o tym między innymi przy okazji omawiania błędów poznawczych czy w naszym wystąpieniu na Agile Warsaw. Także i w przypadku dylematów podobnych do opisanego powyżej ludzie wykazują skłonności do współpracy. I to nie z policją, ale ze sobą – optymalizując wspólny wynik.

Mając świadomość, że jeżeli będziemy milczeć jak grób, zyskać możemy obaj – decydujemy się na to, nawet, jeśli tym samym piszemy się na pewne niedogodności. Nikt nie działa w pełni racjonalnie. Mamy jeszcze uczucia i empatię.

Doskonale pokazuje to iterowany dylemat więźnia, w którym opłaca się nie tylko współpracować, ale i wybaczać.

Jako ciekawostkę warto dodać, że jeśli znamy liczbę iteracji, to cały plan znów bierze w łeb. W ostatniej rundzie możemy przecież zdradzić kompana bez konsekwencji – nie zdąży się on odegrać. A skoro mamy świadomość, że w ostatniej rundzie on zdradzi, to możemy go wyprzedzić i zdradzić w przedostatniej. Tylko, że to powoduje, że opłaca się też zdrada w jeszcze poprzedniej rundzie i… wracamy do sytuacji, w której wszyscy zdradzają cały czas.

Na szczęście słowo „zdrada” i negatywne konsekwencje związane z naszym postrzeganiem siebie wystarczają, żebyśmy w rzeczywistym świecie traktowali się w bardziej cywilizowany sposób. Nie mówiąc już o tym, że w życiu nie znamy liczby iteracji, bo nie wiemy jak długo przyjdzie nam z kimś współpracować.