Paradoks Pijącego

13
W pubie jest ktoś taki, że jeśli on lub ona pije, to wszyscy w pubie piją.

Zawsze, w każdym niepustym pubie, powyższe zdanie jest prawdziwe. Co można łatwo udowodnić, wystarczy rozważyć dwa przypadki: albo wszyscy w pubie piją, albo przynajmniej jedna osoba w pubie nie pije.

1. Wszyscy piją. W przypadku konkretnej osoby nie może być błędem stwierdzenie, że jeśli ta osoba pije, to wszyscy w pubie piją - ponieważ wszyscy piją. To dość oczywiste.
2. Przynajmniej jedna osoba nie pije. Dla każdej niepijącej osoby formalnie prawdą jest, że jeśli ona pije, wszyscy w pubie piją - ponieważ osoba ta nie pije. To już może mniej zrozumiałe. Mamy tutaj stwierdzenie typu "Jeśli coś1, to coś2." (implikacje), a to ma taką naturę, że gdy coś1 (poprzednik) jest fałszywe, to stwierdzenie jest prawdziwe. Może to nie być oczywiste dla kogoś kto z logiką formalną nie miał do czynienia ale ma bardzo dużo sensu i właściwie, po niewielkim zapoznaniu, jest dosyć intuicyjne.

Pozorna sprzeczność tego twierdzenia wynika z tego, w jaki sposób jest ono sformułowane w języku naturalnym. Czytając je, pierwsze co przychodzi na myśl to to, że istnieje osoba, która sprawia, że inni piją. Potocznie każde "jeśli to" błędnie kojarzymy z przyczynowością. (To trochę podobnie jak łączenie korelacji z przyczynowością).
Inny problem polega na tym, że chcielibyśmy móc wskazać palcem na te jedną osobę i patrzeć na nią przez cały pobyt w pubie. Ale osoba, dla której stwierdzenie jest prawdziwe w jednej chwili, niekoniecznie jest tą samą osobą, dla której jest prawdziwe w każdej innej chwili. (to takie trochę potoczne, błędne rozumienie kwantyfikatora egzystencjalnego).

Tak wygląda formalne przedstawienie twierdzenia:
Paradoks Pijącego
gdzie D jest dowolnym predykatem , a P jest dowolnym niepustym zbiorem.

źródło:
https://en.wikipedia.org/wiki/Drinker_paradox

Jeśli dla kogoś dalej jest to niejasne to można spojrzeć tak:
Jeśli wszyscy piją, to każdy może być świadkiem prawdziwości twierdzenia. A jeśli ktoś nie pije, to ta konkretna niepijąca osoba może być świadkiem prawdziwości twierdzenia.

Inne podobne twierdzenia (które powstały po prostu poprzez podmienienie D innym predykatem, a P zbiorem):
"Na ziemi jest taka kobieta, że jeśli ona stanie się bezpłodna, cała rasa ludzka wymrze."
"Istnieje taka osoba, że jeśli ktoś pije, to ta osoba też pije."
Obrazek zwinięty kliknij aby rozwinąć ▼

Ciekawostka Matematyczna

11
Możemy wziąć losowo liczbę od 0 do 1, a następnie ją spierwiastkować.
Albo możemy wziąć dwie takie losowe liczby, po czym wybrać z nich tę większą (wziąć maksimum z nich).
I okazuje się, że te dwie operacje, choć pozornie niezwiązane, są matematycznie równoważne! 
Czyli, że jeden pies (bynajmniej admina), czy weźmiemy pierwiastek z losowej liczby, czy maksimum z dwóch losowych liczb, to będziemy otrzymywać takie same wyniki (tzn. nowe liczby z tym samym prawdopodobieństwem).
Ciekawostka Matematyczna
Jeśli znalazła się chociaż jedna osoba, która uznała to, tak jak ja, za bardzo ciekawe i niezwykle nieintuicyjne, to teraz krótko wyjaśnię o co chodzi.
Mówimy o losowej liczbie rzeczywistej z przedziału od 0 do 1 (w takim sensie, że są one losowane jednostajnie, to znaczy równomiernie, każda liczba „z tym samym prawdopodobieństwem”). Jeśli ktoś kiedyś chociaż trochę dotknął programowania to może pomyśleć o takiej klasycznej wartości zwracanej przez rand().

Weźmy 0.76534. Teraz możemy coś z nią zrobić, na przykład tak dla jaj podnieść do kwadratu: (0.76534)² = 0.5857453156.
No i mamy nową liczbę. A skoro wartość naszej początkowej liczby wzięliśmy losowo, to wynik po podniesieniu do kwadratu też jest jakoś losowy. Możemy łatwo zaobserwować, że liczby od 0 do 1 po podniesieniu do kwadratu stają się mniejsze. Z tego wyciągamy wniosek, iż bardziej prawdopodobne jest, że nasza liczba, po tej operacji, znajduje się bliżej zera niż jedynki.

Zobaczmy wykres, mamy tutaj gęstość 10 milionów liczb wygenerowanych z pomocą Pythona.
Ciekawostka Matematyczna
A tutaj gęstość tych samych liczb podniesionych do kwadratu.
Ciekawostka Matematyczna
Mówiąc bardziej matematycznie, to wzięliśmy zmienną losową X z rozkładem jednostajnym [0,1], stworzyliśmy funkcję Y = X² i zobaczyliśmy, że Y ma inny rozkład.

No to teraz to co najważniejsze, analogicznie gęstość wyników funkcji W = sqrt(X) oraz Z = max(X₁,X₂).
Ciekawostka Matematyczna
Ciekawostka Matematyczna
Absurd. Rozkłady obu tych funkcji są identyczne.

Ale jako, że mogę pierdolić głupoty to poniżej dowód. Pewnie to już mało kogo interesuje i przestanie w tym miejscu czytać to tylko zaznaczę jeszcze jedną rzecz. 
Wylosowanie konkretnej liczby rzeczywistej, np. 0.2137, z przedziału [0,1] jest niemożliwe. Prawdopodobieństwo jest równe zero, ponieważ na tym przedziale istnieje nieskończenie wiele liczb rzeczywistych. (Co swoją drogą też jest ciekawym tematem bo liczb na przedziale [0,1] jest więcej niż wszystkich liczb naturalnych, to dwie różne nieskończoności). Komputer nas nieco oszukuje, możemy rozważać jedynie szanse wylosowania liczby z konkretnego przedziału, np. [0.20 , 0.35] i będzie to równe 15%. Dlatego wcześniej pisałem w cudzysłowie, a te wykresy wyżej to właśnie są takie malutkie przedziały do których wpadały losowane liczby.

A no i jeszcze ktoś może zapytać: A po co to komu? Albo do czego to można użyć? No więc tak w sumie to do niczego xd. Jest to po prostu jedno z tych ciekawych matematycznych zjawisk, które wydaje się nielogiczne ale okazuje się prawdą. No może nie tak totalnie bezużyteczne, bo autor filmu, którego link na dole, zauważył, że jeśli chcemy sobie rozegrać partię Dungeons & Dragons ale przypadkowo zgubimy wszystkie sześcienne kostki w domu, za to akurat będziemy mieli przy sobie 36-ścienną kostkę to pierwiastek z jej rzutu zastąpi nam klasyczny podwójny rzut D&D XD.
Pierwszy dowód, bardziej graficzny.
Żeby zrozumieć jak zachowuje się maksimum można rozważyć prostszy przykład z kostkami sześciennymi. Jak rzucamy dwiema kostkami to mamy 36 kombinacji jak poniżej. Jak teraz zaznaczymy tym samym kolorem pary, które mają to samo maksimum, to zobaczymy, że to kolejne fragmenty powiększającego się kwadratu. A maksimum równe konkretnej wartości to taki pojedynczy pasek. Swoją drogą jak bloczki tego samego koloru ułożymy jeden na drugi to otrzymamy ten trójkątny rosnący kształt.
Ciekawostka Matematyczna
Teraz możemy to przenieść na płaszczyznę ciągłą, gdzie zamiast kostki mamy pojedynczy punkt (x,y). Wtedy max(x,y) jest równe konkretnej wartości, np. D, gdy (x,y) leży na takim pasku. 
Co jest dosyć intuicyjne, bo aby max(x,y) = D to albo x = D a wtedy y może się dowolnie przesuwać w dół, albo y = D a wtedy x może się dowolnie przesuwać w lewo.
Żeby móc to jakoś porównać to rozważmy nierówność. Kiedy max(x,y) ≤ D ? A no wtedy, gdy punkt będzie znajdował się w takim kwadracie.
Ciekawostka Matematyczna
Co sprowadza się do tego, że prawdopodobieństwo 
P(max(x,y) ≤ D) = D².
To teraz weźmy pierwiastek, czyli mamy sqrt(X) ≤ D, podnieśmy obie strony do kwadratu i mamy X ≤ D². Teraz ile wynosi P( X ≤ D²) ? Przypominam, że X to był rozkład jednostajny. To może nie być dla każdego oczywiste ale prawdopodobieństwo, że losowa liczba z [0,1] będzie mniejsza od 0.5 wynosi 50% (no bo lewa połowa stanowi no połowę xd). Że będzie mniejsza od 0.35 no 35% (czyli 0.35). No i ogólnie szansa, że będzie należała do [0,a] wynosi a, czyli P(X≤a)=a. Co daje P(X ≤ D²) = D².
Więc mamy:
P(max(X₁,X₂) ≤ D) = D²
P(sqrt(X) ≤ D) = P(X ≤ D²) =  D²
Czyli:
P(max(X₁,X₂) ≤ D) = P(sqrt(X) ≤ D), co kończy dowód.
Drugi dowód, dużo prostszy ale wymaga znajomości paru narzędzi probabilistycznych.
Ciekawostka Matematyczna
I to wszystko działa też na wyższe wymiary.
Maksimum z trzech liczb da nam sześcian zamiast kwadratu (D³).
I będzie równoważne pierwiastkowi 3 stopnia.
W ogólności maksimum z n liczb będzie równoważne pierwiastkowi n-tego stopnia.
Link do filmu, z którego się o tym dowiedziałem:
https://www.youtube.com/watch?v=ga9Qk38FaHM


Jakby ktoś się zastanawiał po co marnuje czas pisząc takie pierdoły na dzidzie. To fragment mojego pewnego prywatnego projektu. A że temat dosyć prosty do zrozumienia i dla mnie fascynujący to uznałem, że to lekko przerobię i się tu podzielę.

A tu wrzutka o ciekawostce statystycznej:
https://jbzd.com.pl/obr/3772844/ciekawostka-statystyczna
Obrazek zwinięty kliknij aby rozwinąć ▼

Ciekawostka statystyczna

26
W 1973 roku Uniwersytet Kalifornijski w Berkeley został oskarżony o dyskryminację kobiet. Istotnie, dane wykazały, że spośród mężczyzn, którzy aplikowali, zostało przyjętych 44%, natomiast kobiet tylko 35%.
(Pomijam to, czy przyjęcie mniejszej liczby kobiet miałoby rzeczywiście świadczyć o dyskryminacji - nie o tym jest wrzutka.)
Sprawa w tamtym czasie wywołała niemałe zainteresowanie. Poszczególne wydziały opublikowały własne szczegółowe dane. (A co warto zaznaczyć, choć pewnie dla wielu jest oczywiste, to władze konkretnych wydziałów odpowiadają za przyjmowanie swoich kandydatów). Spójrzmy na dane sześciu największych wydziałów. Nie widzimy tu żadnej przychylności dla mężczyzn, mało tego, właściwie jest wręcz na odwrót, w większości przyjmowano procentowo mniej mężczyzn niż kobiet.
Ciekawostka statystyczna
Zostawmy na chwilę te sprawę i spójrzmy na dużo prostszy przykład aby zrozumieć o co chodzi.
Rozważmy dwie grupy ludzi - użytkowników dzidy oraz użytkowników kwejka.
Badamy wśród nich zachorowanie na pewną chorobę S (od Spierdolenie, albo jak kto woli Spermiarstwo).
Aby mieć szerszy ogląd, dzielimy dane na osoby poniżej 30 roku życia oraz na osoby w wieku 30 lat lub więcej.
W badaniu wzięło udział 2000 dzidowców oraz 3000 kwejkowiczów.
Ciekawostka statystyczna
Chyba jest się z czego cieszyć. Badanie wykazało, że w obu grupach na S choruje więcej kwejkowiczów niż dzidowców.
Teraz pytanie. Czy to oznacza, że wśród całej badanej populacji, na S choruje więcej użytkowników kwejka? Przecież intuicja podpowiada, że skoro w każdej grupie jest taka sama zależność, to dla całości nie może być inaczej. Jednak jeśli ktoś miał trochę do czynienia z statystyką albo geometrią to wie, że jednak może! Spójrzmy na połączone dane.
Ciekawostka statystyczna
Okazuje się, że gdy patrzymy na całą populacje to jest odwrotnie, niestety procentowo to więcej dzidowców choruje na S.

Taką sytuację nazywamy Paradoksem Simpsona. (słowo paradoks odnosi się tu do nieintuicyjności, a nie do sprzeczności). Polega on właśnie na tym, że efekt działania kilku grup wydaje się odwrócony, kiedy grupy są połączone. Zjawisko już w 1899 roku zauważył Karl Pearson, a także potem w 1903 Udny Yule. Dokładnie jednak opisał wszystko Edward Simpson w swoim artykule opublikowanym w 1951 roku.

Zauważmy jakie ogromne pole do manipulacji osobami nieznającymi matematyki niesie za sobą to zjawisko.
Pierwsza tabelka mogłaby sobie latać po jbzd w celu wyśmiewania kwejka, kiedy równocześnie druga tabelka by sobie latała po kwejku w celu wyśmiewania dzidowców.
Jakaś partia polityczna, sprzedawca czy korporacja mogłaby pokazywać tylko tę część danych, która jest dla nich korzystna. I nie trudno się domyślić, że często się tak dzieje...

Wracając do Berkeley, co tam się stało? Różnica w wyniku na poszczególnych wydziałach a na całości jest spowodowana tym, że na ogół więcej kobiet niż mężczyzn stara się o przyjęcie na wydziały, które przyjmują mało kandydatów (np. A i B) Za to więcej mężczyzn składa podania na te przyjmujące sporo osób. Taka prosta sytuacja, na którą pewnie normalnie nikt by nie zwrócił uwagi, gdyby nie to, że można ją bardzo łatwo wykorzystać do oskarżenia o dyskryminacje.

Gdyby ktoś miał ciągle problem z przyjęciem jak działa paradoks Simpsona, poniżej bardzo fajny gif świetnie obrazujący korelację dwóch zmiennych dla konkretnych grup oraz dla całej populacji.
Poniżej jeszcze inny przykład, który pokazuje jak łatwo można nas zmylić.
Omawiany paradoks najczęściej spotykany jest w medycynie.
Klasyczny przykład to kamica nerkowa.
Kamienie mogą być małe lub duże.
Mamy dwa rodzaje leczenia: operacja chirurgiczna oraz przezskórna nefrolitotrypsja (też nie wiem co to).
Badamy skuteczności leczenia.
Rozważając osobno, pierwsza metoda okazuje się bardziej skuteczna. Ale patrząc na całość, to druga metoda wypada lepiej.
Ciekawostka statystyczna
Co powoduje taki wynik?
Metoda chirurgiczna jest zwykle stosowana u pacjentów z większymi (trudniejszymi do wyleczenia) kamieniami. A druga metoda jest używana wtedy, kiedy kamienie są mniejsze. Co widać wyraźnie w tabeli. Ciężko zatem porównywać obie metody kiedy bierzemy pod uwagę zarówno łatwiejsze jak i trudniejsze przypadki.

Jakby kogoś interesowały inne przykłady albo bardziej szczegółowy opis zjawiska to zamieszczam źródła (w tym dwa fajne polskie blogi):
https://en.wikipedia.org/wiki/Simpson%27s_paradox
https://www.beta-iks.pl/index.php/2023/08/16/paradoks-simpsona/
https://statystyczny.pl/paradoks-simpsona-o-dyskryminacji-kobiet-kamicy-nerkowej-i-bezrobociu/

Żeby zaciekawić to tu taka bardziej tangensowa/wektorowa ilustracja jak paradoks zachodzi (screen z blogu z linku wyżej):
Ciekawostka statystyczna
Obrazek zwinięty kliknij aby rozwinąć ▼
0.11504101753235