Μπεϋζιανή συλλογιστική – Μέρος 1ο: ικανοί και αποτελεσματικοί πολίτες


(Το κείμενο αποτελεί την αρχή μιας σειράς από ποστ πάνω στην μπεϋζιανή συλλογιστική – bayesian reasoning – και τις προεκτάσεις της σε θέματα της καθημερινότητάς μας, την επιστημολογία στις κοινωνικές επιστήμες, την ιδέα του Singularity καθώς και το μέλλον της ανθρωπότητας – super wow! εκτός βέβαια και αν ακολουθήσω το σπιράλ του j95 και την κόψω στη μέση)

Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write. H.G. Wells (1865)

Μετά από 140 χρόνια, σε ένα περιβάλλον πολλαπλών αβεβαιοτήτων και κρίσεων σε θέματα υγείας, περιβάλλοντος, οικονομίας και πολιτικής, η λαμπρή αυτή ιδέα του Wells ακούγεται πιο σημαντική από ποτέ. Η μέρα στην οποία έκανε αναφορά ο Wells έχει επέλθει εδώ και πολύ καιρό… o πολίτης του σήμερα ζει σε μια συνεχώς μεταβαλλόμενη τεχνολογική κοινωνία και πρέπει γνωρίζει όχι μόνο να διαβάζει και να γράφει αλλά και να λαμβάνει αποφάσεις για τον εαυτό του και την οικογένειά του υπό καθεστώς αβεβαιότητας. Ο μόνος τρόπος που οδηγεί στην λήψη καλών αποφάσεων είναι η επεξεργασία και ανάλυση του μίγματος των στοχαστικών και ντετερμενιστικών γεγονότων που μας “βομβαρδίζουν μέσω κάποιας μορφής στατιστικής σκέψης. Ενώ η ανθρωπότητα έχει κάνει θετικά βήματα στον τομέα της ανάγνωσης και της γραφής, είναι σίγουρο πως δεν τα πάει και πολύ καλά στον τομέα της στατιστικής σκέψης, ένα πρόβλημα που έχει βαφτιστεί ως innumeracy (από τους Hofstadter και Paulos).

Συχνότητες – ή “The easyier way”

Ας πάρουμε το παράδειγμα του καρκίνου του μαστού όπως το περιέγραφε ο Gerd Gigerenzer (ήδη από τα μέσα της δεκαετίας του ’90), Γερμανός ψυχολόγος, διευθυντής του Ινστιτούτου Max Planck Institute of Human Development και κύριος popularizer της ιδέας του Wells. Αναφέρει λοιπόν πως σύμφωνα με στοιχεία ο καρκίνος του μαστού «χτυπάει» 1% των γυναικών άνω των 40. To 80% των γυναικών που έχουν καρκίνο του μαστού θα λάβει θετικό αποτέλεσμα στη μαστογραφίας – η τεχνική δηλαδή πετυχαίνει σωστή πρόβλεψη για το 80% των γυναικών που έχουν καρκίνο. Επίσης, 9.6% των γυναικών χωρίς καρκίνο του μαστού θα λάβουν θετικά αποτελέσματα στη μαστογραφία τους (ψευδή θετικά). Ποια είναι η πιθανότητα πως μια γυναίκα που λαμβάνει θετικό αποτέλεσμα να έχει καρκίνο του μαστού;

Το ερώτημα έχει τεθεί πολλές φορές και σε διάφορες χώρες. Γιατροί έχουν ερωτηθεί ποια είναι η πιθανότητα πως μια γυναίκα που λαμβάνει θετικό αποτέλεσμα στη μαστογραφία της να έχει καρκίνο του μαστού. Αν βρίσκετε δύσκολο να απαντήσετε με σιγουριά στο ερώτημα υπό την ανωτέρω μορφή, μην ανησυχείτε (πολύ)… συνήθως (και μέχρι τα μέσα της δεκαετίας του ’90) μόνο 15% των γιατρών έδιναν την σωστή απάντηση όταν αντιμετώπιζαν το πρόβλημα με αναφορές σε ποσοστά.

Ένα εργαλείο που προσφέρεται για αποφυγή αναλυτικής σκέψης με χρήση ποσοστών είναι οι φυσικές συχνότητες των φαινομένων. Ας υποθέσουμε λοιπόν πως 100 στις 10000 γυναίκες έχουν καρκίνο του μαστού. Από αυτές τις 100 γυναίκες, οι 80 θα έχουν θετικό αποτέλεσμα στη μαστογραφία τους (true positive). Ας μην ξεχνάμε βέβαια και τις 9900 γυναίκες που δεν έχουν καρκίνο του μαστού. Οι 950 από αυτές θα έχουν επίσης θετικό αποτέλεσμα στην μαστογραφία τους (τα ψευδή θετικά). Ποια είναι η πιθανότητα πως μια γυναίκα που λαμβάνει θετικό αποτέλεσμας στη μαστογραφία της να έχει καρκίνο του μαστού viagra without a prescription;

Αυτή τη φορά, τα πράγματα είναι πιο εύκολα αλλά και πάλι μόνο 46% των γιατρών βρίσκουν το σωστό αποτέλεσμα! Η απάντηση έχει ως εξής: το συνολικό νούμερο των γυναικών με θετικά αποτελέσματα μαστογραφίας είναι 80+950=1.030. Από αυτές τις 1030 γυναίκες, οι 80 έχουν καρκίνο, συνεπώς η πιθανότητα του να έχεις καρκίνο του μαστού λαμβάνοντας ένα θετικό αποτέλεσμα είναι 80/1030 = 0.07767 ή κοινώς 7.8%.

Η διαφορά του 7.8% είναι τεράστια συγκρινόμενη με την κυρίαρχη γνώμη των γιατρών που φέρνει την ίδια πιθανότητα στο 80%! Το λάθος βρίσκεται στην εξίσωση της πιθανότητας μιας γυναίκας με καρκίνο να έχει θετικό αποτέλεσμα (80%), με την πιθανότητα να λάβεις θετικό αποτέλεσμα έχοντας καρκίνο. Δύο πολύ διαφορετικά πράγματα! Δεν πρέπει να αγνοεί κανείς την γνώση του μέρους γυναικών με καρκίνο στον γενικότερο πληθυσμό καθώς και το μέρος χωρίς καρκίνο αλλά που λαμβάνουν ψευδή θετικά, εστιάζοντας μόνο στο κομμάτι του πληθυσμού με αληθή θετικά αποτελέσματα (true positives).

Ο κανόνας του Bayes – ή “The hard(er) way”

Η θεωρία πιθανοτήτων (που άργησε να αναπτυχθεί σε σχέση με άλλους επιστημονικούς κλάδους – και μάλλον όχι για άσχετους λόγους) έχει επιλύσει το συγκεκριμένο ερώτημα αλλά για κάποιο λόγο αποτελεί θεώρημα που δύσκολα κάποιος μπορεί να το συγκρατήσει στην μνήμη του. Παραθέτω μια μορφή της απόδειξης του θεωρήματος ως refresher μιας και ένας από τους καλύτερους τρόπους κατανόησής του είναι η ίδια η απόδειξη… ζητώ συγνώμη για τις επόμενες γραμμές αν αυτές μοιάζουν με ελλειπείς σημειώσεις Στατιστική Ι ή αν δεν έχετε πάρει ποτέ μάθημα πιθανοθεωρίας.

Η απόδειξη του κανόνα του Bayes είναι απλή και βασίζεται στον ορισμό της δεσμευμένης πιθανότητας. [Thanks to Donald Knuth and wikipedia] η πιθανότητα ενός γεγονότος Α δεδομένου του ότι έχει πραγματοποιηθεί το γεγονός Β γράφεται ως:
P(A|B) = \frac{P(A \cap B)}{P(B)}

Ουσιαστικά, η δεσμευμένη πιθανότητα είναι ο λόγος της πιθανότητας της τομής δύο ενδεχομένων και της πιθανότητας του ενδεχομένου που έχει συμβεί.

Κατ΄αντιστοιχία, μιας και η τομή του Α με το Β είναι το ίδιο πράγμα με την τομή του Β με το Α, η δεσμευμένη πιθανότητα ενός γεγονότος Β με δεδομένο το γεγονός Α είναι:
P(B|A) = \frac{P(A \cap B)}{P(A)}

Συνδυάζοντας τις δύο εξισώσεις, καταλήγουμε στο λήμμα του κανόνα γινομένου των πιθανοτήτων (product rule).
{P(A | B)}{P(B)} = {P(B | A)}{P(A)}\cdot

Διαιρώντας και τις δύο πλευρές με P(Β) – που πρέπει να είναι μεγαλύτερη του μηδενός-, λαμβάνουμε το θεώρημα του Bayes:
P(A | B) = \frac{P(B | A)\, P(A)}{P(B)}\cdot
Αντίστοιχα, διαιρώντας με το P(A) βρίσκει κανείς τον κανόνα του Bayes για το P(B|A).

Παρατηρήστε πως η δεσμευμένη πιθανότητα (μια πιθανότητα που μπορεί να χαρακτηρίσει κανείς ως ‘a posteriori’ μιας και εκφράζει την πιθανότητα ενός γεγονότος εν γνώση της πραγματοποίησης ενός άλλου γεγονότος) είναι ανάλογη του γινομένου δύο πιθανοτήτων: πρώτον, της απλή πιθανότητας του δεδομένου γεγονότος [P(A)] – που αντίστοιχα μπορούμε να χαρακτηρίσουμε ως ‘a priori’ πιθανότητα του Α και δεύτερον, την λεγόμενη ‘πιθανοφάνεια΄[P(B|A)] – την δεσμευμένη πιθανότητα που λαμβάνει κανείς όταν μεταθέσει τα γεγονότα Α και Β . Αυτή η παρατήρηση αποτελεί και την βάση κάθε Μπεϋζιανής ανάλυσης δεδομένων.
Μαθηματικά αυτό εκφράζεται ως:
P(A|B) \propto  P(A) \cdot P(B|A) \

Χρησιμοποιώντας το θεώρημα ολικής πιθανότητας:
P(B) = {\sum_j P(B|A_j) P(A_j)}
και ορίζοντας AC ως το complementary γεγονός του Α (not A), το θεώρημα μπορεί να γραφεί ως
P(A|B) = \frac{P(B|A)\,P(A)}{ P(B|A) P(A) + P(B|A^c) P(A^c)}\cdot
Το θεώρημα δεν περιορίζεται φυσικά μόνο στην κατάτμηση Α και AC αλλά γενικότερα μπορεί να εκφραστεί για κάθε κατάτμηση του δειγματικού χώρου, Ai (όπως έδειξα παραπάνω με τον τύπο της ολικής πιθανότητας).

Εφαρμόζοντας το θεώρημα στο παράδειγμα του καρκίνου του μαστού, και αναπροσαρμόζοντας τα σύμβολα για καλύτερη κατανόηση, έστω πως ‘Cancer’ είναι το ενδεχόμενο του να έχει κάποια γυναίκα καρκίνο του μαστού και ‘TestPos’ το ενδεχόμενο να λάβει θετικό αποτέλεσμα στην μαστογραφία.
P(Cancer|TestPos) = \frac{P(TestPos|Cancer) P(Cancer)}{P(TestPos)} =
= \frac{P(TestPos|Cancer)\,P(Cancer)}{ P(TestPos|Cancer) P(Cancer) + P(TestPos|\neg Cancer) P(\neg Cancer)}\cdot

Το μέρος των γυναικών με καρκίνο του μαστού P(Cancer) αποκαλείται ως η ‘a priori’ πιθανότητα για καρκίνο του μαστού. Οι πιθανότητες μιας γυναίκας με καρκίνο του μαστού να λάβει θετικό αποτέλεσμα μαστογραφίας P(TestPos|Cancer) και η πιθανότητα μιας γυναίκας χωρίς καρκίνο του μαστού να λάβει θετικό αποτέλεσμα P(TestPos|~Cancer) είναι δεσμευμένες πιθανότητες. Αυτές οι τρεις πιθανότητες αποτελούν την αρχική μας πληροφορία και ονομάζονται “priors”. Η πιθανότητα που αναζητούμε P(Cancer|TestPos) – η πιθανότητα να έχει κάποια καρκίνο του μαστού έχοντας λάβει θετικό αποτέλεσμα – είναι γνωστή ως αναθεωρημένη πιθανότητα ή posterior πιθανότητα. Μόνο στην περίπτωση που οι δύο δεσμευμένες πιθανότητες είναι ίσες, η posterior είναι ίση με την prior πιθανότητα (περισσότερα για το θέμα εδώ.) Έχουμε λοιπόν από τα δεδομένα του προβλήματος:
P(K|Θ) = 0.8*0.01/( 0.8*0.01+0.096*0.99 )=0.078 ή 7.8%

Κάποια συμπεράσματα

Η λεγόμενη «δεύτερη γνώμη» σε ιατρικά θέματα δεν αποτελεί μόνο λαϊκή σοφία – έχει θεμέλια στην Μπεϋζιανή θεωρία πιθανοτήτων… Μια δεύτερη μαστογραφία που βγάζει θετικό αποτέλεσμα αυξάνει την ακρίβεια του αποτελέσματος στο 57%. Σχεδόν κορώνα-γράμματα δηλαδή – όχι ιδιαίτερα κατατοπιστική πιθανότητα. Μόνο με ένα τρίτο θετικό αποτέλεσμα αυξάνει την πιθανότητα καρκίνου του μαστού σε πολύ σοβαρά επίπεδα (93% ακρίβεια). Μία μαστογραφία από μόνη της δεν σημαίνει και πάρα πολλά ακόμα και αν τα ποσοστά ακρίβειάς του (τα true positives) είναι πολύ υψηλά.

Γενικότερα, η Μπεϋζιανή συλλογιστική αποκαλύπτει πως όλοι μας – ακόμα και άνθρωποι με τρομερή γνώση και εξειδίκευση – έχουμε την τάση να προσδίδουμε μεγάλη βεβαιότητα στα αποτελέσματα ενός και μόνο γεγονότος, παραπλανώμενοι από τα υψηλά ποσοστά των true positives της νέας πληροφορίας, και αμελώντας να δώσουμε την πρέπουσα βάση στην “a priori” πιθανότητα. Η λογική της ανανέωσης των πεποιθήσεών μας κατά τον κανόνα του Bayes και γενικότερα η λήψη αποφάσεων υπό αβεβαιότητα έχει εφαρμογές σε σχεδόν κάθε έκφανση της ζωής μας. Πέρα από τα προφανή σε διάφορα ιατρικά θέματα, εφαρμογές έχουν περιγραφεί σε νομικά θέματα, στην πολιτική, το περιβάλλον (π.χ. στο καυτό θέμα της κλιματικής μεταβολής), στην εξάπλωση διαφόρων κοινωνικών νορμών, για τις παγκόσμιες κρίσεις κ.ο.κ.

Τέλος, ως οικονομολόγος, και με αφορμή την αρχή της νέας σχολικής χρονιάς πρέπει να τονίσω πως πρέπει επιτέλους να δούμε κυβερνήσεις παγκοσμίως να δίνουν μεγαλύτερη βάση στο θέμα της ενίσχυσης του ανθρωπίνου κεφαλαίου. Ασχέτως από το πόσο μικρό ή μεγάλο βήμα είναι η έκθεση σε μια Μπευζιανή συλλογιστική για πιο ικανούς, ποιοτικούς, και αποτελεσματικούς πολίτες μιας χώρας, είναι μια κίνηση προς την σωστή κατεύθυνση. Χρειάζεται άμεσα περισσότερη πίεση για επενδύσεις και λύσεις στα αδιέξοδα στην δευτεροβάθμια και τριτοβάθμια εκπαίδευση και, γιατί όχι, λίγη περισσότερη Στατιστική με έξυπνες μεθόδους διδασκαλίας αρχίζοντας από το Γυμνάσιο 🙂

…συνεχίζεται



2 σχόλια


1
Από: buzz

The Reality Tape » Blog Archive » Μπεϋζιανή συλλογιστική – Μέρος 1ο: ικανοί και αποτελεσματικοί πολί…

Το κείμενο αποτελεί την αρχή μιας σειράς από ποστ πάνω στην μπεϋζιανή συλλογιστική – bayesian reasoning – και τις προεκτάσεις της σε θέματα της καθ…

13 September, 2008 στις 12:45 am
2
Από: omadeon

έξοχο άρθρο, και χρήσιμο σε όλους (σε όλα τα επίπεδα γνώσης).

Μαζεύω κι εγώ links -για πρακτικούς λόγους- για τέτοια θέματα, π.χ.
http://delicious.com/omadeon/prediction

13 September, 2008 στις 6:41 pm