Loading

Αριθμομυστήρια.

Το μυστήριο του Ζιπφ

Αναρωτηθήκατε ποτέ ποια είναι η πιο κοινή λέξη της ελληνικής γλώσσας; Μήπως είναι το και; Ή ίσως  το το; Γενικά, ποια είναι η κατανομή των λέξεων σε ένα συγκεκριμένο βιβλίο, κείμενο ή άρθρο; Λοιπόν, έχουμε ένα άρθρο στη διάθεσή μας – αυτό – οπόταν ας μετρήσουμε τις λέξεις του!

zipf.com

Στο πιο πάνω γράφημα βλέπουμε ότι η πιο συχνή λέξη σε αυτό το άρθρο είναι η λέξη το, η οποία αποτελεί το 4.8% όλων των λέξεων του άρθρου, ενώ στη δεύτερη θέση βρίσκουμε τη λέξη είναι, με ποσοστό 3.0%, το οποίο κυμαίνεται λίγο πιο πάνω από το μισό της πρώτης λέξης. Η τρίτη λέξη, η λέξη… λέξη, συγκεντρώνει ποσοστό 2.3%, το οποίο είναι λίγο πιο πάνω από το ένα τρίτο του ποσοστού της πρωταθλήτριας λέξης. Γενικά, εάν κανείς κάνει ένα παρόμοιο γράφημα για ένα μεγαλύτερο κείμενο, θα παρατηρήσει ότι το ποσοστό της νιοστής λέξης είναι περίπου το 1/ν του ποσοστού της πρώτης λέξης! Αυτή η συμπεριφορά δεν περιορίζεται φυσικά μόνο στην ελληνική γλώσσα, καθώς όλες ανεξαιρέτως οι γλώσσες την παρουσιάζουν. Το ερώτημα είναι άρα: Πώς προέκυψε μια τόσο απλή σχέση από κάτι τόσο περίπλοκο όσο η ανθρώπινη γλώσσα;

Ένα λεπτό θα μου πείτε. Ωραία όλα αυτά, αλλά αυτό είναι προφανώς ένα γλωσσικό φαινόμενο. Δεν πρόκειται ακριβώς για αριθμομυστήριο, έτσι; Εμμ… ναι και όχι. Βλέπετε, αυτό το μυστήριο φαινόμενο, το οποίο ονομάζεται νόμος (ή μυστήριο) του Ζιπφ, δεν εμφανίζεται μόνο στην κατανομή λέξεων σε ένα κείμενο, αλλά και σε πολλά-πολλά άλλα απρόσμενα μέρη. Για παράδειγμα, ο πληθυσμός των πόλεων, η συχνότητα των επωνύμων, ακόμη και τα υλικά σε συνταγές μαγειρικής ακολουθούν αυτόν τον μυστήριο νόμο.

Ο νόμος του Benford

Πάρτε μια μεγάλη συλλογή από αριθμούς – για παράδειγμα τους πληθυσμούς όλων των χωρών εν έτει 2020. Ποια η πιθανότητα νομίζετε το πρώτο ψηφίο ενός πληθυσμού να είναι το ψηφίο 1; Εφόσον έχουμε 9 πιθανά ψηφία (1, 2, 3, 4, 5, 6, 7, 8, 9), η λογική απάντηση θα ήταν 1/9, σωστά; O Frank Benford διαφωνεί! Για να δούμε τι ισχύει, σας ετοίμασα ακόμα μία γραφική παράσταση (ένα πουλάκι μου είπε ότι για κάθε γραφική παράσταση που βάζω στο άρθρο χάνω πέντε με δέκα αναγνώστες, αλλά είναι ένα ρίσκο το οποίο προτίθεμαι να πάρω).

benford.edu

Όπως βλέπουμε, αν συγκεντρώσουμε τους πληθυσμούς όλων των χωρών, η πιθανότητα το πρώτο ψηφίο να είναι 1 είναι περίπου 30% και όχι 11.11% όπως προστάζει η κοινή λογική! Ο Benford ανακάλυψε αυτό το φαινόμενο παρατηρώντας τους διάφορους αριθμούς που εμφανίζονταν στα πρωτοσέλιδα εφημερίδων. Το ψηφίο 1 ήταν με διαφορά το πιο συχνό πρώτο ψηφίο, ενώ το ψηφίο 9 ήταν το λιγότερο συχνό. Θυμίζει κάπως και τον νόμο του Ζιπφ, έτσι δεν είναι;

Για να εμφανιστεί όμως αυτό το φαινόμενο, είναι απαραίτητο οι αριθμοί που έχει κανείς στο δείγμα του να έχουν ένα μεγάλο εύρος τιμών. Οι πληθυσμοί, για παράδειγμα, καλύπτουν αυτήν την προϋπόθεση καθώς κυμαίνονται από μερικές εκατοντάδες (π.χ. Βατικανό, νησί Νιούε), μέχρι και δισεκατομμύρια (π.χ. Κίνα, Ινδία).  Το φαινόμενο αυτό δε θα εμφανιστεί όταν το εύρος είναι περιορισμένο, όπως είναι για παράδειγμα τα ύψη μιας ομάδας ανθρώπων ή το σύνολο τερμάτων σε έναν ποδοσφαιρικό αγώνα. Επίσης, δεν εμφανίζεται όταν οι αριθμοί είναι τυχαίοι. Αυτό το γεγονός κάνει τον νόμο του Benford πολύ σημαντικό στην αποκάλυψη απατών. Οι αριθμοί σε ένα λογιστικό βιβλίο ακολουθούν συνήθως τον νόμο του Benford, οπόταν εάν κάποιος παρατηρήσει ότι δεν το κάνουν είναι μια σοβαρή ένδειξη ότι «μαγειρεύτηκαν». Άλλες περιπτώσεις που μπορεί να χρησιμοποιηθεί αυτός ο νόμος είναι σε καταμέτρηση ψήφων σε εκλογές (βλέπε προεδρικές εκλογές Η.Π.Α. 2020), στις τιμές προϊόντων, ακόμη και στη μέτρηση κρουσμάτων COVID-19. Για παράδειγμα, ανάλυση δεδομένων που αφορούν τον COVID-19 έδειξε πιθανές αλλοιώσεις σε αυτά που αφορούν τη Ρωσία και το Ιράν, καθώς οι αριθμοί κρουσμάτων και θανάτων δεν ακολουθούσαν τον νόμο του Benford.

Σε αυτό το σημείο θέλω να απολογηθώ για τη συχνή χρήση της λέξης παράδειγμα. Βλέπετε, έπρεπε να δώσω παραδείγματα για την κάθε περίπτωση. Α! Ίσως και να ήθελα να ανεβάσω το ποσοστό αυτής της λέξης για το πρώτο γράφημα!


***Απαγορεύεται η μερική ή ολόκληρη αναδημοσίευση του άρθρου σε άλλα sites χωρίς τη συγκατάθεση του beezdom.com

***Πηγή φωτογραφίας εξωφύλλου: pinimg.com

ΓΙΑΝΝΗΣ ΚΑΡΠΑΣΙΤΗΣ

Γιάννης, φυσικός, αναλυτής, συγγραφέας και μελισσό-αρθρογράφος. Αυτά βασικά χρειάζεται να ξέρετε για μένα. Τα υπόλοιπα επίθετα, μετοχές ή και φράσεις που τυχόν να με χαρακτηρίζουν θα τα ανακαλύψετε στην πορεία.

svg

What do you think?

Show comments / Leave a comment

Leave a reply

svg
Quick Navigation
  • 01

    Αριθμομυστήρια.