WordPress Top 100: Πρόβλεψη θέσης βάσει των pageviews

Έλαβα μια συμμετοχή για άρθρο στο metablogging που είναι και ασυνήθιστη και ενδιαφέρουσα, και, τουλάχιστον στην δική μου περίπτωση, επαληθευόμενη.

Ο φίλος basilieios έχει προσεγγίσει μαθηματικά το ζήτημα της κατάταξης στη λίστα των 100 τοπ blogs του wordpress.

Παραθέτω το άρθρο του έχοντας υπογραμμίσει ή κάνει έντονα τα κύρια σημεία που πρέπει να διαβάσουν όσοι δεν τα πάνε καλά με τα μαθηματικά:

Σκέφτηκα να δοκιμάσω να βρω τον μαθηματικό νόμο που διέπει τα page views ανάλογα με την θέση popularity στο wordpress.

Οι εμπειρικές και φαινομενολογικές θεωρίες πολυπλoκότητας για τέτοιου είδους φαινόμενα αυτο-οργανούμενης κρισιμότητας (selforganized critical) δείχνουν πως οι νόμοι αυτοί είναι συνήθως νόμοι δύναμης αντιστρόφου τετραγώνου, δηλαδή y=ax^-2 (y ισον a επί x εις την μείον 2).

Τον ίδιο τύπου νόμο ακολουθούν φαινόμενα όπως η συχνότητα σεισμών σε μια περιοχή ανάλογα με το μέγεθός τους (πόσοι σεισμοί γίνονται μεγέθους 7 ρίχτερ, πόσοι 6 κλπ), η συχνότητα μετασεισμών ανάλογα με το μέγεθος ύστερα από κύριο σεισμό, οι κινήσεις του χρηματιστηρίου, η συχνότητα λέξεων σε ένα βιβλίο, η συχνότητα πόλεων σε μια χώρα (ή στον κόσμο) ανάλογα με τον πληθυσμό και πολλά αλλά. Ο νόμος δύναμης απλώς δείχνει για το σύστημα πως δεν μπορεί να περιγραφεί με βάση κάποιο βασικό μέγεθος κλίμακας (το σύστημα είναι scale free).

Αποφάσισα να το δω λίγο παραπάνω για πλάκα, θέτοντας σαν νόμο y=ax^-b για τα σημεία που γνώριζα τις τιμές τους.

Τα δεδομένα μου (το ranking του wordpress από το 1 έως το 100 όπως δίδεται εδώ http://botd.wordpress.com/?lang=el ) ήταν δύο συνεχόμενων ημερών, με

  • 60 page views για την θέση 70, και
  • 120 για την θέση 50.

Αυτά τα δεδομένα δίνουν ένα σύστημα δύο εξισώσεων με δύο αγνώστους:

y1=ax1^-b και

y2=ax2^-b

(όπου y1=120 για x1=50 και y2=60 για x2=70)

Διαιρώντας τις δυο, και παίρνωντας τον λογάριθμο (και χρησιμοποιώντας τις ιδιότητες των λογαρίθμων) βγάζει σαν λύση του πρώτου αγνώστου:

b=-(logy1-logy2)/(logx1-logx2).

Το αποτέλεσμα που βγαίνει είναι b=2.06, εντυπωσιακά κοντά σε αυτό που αρχικά περίμενα (αν και τα errorbars πρέπει να ειναι αρκετά μεγάλα κυρίως γιατί έχω χρησιμοποιήσει μόνοι δύο σημεία. Όποιος πρωτοετής φυσικός θέλει να παίξει με θεωρία σφαλμάτων ας το ψάξει περισσότερο 😉 .

Χρησιμοποιώντας αυτό στην πρώτη εξίσωση μπορεί να βγάλει και πως a=379430 καθώς και μια θεωρητική πρόβλεψη σε pageviews ανά θέση στο wordpress:

diag3.JPG


Είναι όμως βέβαιο πως για μικρούς αριθμούς θέσεων (από 1- 5/10) ο νόμος δεν ισχύει .

Ένα συμπέρασμα από όλα αυτά είναι πως οι θέσεις από 50 και κάτω έχουνε ελάχιστη διαφορά μεταξύ τους και αν συμπεριλάβεις και τα σφάλματα που έχουνε μπει στον υπολογισμό μου (το τυχαίο δείγμα μου δύο σημείων δεν είναι δυνατόν να δώσει τα καλύτερα αποτελέσματα) τότε μόνο και μόνο λόγω στατιστικών διακυμάνσεων μπορεί να ανεβοκατεβεί κανείς 20-30 θέσεις από μερα σε μέρα χωρίς αυτό να σημαίνει τίποτε. Αυτό, αμέσως αμέσως, για τις κάτω του 50 θέσεις, δίνει μικρή σημασία στην κατάταξη του wordpress.

Επίσης είναι πολύ πιο εύκολο να ανέβει κανείς κάποιες θέσεις στα μέσα και χαμηλά τμήματα της λίστας του wordpress παρά να ανεβεί από την θέση 20 π.χ. στην θέση 10.

Και για να το πάω ακόμη λίγο παραπάνω στις προβλέψεις, θα να χρησιμοποιήσω και μια αλλαγή του νόμου δύναμης στις θέσεις 30 και 5.

Χρησιμοποιώ εντελώς αυθαίρετα (αλλά σύμφωνα με τον εμπειρικό νόμο του Zipf αλλά κυρίως εκθέτες 1 και ½ στον νόμο δύναμης) και έτσι έχω ένα αποτέλσμα/πρόβλεψη για τα pageviews ανά θέση στο wordpress που δίνεται από τα παρακάτω δύο γραφήματα (είναι ίδια απλώς το ένα είναι σε λογαριθμική κλίμακα).

diag2.JPG diag1.JPG



2 thoughts on “WordPress Top 100: Πρόβλεψη θέσης βάσει των pageviews

Comments are closed.