Ένα outlier είναι μια μη φυσιολογική και ακραία παρατήρηση σε ένα στατιστικό δείγμα ή σε χρονοσειρές δεδομένων που μπορούν ενδεχομένως να επηρεάσουν την εκτίμηση των παραμέτρων του.
Με απλά λόγια, μια ακραία περίπτωση θα ήταν μια παρατήρηση σε ένα δείγμα ή μια χρονοσειρά δεδομένων που δεν είναι συνεπής με τα υπόλοιπα. Φανταστείτε, για παράδειγμα, ότι μετράμε το ύψος των μαθητών σε μια τάξη.
Ας φανταστούμε ένα δείγμα 10 μαθητών. Το ύψος του καθενός έχει ως εξής:
Δείγμα 1 | |
Μαθητης σχολειου | Ύψος σε μέτρα |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
Το μέσο ύψος της τάξης θα ήταν 1,73. Εάν λάβουμε υπόψη το μέγιστο ύψος (1,85) και το ελάχιστο ύψος (1,62) και την απόσταση μεταξύ τους έως το μέσο όρο, βλέπουμε ότι είναι 0,1313 και 0,1717 αντίστοιχα. Όπως μπορούμε να δούμε, ο μέσος όρος είναι περίπου στο μέσο του διαστήματος και θα μπορούσε να θεωρηθεί αρκετά καλή εκτίμηση.
Το ακραίο αποτέλεσμα
Τώρα ας σκεφτούμε ένα άλλο δείγμα 10 μαθητών, με τα ύψη τους να είναι τα εξής:
Δείγμα 1 | |
Μαθητης σχολειου | Ύψος σε μέτρα |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
Σε αυτήν την περίπτωση, το μέσο ύψος της τάξης θα ήταν 1,81. Αν κοιτάξουμε τώρα το μέγιστο ύψος (2,20) και το ελάχιστο ύψος (1,62) και την απόσταση μεταξύ τους από τη μέση τιμή, βλέπουμε ότι είναι 0,39 και 0,18 αντίστοιχα. Σε αυτήν την περίπτωση ο μέσος όρος δεν είναι πλέον περίπου στο μέσο του εύρους.
Το αποτέλεσμα των 2 πιο ακραίων παρατηρήσεων (2.18 και 2.20) έχει προκαλέσει τη μετατόπιση του αριθμητικού μέσου προς τη μέγιστη τιμή της κατανομής.
Με αυτό το παράδειγμα, βλέπουμε την επίδραση που έχουν τα outliers και πώς μπορούν να παραμορφώσουν τον υπολογισμό ενός μέσου όρου.
Πώς να ανιχνεύσετε ακραίες τιμές;Πώς να διορθώσετε το αποτέλεσμα των ακραίων τιμών
Σε καταστάσεις όπως αυτές στις οποίες υπάρχουν ανώμαλες τιμές που είναι ουσιαστικά διαφορετικές από τις υπόλοιπες, η διάμεση τιμή είναι μια καλύτερη εκτίμηση για να μάθουμε σε ποιο σημείο συγκεντρώνεται ένας μεγαλύτερος αριθμός παρατηρήσεων.
Στην περίπτωση και των δύο κατανομών και επειδή έχουμε έναν ομοιόμορφο αριθμό τιμών, δεν μπορούμε να πάρουμε ακριβώς την τιμή που μισεί την κατανομή για να υπολογίσουμε τη διάμεση τιμή. Με την οποία μετά την παραγγελία των τιμών από το χαμηλότερο στο υψηλότερο, θα κάναμε την πέμπτη και την έκτη παρατήρηση (και οι δύο αφήνουν 4 παρατηρήσεις σε κάθε πλευρά) και θα υπολογίζαμε τη διάμεση ως εξής:
Δείγμα 1:
1,75+1,72/2 = 1,73
Δείγμα 2:
1,79+1,71/2 = 1,75
Όπως μπορούμε να δούμε, στο δείγμα αριθμός 1, δεδομένου ότι δεν υπάρχουν ακραίες τιμές ή μη φυσιολογικές παρατηρήσεις, η διάμεση τιμή είναι 1,73 και συμπίπτει με τη μέση τιμή. Αντιθέτως, για το δείγμα 2, ο μέσος όρος είναι 1,75. Όπως μπορούμε να δούμε, αυτή η τιμή είναι μακρύτερα από το μέσο ύψος, το οποίο ήταν 1,81 και μας δίνει μια υψηλότερη εκτίμηση ποιότητας για να γνωρίζουμε περίπου σε ποιο σημείο συγκεντρώνεται ένας μεγαλύτερος αριθμός παρατηρήσεων.
Εκτίμηση σημείου