Εντοπίστε ακραίες τιμές χρησιμοποιώντας την κανονική κατανομή

Πίνακας περιεχομένων:

Εντοπίστε ακραίες τιμές χρησιμοποιώντας την κανονική κατανομή
Εντοπίστε ακραίες τιμές χρησιμοποιώντας την κανονική κατανομή
Anonim

Η ανίχνευση ακραίων τιμών μέσω της κανονικής κατανομής είναι μια διαδικασία που περιλαμβάνει τον καθορισμό ενός κατωφλίου τυπικής απόκλισης και με την οποία προορίζεται να βρει ακραίες τιμές ενός δείγματος.

Με άλλα λόγια, η ανίχνευση ακραίων τιμών μέσω της κανονικής κατανομής είναι η εύρεση ακραίων τιμών ενός συνόλου δεδομένων μέσω του τυποποιημένου κανονικού τύπου.

  • Οι αξίες άκρα λέγονται ακραίες τιμές Στα Αγγλικά.
  • Οι αξίες εσωτερικός λέγονται εσωτερικοί Στα Αγγλικά.

Η οπτική ανίχνευση ακραίων τιμών μπορεί να είναι μια επιλογή όταν έχετε πολύ λίγα δεδομένα. Όταν εργάζεστε με βάσεις δεδομένων, είναι πολύ ανέφικτο να αναζητήσετε χειροκίνητα outliers. Για να λύσουμε αυτό το πρόβλημα, μπορούμε να υπολογίσουμε ποιες είναι οι τιμές που θεωρούνται ακραίες συγκρίνοντας με ένα κατώφλι αποκλίσεων.

Στην περίπτωση της κανονικής κατανομής, μια τιμή θεωρείται ακραία όταν απέχει 3 τυπικές αποκλίσεις από το μέσο όρο. Δεδομένου ότι η κανονική κατανομή έχει 2 ουρές, πρέπει να λάβουμε υπόψη ότι μπορεί να σμικρυνθεί τόσο από την αρνητική όσο και από την θετική πλευρά.

Τύπος για την ανίχνευση ακραίων τιμών χρησιμοποιώντας την κανονική κατανομή

Ένα σύνολο παρατηρήσεων μπορεί να εκφραστεί με τον προηγούμενο τρόπο, όπου x είναι η μέση τιμή πάνω από την οποία οι τιμές ταλαντώνονται και συστρέφουν τη διασπορά της ταλάντωσης των εν λόγω τιμών. Με άλλα λόγια, το σίγμα είναι η απόσταση των παρατηρήσεων από τη μέση τιμή.

Ο πολλαπλασιαστικός παράγοντας καθορίζει εάν πρόκειται για ακραίο ή εσωτερικό. Εάν το z λάβει τις τιμές 3 ή -3, τότε, σύμφωνα με την κανονική κατανομή, η παρατήρηση y θα είναι μια ακραία τιμή.

Για να μάθετε την αξία του ζ χρησιμοποιούμε την προηγούμενη εξίσωση:

  • Εάν z> = 3 ή z = <-3, τότε, σύμφωνα με την κανονική κατανομή, μπορούμε να το πούμε αυτό Γ είναι μια ακραία αξία ή ακραία.
  • Εάν z <3 ή z <-3, τότε, σύμφωνα με την κανονική κατανομή, μπορούμε να το πούμε αυτό Γ είναι μια εσωτερική τιμή ή ένα εσωτερικό.

Κανονικό πρότυπο

Είναι γνωστή η παραπάνω εξίσωση;

Ακριβώς, είναι η έκφραση μιας παρατήρησης που ακολουθεί μια κανονική κατανομή μόλις τυποποιηθεί ή τυποποιηθεί. Ονομάζεται έτσι επειδή όταν διαιρείται με την τυπική ή τυπική απόκλιση, η διαφορά του αριθμητή εκφράζεται σε όρους αποκλίσεων.

Για αυτόν τον λόγο, μπορούμε να συσχετίσουμε τις τιμές απόκλισης με ζ και έτσι μπορείτε να το αγοράσετε με το όριο των 3 αποκλίσεων.

Παράδειγμα

Βρείτε τις ακραίες τιμές των ακόλουθων παρατηρήσεων σύμφωνα με την κανονική κατανομή:

Αντιπροσωπεύουμε τις παρατηρήσεις σε ένα γράφημα:

Από την αρχή μπορούμε ήδη να δούμε ότι η τιμή που είναι πιο απομακρυσμένη από τα υπόλοιπα μπορεί πιθανότατα να είναι ακραία.

Πρώτα υπολογίζουμε τη μέση τιμή και την τυπική απόκλιση:

x = μέσος όρος = 5,8

sigma = τυπική απόκλιση = 10,51

Στη συνέχεια, αντικαθιστούμε τις τιμές στον τύπο και υπολογίζουμε την τιμή του ζ για κάθε παρατήρηση:

Οι παραπάνω τιμές είναι οι πολλαπλασιαστικοί παράγοντες του σίγμα, δηλαδή, ζ. Οτιδήποτε είναι μεγαλύτερο από 3 ή λιγότερο από -3 θα είναι ακραία τιμή.

Μπορούμε να δούμε ότι η τιμή του ζ που υπερβαίνει τις 3 τυπικές αποκλίσεις είναι αυτή που αντιστοιχεί στην παρατήρηση 49.

Επομένως, η ακραία ή ακραία τιμή του συνόλου δεδομένων θα είναι 49.