Δοκιμή Kolmogorov - Smirnoff (K-S)

Πίνακας περιεχομένων:

Δοκιμή Kolmogorov - Smirnoff (K-S)
Δοκιμή Kolmogorov - Smirnoff (K-S)
Anonim

Η δοκιμή Kolmogorov-Smirnoff (K-S) είναι μια μη παραμετρική δοκιμή που στοχεύει να προσδιορίσει εάν η συχνότητα δύο διαφορετικών συνόλων δεδομένων ακολουθεί την ίδια κατανομή γύρω από τη μέση τιμή τους.

Με άλλα λόγια, η δοκιμή Kolmogorov-Smirnoff (K-S) είναι μια δοκιμή που προσαρμόζεται στο σχήμα των δεδομένων και χρησιμοποιείται για να ελέγξει εάν δύο διαφορετικά δείγματα ακολουθούν την ίδια κατανομή.

Γιατί είναι μια μη παραμετρική δοκιμή;

Η ομορφιά του «μη παραμετρικού» χαρακτηριστικού είναι ότι ταιριάζει στα δεδομένα και, κατά συνέπεια, στις κατανομές που μπορούν να ακολουθήσουν τη συχνότητα των δεδομένων. Επιπλέον, αυτή η λειτουργία μας σώζει από το να πρέπει να υποθέσουμε εκ των προτέρων ποια κατανομή ακολουθεί το δείγμα.

Σημασία της δοκιμής K-S

Πόσες φορές μας δόθηκαν δύο δείγματα και υπολογίστηκε ο συντελεστής συσχέτισης του Pearson χωρίς να σκεφτούμε δύο φορές; Με άλλα λόγια, εάν θέλουμε να δούμε τη γραμμική σχέση μεταξύ δύο συνόλων δεδομένων, θα ήταν δίκαιο να υπολογίσουμε τη συσχέτιση, σωστά;

Αυτή η έκπτωση θα ισχύει αν οι κατανομές των δύο δειγμάτων ακολουθούν μια κανονική κατανομή. Ο συντελεστής συσχέτισης υποθέτει ότι οι κατανομές είναι φυσιολογικές, εάν παραλείψουμε αυτήν την υπόθεση, το αποτέλεσμα του συντελεστή συσχέτισης είναι λάθος. Για τις δοκιμές υπόθεσης και τα διαστήματα εμπιστοσύνης υποθέτουμε επίσης ότι ο πληθυσμός κατανέμεται μέσω μιας κανονικής κατανομής.

Όπως όλες οι δοκιμές υπόθεσης που περιλαμβάνουν στατιστικά στοιχεία, είναι σημαντικό να έχουμε μεγάλο όγκο δεδομένων για να έχει στατιστικά σημαντικά αποτελέσματα. Μπορεί να απορρίψουμε κατά λάθος μια μηδενική υπόθεση επειδή το δείγμα είναι μικρό. Επιπλέον, είναι επίσης σημαντικό αυτό το δείγμα να έχει ορισμένες ακραίες περιπτώσεις (ακραίες τιμές, στα Αγγλικά) για να δώσει συνέπεια στο αποτέλεσμα του τεστ.

ΔΙΑΔΙΚΑΣΙΑ ΕΞΕΤΑΣΗΣ

Η διαδικασία των επόμενων βημάτων.

Υπόθεση

Το πρώτο βήμα θα είναι να ελέγξετε εάν και τα δύο δείγματα έχουν την ίδια κατανομή. Για να το κάνουμε αυτό, διεξάγουμε ένα τεστ υπόθεσης υποθέτοντας ότι και τα δύο δείγματα έχουν την ίδια κατανομή έναντι της εναλλακτικής υπόθεσης ότι είναι διαφορετικά.

Στατιστικός

Συνεργαζόμαστε με τις λειτουργίες αθροιστικής κατανομής δύο δειγμάτων, F1(x) και F2(Χ):

Μην πανικοβάλλεστε! Αναλύουμε ήρεμα τον παραπάνω τύπο:

  • Το σημαντικό μέρος του τύπου είναι το σημάδι διαφοράς (-). Ψάχνουμε για κάθετες διαφορές στις διανομές. Έτσι, θα αφαιρέσουμε και τις δύο λειτουργίες αθροιστικής διανομής.
  • ο χειριστής "max". Μας ενδιαφέρει να βρούμε τη μεγαλύτερη ή τη μέγιστη διαφορά για να δούμε πόσο διαφορετικές είναι οι δύο διανομές.
  • ο απόλυτη τιμή. Χρησιμοποιούμε την απόλυτη τιμή έτσι ώστε η σειρά των χειριστών να μην αλλάζει το αποτέλεσμα. Με άλλα λόγια, δεν έχει σημασία ποιο F (x) έχει το αρνητικό σύμβολο:

Κρίσιμη αξία

Για μεγάλα δείγματα υπάρχει μια προσέγγιση στην κρίσιμη τιμή για το K-S που εξαρτάται από το επίπεδο σημασίας (%):

Οπου1 και ν2 είναι το μέγεθος του δείγματος για το δείγμα F1(x) και F2(x) αντίστοιχα.

Ορισμένες υπολογισμένες κρίσιμες τιμές:

Κανόνας απόρριψης

Εφαρμογή

Πολύ συχνά θέλουμε να ελέγξουμε εάν δύο διανομές είναι αρκετά διαφορετικές μεταξύ τους όταν θέλουμε να δημιουργήσουμε σενάρια πρόβλεψης (συνεργαζόμαστε με δύο δείγματα) ή όταν θέλουμε να αξιολογήσουμε ποια κατανομή ταιριάζει καλύτερα στα δεδομένα (συνεργαζόμαστε με ένα μόνο δείγμα).