Συντελεστής προσδιορισμού (τετράγωνο R)

Πίνακας περιεχομένων:

Συντελεστής προσδιορισμού (τετράγωνο R)
Συντελεστής προσδιορισμού (τετράγωνο R)
Anonim

Ο συντελεστής προσδιορισμού είναι το ποσοστό της συνολικής διακύμανσης της μεταβλητής που εξηγείται από την παλινδρόμηση. Ο συντελεστής προσδιορισμού, που ονομάζεται επίσης τετράγωνο R, αντικατοπτρίζει την καλοσύνη της προσαρμογής ενός μοντέλου στη μεταβλητή που σκοπεύει να εξηγήσει.

Είναι σημαντικό να γνωρίζουμε ότι το αποτέλεσμα του συντελεστή προσδιορισμού κυμαίνεται μεταξύ 0 και 1. Όσο πιο κοντά είναι η τιμή του στο 1, τόσο μεγαλύτερη είναι η προσαρμογή του μοντέλου στη μεταβλητή που προσπαθούμε να εξηγήσουμε. Αντίθετα, όσο πιο κοντά στο μηδέν, τόσο λιγότερο σφιχτό θα είναι το μοντέλο και, επομένως, τόσο λιγότερο αξιόπιστο θα είναι.

Στην προηγούμενη έκφραση έχουμε ένα κλάσμα. Λοιπόν, ας πάμε στα μέρη. Πρώτον, θα αναλύσουμε τον αριθμητή, δηλαδή το πάνω μέρος.

Για όσους δεν γνωρίζουν την έκφραση της διακύμανσης, σας συνιστούμε να διαβάσετε το άρθρο σχετικά με αυτήν. Για όσους το γνωρίζουν, μπορεί να συνειδητοποιήσουν ότι είναι η έκφραση της διακύμανσης, αλλά με δύο θεμελιώδεις διαφορές.

Η πρώτη διαφορά είναι ότι το Υ έχει μια περίμετρο ή αυτό που οι δάσκαλοι αποκαλούν διδακτικά «καπέλο». Αυτό που περιγράφει αυτό το καπέλο είναι ότι το Y είναι η εκτίμηση ενός μοντέλου αυτού που σύμφωνα με τις επεξηγηματικές μεταβλητές αξίζει Y, αλλά δεν είναι η πραγματική τιμή του Y, αλλά μια εκτίμηση του Y.

Δεύτερον, θα ήταν απαραίτητο να διαχωριστεί με τον Τ. Το οποίο, σε άλλες περιπτώσεις, σημειώνεται ως Ν ή αριθμός παρατηρήσεων. Ωστόσο, δεδομένου ότι ο τύπος παρονομαστή θα το φέρει επίσης, αφαιρούμε τους παρονομαστές (κάτω) και από τους δύο τύπους για να απλοποιήσουμε την έκφραση. Με αυτόν τον τρόπο είναι πιο εύκολο να δουλέψετε μαζί του.

Στη συνέχεια, θα εκτελέσουμε την ίδια ανάλυση με το μέρος παρονομαστή (κάτω μέρος).

Σε αυτήν την περίπτωση, η μόνη διαφορά από τον αρχικό τύπο διακύμανσης είναι η απουσία του παρονομαστή του. Δηλαδή, δεν διαιρούμε με T ή N. Με αυτόν τον τρόπο, μόλις εξηγηθούν τα δύο μέρη της γενικής έκφρασης του τετραγώνου R ή του συντελεστή προσδιορισμού, θα δούμε ένα παράδειγμα.

Συντελεστής διακύμανσηςΣυντελεστής γραμμικής συσχέτισηςΑνάλυση παλινδρόμησης

Ερμηνεία του συντελεστή προσδιορισμού

Ας υποθέσουμε ότι θέλουμε να εξηγήσουμε τον αριθμό των γκολ που σκοράρει ο Cristiano Ronaldo με βάση τον αριθμό των παιχνιδιών που παίζει. Υποθέτουμε ότι όσο περισσότερα παιχνίδια παίζονται, τόσο περισσότερα γκολ θα σκοράρει. Τα δεδομένα αφορούν τις τελευταίες 8 σεζόν. Έτσι, μετά την εξαγωγή των δεδομένων, το μοντέλο αποδίδει την ακόλουθη εκτίμηση:

Όπως μπορούμε να δούμε από το γράφημα, η σχέση είναι θετική. Όσο περισσότερα παιχνίδια παίζονται, φυσικά, τόσο περισσότερα γκολ πετυχαίνει στη σεζόν. Η προσαρμογή, βάσει του υπολογισμού R-τετραγώνου, είναι 0,835. Αυτό σημαίνει ότι είναι ένα μοντέλο του οποίου οι εκτιμήσεις ταιριάζουν αρκετά στην πραγματική μεταβλητή. Αν και τεχνικά δεν θα ήταν σωστό, θα μπορούσαμε να πούμε κάτι σαν αυτό το μοντέλο εξηγεί το 83,5% της πραγματικής μεταβλητής.

Ο συντελεστής του προβλήματος προσδιορισμού

Το πρόβλημα του συντελεστή προσδιορισμού, και ο λόγος για τον οποίο προκύπτει ο προσαρμοσμένος συντελεστής προσδιορισμού, είναι ότι δεν τιμωρεί την συμπερίληψη μη σημαντικών επεξηγηματικών μεταβλητών. Δηλαδή, εάν προστεθούν πέντε επεξηγηματικές μεταβλητές στο μοντέλο που έχουν μικρή σχέση με τους στόχους που σκοράρει ο Κριστιάνο Ρονάλντο σε μια σεζόν, το τετράγωνο R θα αυξηθεί. Αυτός είναι ο λόγος για τον οποίο πολλοί οικονομετρικοί, στατιστικοί και μαθηματικοί εμπειρογνώμονες αντιτίθενται στη χρήση του τετραγώνου R ως αντιπροσωπευτικού μέτρου της καλοσύνης της πραγματικής εφαρμογής.

Ο προσαρμοσμένος συντελεστής προσδιορισμού

Ο προσαρμοσμένος συντελεστής προσδιορισμού (προσαρμοσμένο R τετράγωνο) είναι το μέτρο που καθορίζει το ποσοστό που εξηγείται από τη διακύμανση της παλινδρόμησης σε σχέση με τη διακύμανση της εξηγούμενης μεταβλητής. Δηλαδή, το ίδιο με το τετράγωνο R, αλλά με μια διαφορά: Ο προσαρμοσμένος συντελεστής προσδιορισμού τιμωρεί τη συμπερίληψη των μεταβλητών.

Όπως είπαμε προηγουμένως, ο συντελεστής προσδιορισμού ενός μοντέλου αυξάνεται ακόμη και αν οι μεταβλητές που συμπεριλαμβάνουμε δεν είναι σχετικές. Δεδομένου ότι αυτό είναι ένα πρόβλημα, για να προσπαθήσουμε να το λύσουμε, το προσαρμοσμένο τετράγωνο R είναι τέτοιο ώστε:

Στον τύπο, το Ν είναι το μέγεθος του δείγματος και το k είναι ο αριθμός των επεξηγηματικών μεταβλητών. Με μαθηματική αφαίρεση, όσο υψηλότερες είναι οι τιμές k, τόσο περισσότερο θα είναι το προσαρμοσμένο R-τετράγωνο από το κανονικό R-τετράγωνο. Αντίθετα, σε χαμηλότερες τιμές k, τόσο πιο κοντά θα είναι το κεντρικό κλάσμα στο 1 και, επομένως, το προσαρμοσμένο τετράγωνο R και το κανονικό τετράγωνο R θα είναι πιο παρόμοια.

Υπενθυμίζοντας ότι το k είναι ο αριθμός των επεξηγηματικών μεταβλητών, συμπεραίνουμε ότι αυτό δεν μπορεί να είναι μηδέν. Εάν ήταν μηδέν, δεν θα υπήρχε μοντέλο. Τουλάχιστον, θα πρέπει να εξηγήσουμε μια μεταβλητή ως προς μια άλλη μεταβλητή. Δεδομένου ότι το k πρέπει να είναι τουλάχιστον 1, το προσαρμοσμένο τετράγωνο R και το κανονικό τετράγωνο R δεν μπορούν να έχουν την ίδια τιμή. Επιπλέον, το προσαρμοσμένο τετράγωνο R θα είναι πάντα μικρότερο από το κανονικό τετράγωνο R.