Ανάλυση συμπλέγματος - Τι είναι, ορισμός και έννοια

Η ανάλυση συμπλέγματος είναι ένα σύνολο στατιστικών τεχνικών πολλαπλών παραλλαγών που στοχεύουν να ομαδοποιήσουν ένα σύνολο περιπτώσεων ή ατόμων σε ομάδες ή συστάδες.

Η ανάλυση συμπλέγματος, επομένως, είναι ένας τύπος στατιστικής ομαδοποίησης. Ο στόχος είναι να καταστούν τα δεδομένα σε κάθε σύμπλεγμα όσο το δυνατόν πιο παρόμοια μεταξύ τους και όσο το δυνατόν πιο διαφορετικά σε σχέση με τις άλλες ομάδες. Μπορεί επίσης να γίνει με μεταβλητές.

Μετασχηματισμός δεδομένων στην ανάλυση συμπλέγματος

Ένα από τα προβλήματα που αντιμετωπίζουμε όταν ομαδοποιούμε δεδομένα είναι ότι τα δεδομένα είναι μερικές φορές σε διαφορετικές μονάδες μέτρησης. Για το λόγο αυτό, πρέπει να εκτελεστεί ένα βήμα ανάλυσης πριν από το σύμπλεγμα που επιτρέπει την ομαδοποίηση.

Η πιο κοινή μέθοδος είναι η τυποποίηση. Αυτό χρησιμοποιείται για τον μετασχηματισμό των δεδομένων έτσι ώστε να έχουν παρόμοιες μονάδες μέτρησης. Πρέπει να ληφθούν υπόψη δύο κανόνες, οι δυαδικές μεταβλητές δεν είναι τυποποιημένες και, εάν είναι κατηγορηματικές, γίνονται δυαδικές (παρουσία / απουσία).

Μέθοδοι ανάλυσης συστάδων

Υπάρχουν πολλές μέθοδοι για την ανάλυση της συστάδας, αλλά στο Economy-Wiki.com, ακολουθώντας την αρχή της απλότητας που μας χαρακτηρίζει, θα δούμε τις πιο σχετικές με σχηματικό τρόπο.

Ιεραρχικές μέθοδοι

Μια πρώτη ταξινόμηση θα ήταν ιεραρχικές ή μη ιεραρχικές μέθοδοι. Οι πρώην ομαδοποιούν άτομα σε ιεραρχικές φάσεις (εξ ου και το όνομά τους). Με αυτόν τον τρόπο, μόνο ένα αντικείμενο αλλάζει ομάδα κάθε φορά, το υπόλοιπο παραμένει στην ίδια θέση.

Αυτά, με τη σειρά τους, ταξινομούνται σε:

Συσσωρευτικές μέθοδοι

Αποτελείται από ομαδοποίηση ατόμων σε λιγότερο σύμπλεγμα κάθε φορά. Ξεκινά από έναν αριθμό ομάδων ίσο με τον αριθμό των περιπτώσεων και μειώνεται.

Τα πιο γνωστά είναι:

  • Μέθοδος πλησιέστερου γείτονα: Σε αυτήν την περίπτωση, χρησιμοποιείτε έναν αλγόριθμο για την ομαδοποίηση των δεδομένων. Αυτό που ψάχνετε είναι η ελάχιστη απόσταση μεταξύ των πλησιέστερων ατόμων. Είναι πολύ ευαίσθητο σε δεδομένα που μπορούν να προκαλέσουν τον λεγόμενο «θόρυβο». Η μέθοδος της γειτονικής γειτονίας είναι παρόμοια.
  • Μέση μέθοδος μεταξύ ομάδων: Αυτό που κάνει είναι να υπολογίσει το μέσο όρο της απόστασης μεταξύ των ατόμων σε μια ομάδα και συγκεκριμένα ενός από αυτά. Είναι πολύ χρήσιμο για τη μείωση του λεγόμενου «θορύβου».
  • Η μέθοδος του Ward: Αυτό που κάνει είναι να προσθέσει τα τετράγωνα των αποκλίσεων μεταξύ κάθε ατόμου και το μέσο όρο του σμήνους του, για να αποφευχθεί η απώλεια πληροφοριών. Είναι ένα από τα πιο γνωστά και έχει τα πλεονεκτήματα της μεθόδου με βάση τη μέση, αλλά μεγαλύτερη ισχύ διάκρισης.

Διαχωριστικές μέθοδοι

Σε αυτήν την περίπτωση, αυτό που κάνετε είναι διαίρεση. Ξεκινά με ένα μόνο σύμπλεγμα και προτείνονται διαιρέσεις με βάση μια σειρά απαιτήσεων.

Τα πιο συνηθισμένα είναι:

  • Μέσος όρος μεταξύ γκρουπ, πλησιέστερος γείτονας και γειτονικός γείτονας: Αυτές οι τρεις μέθοδοι είναι παρόμοιες με την προηγούμενη περίπτωση, αλλά χρησιμοποιώντας τη μέθοδο αποσύνδεσης. Δηλαδή, αυτή τη φορά αυτό που κάνουμε είναι ξεχωριστό και όχι ομαδικό.
  • Μέθοδος Centroid: Χρησιμοποιείται ευρέως σε προβλήματα βελτιστοποίησης τοποθεσίας εγκαταστάσεων. Χρησιμοποιήστε αυτόν τον τύπο ανάλυσης για να βρείτε τις πιο κατάλληλες.

Μη ιεραρχικές μέθοδοι

Σε αυτήν την περίπτωση ξεκινούν με μια προκαθορισμένη λύση. Αυτό είναι το σημείο εκκίνησης για ανάλυση συμπλέγματος. Με αυτόν τον τρόπο, οι ομάδες εγκαθίστανται εκ των προτέρων και κάθε περίπτωση θα τοποθετηθεί σε μία από αυτές, ανάλογα με τα χαρακτηριστικά της. Με τη σειρά του, μπορούμε να τα χωρίσουμε σε άλλες υποομάδες.

  • Μέθοδοι επανεκχώρησης: Οι πιο σχετικές είναι οι μέθοδοι κεντροειδούς, όπως το k-means. Αυτά των μετριοπαθών, όπως το PAM. Ή αυτό των δυναμικών σύννεφων.
  • Άμεσες μέθοδοι: Το πιο σημαντικό είναι η ομαδοποίηση μπλοκ, που χρησιμοποιείται ευρέως στην εξόρυξη δεδομένων.
  • Αναγωγικές μέθοδοι: Αυτά βασίζονται στην ανάλυση παραγόντων.
  • Μέθοδοι αναζήτησης πυκνότητας: Από τη μία πλευρά θα υπήρχαν εκείνες των τυπολογικών προσεγγίσεων, όπως η ανάλυση των τρόπων. Από την άλλη, έχουμε τις πιθανότητες, όπως ο Wolf's.

Παραδείγματα ανάλυσης συμπλέγματος

Ας δούμε, τέλος, μερικά παραδείγματα εφαρμογών ανάλυσης συστάδων.

  • Ας φανταστούμε ότι έχουμε μια ομάδα χωρών που θέλουμε να ομαδοποιήσουμε βάσει ορισμένων μακροοικονομικών μεταβλητών, όπως ο πληθωρισμός ή η ανεργία. Μπορούμε να χρησιμοποιήσουμε αυτόν τον τύπο ανάλυσης για να φτιάξουμε ομοιογενείς ομάδες, για παράδειγμα, περισσότερο ή λιγότερο ανεπτυγμένες χώρες.
  • Ένα άλλο παράδειγμα θα μπορούσε να είναι μια σειρά καταναλωτών με ορισμένα κοινωνικοδημογραφικά χαρακτηριστικά. Η ιδέα είναι να δημιουργηθούν ομάδες με παρόμοια άτομα και, με τη σειρά τους, είναι πολύ διαφορετικά το ένα από το άλλο.
  • Εκτός από τα οικονομικά, η ανάλυση συστάδων είναι χρήσιμη και σε άλλες επιστήμες. Για παράδειγμα στη βιολογία, στην ταξινόμηση των ειδών, ή στη γεωλογία, να κάνει το ίδιο με τα μέταλλα.

Θα βοηθήσει στην ανάπτυξη του τόπου, μοιράζονται τη σελίδα με τους φίλους σας

wave wave wave wave wave