Skip to main content

Data Mining mit K-Means-Clustering

StatQuest: K-means clustering (Juni 2025)

StatQuest: K-means clustering (Juni 2025)
Anonim

Das k- Ein Clustering-Algorithmus ist ein Data-Mining- und Machine-Learning-Tool, mit dem Beobachtungen ohne vorheriges Wissen über diese Zusammenhänge in Gruppen zusammengehöriger Beobachtungen gruppiert werden. Durch das Abtasten versucht der Algorithmus zu zeigen, zu welcher Kategorie oder zu welchem ​​Cluster die Daten gehören, wobei die Anzahl der Cluster durch den Wert definiert wird k.

Das k- Dies bedeutet, dass Algorithmus eine der einfachsten Clustering-Techniken ist und häufig in der medizinischen Bildgebung, in der Biometrie und in verwandten Bereichen verwendet wird. Der Vorteil von k- bedeutet Clustering, dass es über Ihre Daten informiert (unter Verwendung seiner nicht überwachten Form), anstatt dass Sie den Algorithmus zu Beginn über die Daten informieren müssen (unter Verwendung der überwachten Form des Algorithmus).

Es wird manchmal als Lloyd-Algorithmus bezeichnet, insbesondere in der Informatik, weil der Standardalgorithmus 1957 von Stuart Lloyd zum ersten Mal vorgeschlagen wurde. Der Begriff "k-means" wurde 1967 von James McQueen geprägt.

Wie funktioniert der K-Means-Algorithmus?

Das k- bedeutet Algorithmus ist ein evolutionärer Algorithmus, der seinen Namen von seiner Operationsmethode erhält. Der Algorithmus gruppiert Beobachtungen in k Gruppen, wo k wird als Eingabeparameter bereitgestellt. Sie ordnet dann jede Beobachtung Cluster zu, basierend auf der Nähe der Beobachtung zum Mittelwert des Clusters. Der Mittelwert des Clusters wird dann neu berechnet und der Prozess beginnt erneut. So funktioniert der Algorithmus:

  1. Der Algorithmus wählt willkürlich aus k Punkte als anfängliche Clusterzentren (Mittel).
  2. Jeder Punkt in der Datenmenge wird dem geschlossenen Cluster basierend auf der euklidischen Entfernung zwischen jedem Punkt und jedem Clusterzentrum zugewiesen.
  3. Jedes Clusterzentrum wird als Durchschnitt der Punkte in diesem Cluster neu berechnet.
  4. Die Schritte 2 und 3 wiederholen sich, bis die Cluster zusammenlaufen. Die Konvergenz kann je nach Implementierung unterschiedlich definiert sein, normalerweise bedeutet dies jedoch, dass entweder keine Beobachtungen Cluster ändern, wenn die Schritte 2 und 3 wiederholt werden, oder dass die Änderungen keinen wesentlichen Unterschied in der Definition der Cluster bewirken.

Anzahl der Cluster auswählen

Einer der Hauptnachteile zu k- bedeutet Clustering ist die Tatsache, dass Sie die Anzahl der Cluster als Eingabe für den Algorithmus angeben müssen. Der Algorithmus ist nicht dazu in der Lage, die geeignete Anzahl von Clustern zu bestimmen, und hängt davon ab, ob der Benutzer dies im Voraus erkennt.

Wenn Sie zum Beispiel eine Gruppe von Personen hatten, die basierend auf der binären Geschlechtsidentität als männlich oder weiblich gruppiert werden soll, rufen Sie die k- bedeutet Algorithmus, der die Eingabe verwendet k = 3 würde die Leute in drei Gruppen zwingen, wenn nur zwei oder eine Eingabe von k = 2, würde eine natürlichere Passform bieten.

Ebenso, wenn eine Gruppe von Personen leicht nach Heimatstaat gruppiert wurde und Sie den angerufen haben k- bedeutet Algorithmus mit der Eingabe k = 20 Die Ergebnisse sind möglicherweise zu verallgemeinert, um effektiv zu sein.

Aus diesem Grund ist es oft eine gute Idee, mit verschiedenen Werten von zu experimentieren k um den Wert zu ermitteln, der am besten zu Ihren Daten passt. Möglicherweise möchten Sie auch die Verwendung anderer Data-Mining-Algorithmen auf Ihrer Suche nach maschinell erlerntem Wissen untersuchen.