Klassifizierung ist eine Data-Mining-Technik, die einer Datensammlung Kategorien zuweist, um genauere Vorhersagen und Analysen zu unterstützen. Manchmal auch als a bezeichnet Entscheidungsbaum Die Klassifizierung ist eine von mehreren Methoden, um die Analyse sehr großer Datensätze effektiv zu gestalten.
Warum klassifizieren?
Sehr große Datenbanken werden in der heutigen Welt zur Norm Große Daten . Stellen Sie sich eine Datenbank mit mehreren Terabyte an Daten vor - ein Terabyte ist eins Billion Datenbytes.
Allein Facebook zerkleinert täglich 600 Terabyte an neuen Daten (Stand 2014, das letzte Mal, als diese Daten gemeldet wurden). Die Hauptherausforderung von Big Data besteht darin, sie zu verstehen.
Und das Volumen ist nicht das einzige Problem: Big Data ist auch vielfältig, unstrukturiert und verändert sich schnell. Berücksichtigen Sie Audio- und Videodaten, Social-Media-Beiträge, 3D-Daten oder Geodaten. Diese Art von Daten ist nicht leicht zu kategorisieren oder zu organisieren.
Um dieser Herausforderung zu begegnen, wurde unter anderem eine Reihe automatischer Methoden zum Extrahieren nützlicher Informationen entwickelt Einstufung .
Wie funktioniert die Klassifizierung?
Lassen Sie uns bei der Gefahr eines zu großen Einstiegs in die Technik sprechen, wie die Klassifizierung funktioniert. Ziel ist es, eine Reihe von Klassifizierungsregeln zu erstellen, die eine Frage beantworten, eine Entscheidung treffen oder ein Verhalten vorhersagen. Zu Beginn wird ein Satz von Trainingsdaten entwickelt, der einen bestimmten Satz von Attributen sowie das wahrscheinliche Ergebnis enthält.
Die Aufgabe des Klassifizierungsalgorithmus besteht darin, herauszufinden, wie dieser Satz von Attributen zu seinem Ergebnis kommt.
Szenario: Vielleicht versucht ein Kreditkartenunternehmen herauszufinden, welche Interessenten ein Kreditkartenangebot erhalten sollen.
Dies könnte sein Satz von Trainingsdaten sein:
Name | Alter | Geschlecht | Jährliches Einkommen | Kreditkartenangebot |
---|---|---|---|---|
John Doe | 25 | M | $39,500 | Nein |
Jane Doe | 56 | F | $125,000 | Ja |
Die "Predictor" -Spalten Alter , Geschlecht , und Jährliches Einkommen den Wert des "Predictor-Attributs" bestimmen Kreditkartenangebot . In einem Trainingssatz ist das Prädiktorattribut bekannt. Der Klassifizierungsalgorithmus versucht dann festzustellen, wie der Wert des Prädiktorenattributs erreicht wurde: Welche Beziehungen bestehen zwischen den Prädiktoren und der Entscheidung? Es wird eine Reihe von Vorhersageregeln entwickelt, normalerweise eine IF / THEN-Anweisung, zum Beispiel:
WENN (Alter> 18 oder Alter <75) UND Jahreseinkommen> 40.000 DANN Kreditkartenangebot = Ja
Offensichtlich ist dies ein einfaches Beispiel, und der Algorithmus würde eine weitaus größere Datenerfassung als die beiden hier gezeigten Datensätze erfordern. Ferner sind die Vorhersageregeln wahrscheinlich weitaus komplexer, einschließlich Unterregeln zum Erfassen von Attributdetails.
Als Nächstes erhält der Algorithmus einen "Vorhersagesatz" von zu analysierenden Daten, jedoch fehlt diesem Satz das Vorhersageattribut (oder die Entscheidung):
Name | Alter | Geschlecht | Jährliches Einkommen | Kreditkartenangebot |
---|---|---|---|---|
Jack Frost | 42 | M | $88,000 | |
Mary Murray | 16 | F | $0 |
Diese Vorhersagedaten helfen, die Genauigkeit der Vorhersageregeln zu schätzen, und die Regeln werden dann angepasst, bis der Entwickler die Vorhersagen als wirksam und nützlich ansieht.
Tag für Tag Klassifikationsbeispiele
Klassifizierung und andere Data-Mining-Techniken sind für einen Großteil unserer täglichen Erfahrungen als Verbraucher verantwortlich.
Bei Wettervorhersagen kann eine Klassifizierung verwendet werden, um zu berichten, ob der Tag regnerisch, sonnig oder bewölkt ist. Der Arzt könnte den Gesundheitszustand analysieren, um die medizinischen Ergebnisse vorherzusagen. Eine Art von Klassifizierungsmethode, Naive Bayesian, verwendet die bedingte Wahrscheinlichkeit, um Spam-E-Mails zu kategorisieren. Von der Betrugserkennung bis hin zu Produktangeboten erfolgt die Klassifizierung jeden Tag hinter den Kulissen, indem Daten analysiert und Vorhersagen erstellt werden.