Bayes'sche Spamfilter berechnen die Wahrscheinlichkeit, dass eine Nachricht Spam ist, basierend auf ihrem Inhalt. Im Gegensatz zu einfachen inhaltsbasierten Filtern lernt die Bayes'sche Spam-Filterung aus Spam und guter Post. Dies führt zu einem sehr robusten, anpassungsfähigen und effizienten Anti-Spam-Ansatz, der vor allem kaum positive Ergebnisse liefert.
Wie erkennen Sie Junk-E-Mails?
Überlegen Sie, wie Sie Spam erkennen. Ein kurzer Blick genügt oft. Sie wissen, wie Spam aussieht, und Sie wissen, wie gute E-Mails aussehen.
Die Wahrscheinlichkeit, dass Spam wie gute Post aussieht, liegt bei… null.
Das Bewerten von inhaltsbasierten Filtern passt sich nicht an
Wäre es nicht toll, wenn automatische Spam-Filter auch so funktionieren würden?
Durch das Bewerten von inhaltsbasierten Spam-Filtern versuchen Sie genau das. Sie suchen nach Wörtern und anderen für Spam typischen Merkmalen. Jedem charakteristischen Element wird eine Bewertung zugewiesen, und aus den einzelnen Bewertungen wird eine Spam-Bewertung für die gesamte Nachricht berechnet. Einige Bewertungsfilter suchen auch nach Merkmalen legitimer E-Mails, wodurch der Endwert einer Nachricht verringert wird.
Der Bewertungsfilteransatz funktioniert zwar, hat aber auch einige Nachteile:
- Die Liste der Merkmale setzt sich aus dem Spam (und der guten Post) zusammen, der den Ingenieuren des Filters zur Verfügung steht. Um den typischen Spam, den jeder erhalten kann, zu verstehen, müssen die E-Mails an Hunderten von E-Mail-Adressen gesammelt werden. Dies schwächt die Effizienz der Filter, vor allem weil Die Eigenschaften guter Post sind für jede Person unterschiedlich , aber das wird nicht berücksichtigt.
- Die zu suchenden Merkmale sind mehr oder weniger in Stein gemeißelt . Wenn sich die Spammer bemühen, sich anzupassen (und den Spam wie eine gute Mail für die Filter aussehen lassen), müssen die Filtermerkmale manuell angepasst werden - ein noch größerer Aufwand.
- Die Punktzahl, die jedem Wort zugewiesen wird, basiert wahrscheinlich auf einer guten Schätzung, ist jedoch immer noch willkürlich. Und wie die Liste der Merkmale passt es sich weder an die sich verändernde Spam-Welt im Allgemeinen noch an die Bedürfnisse eines einzelnen Benutzers an.
Bayes'sche Spamfilter optimieren sich, werden immer besser
Bayes'sche Spam-Filter sind auch eine Art inhaltsbasierter Filter. Ihr Ansatz beseitigt jedoch die Probleme der einfachen Filterung von Spam-Filtern, und zwar radikal. Da die Schwachstelle von Bewertungsfiltern in der manuell erstellten Liste der Merkmale und ihrer Bewertungen liegt, wird diese Liste eliminiert.
Stattdessen erstellen Bayes'sche Spamfilter die Liste selbst. Idealerweise fangen Sie mit einer (großen) Reihe von E-Mails an, die Sie als Spam eingestuft haben, und einer weiteren Reihe guter E-Mails. Die Filter betrachten beide und analysieren die legitime E-Mail sowie den Spam, um die Wahrscheinlichkeit zu berechnen, dass verschiedene Merkmale in Spam und in guter E-Mail erscheinen.
Wie ein Bayesianischer Spamfilter eine E-Mail überprüft
Die Eigenschaften eines Bayes'schen Spamfilters können sein:
- natürlich die Wörter im Nachrichtenkörper und
- seine Header (Sender und Nachrichtenpfade zum Beispiel!), aber auch
- andere Aspekte wie HTML / CSS-Code (wie Farben und andere Formatierungen) oder sogar
- Wortpaare, Phrasen und
- Metainformationen (wo zum Beispiel eine bestimmte Phrase erscheint).
Wenn ein Wort, beispielsweise "kartesisch", niemals in Spam erscheint, sondern häufig in der legitimen E-Mail, die Sie erhalten, ist die Wahrscheinlichkeit, dass "kartesisch" Spam nahe Null ist. "Toner" dagegen erscheint ausschließlich und häufig in Spam. "Toner" hat eine sehr hohe Wahrscheinlichkeit, in Spam gefunden zu werden, nicht viel unter 1 (100%).
Wenn eine neue Nachricht eintrifft, wird sie vom Bayes'schen Spamfilter analysiert, und die Wahrscheinlichkeit, dass die vollständige Nachricht Spam ist, wird anhand der einzelnen Merkmale berechnet.
Angenommen, eine Nachricht enthält sowohl "Kartesisch" als auch "Toner". Allein aus diesen Worten ist noch nicht klar, ob wir Spam oder E-Mail haben. Andere Eigenschaften geben (hoffentlich und höchstwahrscheinlich) eine Wahrscheinlichkeit an, mit der der Filter die Nachricht entweder als Spam oder als E-Mail klassifizieren kann.
Bayes'sche Spamfilter können automatisch lernen
Nun, da wir eine Klassifizierung haben, kann die Nachricht verwendet werden, um den Filter selbst weiter zu trainieren. In diesem Fall ist entweder die Wahrscheinlichkeit, dass "kartesisch" eine gute E-Mail anzeigt, geringer (wenn die Nachricht, die sowohl "kartesisch" als auch "Toner" enthält, Spam ist), oder die Wahrscheinlichkeit, dass "Toner" Spam anzeigt, muss erneut geprüft werden.
Mit dieser automatisch adaptiven Technik können Bayes'sche Filter verwendet werden lernen Sie aus den eigenen und den Entscheidungen des Benutzers (wenn sie manuell eine falsche Beurteilung durch die Filter korrigiert). Die Anpassungsfähigkeit der Bayes'schen Filterung stellt auch sicher, dass sie für den einzelnen E-Mail-Benutzer am effektivsten sind. Während die meisten Spam-Mails ähnliche Merkmale aufweisen, unterscheidet sich die legitime E-Mail-Nachricht in jedem Fall.
Wie können Spammer auf Bayes'sche Filter zugreifen?
Die Eigenschaften legitimer E-Mails sind für den Bayes'schen Spamfilterungsprozess ebenso wichtig wie der Spam. Wenn die Filter speziell für jeden Benutzer trainiert werden, wird es für Spammer noch schwieriger, alle Spam-Filter (oder die meisten Benutzer) zu umgehen, und die Filter passen sich an fast alles an, was Spammer versuchen.
Spammer kommen nur an gut ausgebildeten Bayes'schen Filtern vorbei, wenn ihre Spam-Nachrichten genau wie die gewöhnlichen E-Mails aussehen, die jeder erhalten kann.
Normalerweise senden Spammer solche normalen E-Mails nicht. Nehmen wir an, dies liegt daran, dass diese E-Mails nicht als Junk-E-Mail funktionieren.Wahrscheinlich werden sie es nicht tun, wenn gewöhnliche, langweilige E-Mails die einzige Möglichkeit sind, Spam-Filter zu umgehen.
Wenn Spammer zu meist normal aussehenden E-Mails wechseln, werden wir jedoch wieder eine Menge Spam in unseren Posteingängen sehen, und E-Mails können genauso frustrierend sein wie in den Tagen vor Bayes (oder noch schlimmer). Es wird den Markt für die meisten Arten von Spam jedoch ruiniert haben und wird daher nicht lange dauern.
Starke Indikatoren können die Achillesferse des Bayes-Spam-Filters sein
Eine Ausnahme kann für Spammer wahrgenommen werden, die sich mit ihrem üblichen Inhalt durch Bayes'sche Filter arbeiten. Es liegt in der Natur der Bayes'schen Statistik, dass ein Wort oder ein Merkmal, das sehr häufig in einer guten E-Mail erscheint, so bedeutsam sein kann, dass jede Nachricht vom Spam-Aussehen abweicht und vom Filter als Ham bewertet wird.
Wenn Spammer einen Weg finden, um Ihre sicheren E-Mail-Wörter zu ermitteln, indem Sie beispielsweise HTML-Empfangsbestätigungen verwenden, um zu sehen, welche Nachrichten Sie geöffnet haben, können sie eine davon in eine Junk-Mail aufnehmen und Sie sogar durch ausgebildeter Bayes'scher Filter.
John Graham-Cumming hat dies versucht, indem er zwei Bayes'sche Filter gegeneinander arbeiten ließ, wobei der "schlechte" sich an die Nachrichten anpasst, bei denen gefunden wird, dass Nachrichten den "guten" Filter durchlaufen. Er sagt, dass es funktioniert, obwohl der Prozess zeitaufwändig und komplex ist. Wir glauben nicht, dass wir davon viel erleben werden, zumindest nicht in großem Umfang und nicht auf die E-Mail-Eigenschaften einzelner Personen zugeschnitten. Spammer können (versuchen, einige) Schlüsselwörter für Organisationen herauszufinden (etwa "Almaden" für einige Leute bei IBM?).
Normalerweise unterscheidet sich Spam grundsätzlich (erheblich) von der normalen Post oder es handelt sich nicht um Spam.
Die Quintessenz: Die Stärke des Bayes'schen Filters kann seine Schwäche sein
Bayes'sche Spamfilter sindInhaltsbasierte Filter Das:
- sindspeziell geschult, um den Spam und die E-Mail des einzelnen E-Mail-Benutzers zu erkennenDadurch sind sie hochwirksam und für Spammer schwer anpassbar.
- kann kontinuierlich und ohne viel Aufwand oder manuelle Analyseanpassen zu den neuesten Tricks der Spammer.
- berücksichtigen Sie die gute Mail des einzelnen Benutzers und haben Sie eine sehrniedrige Rate von Fehlalarmen.
- Wenn dies zu einem blinden Vertrauen in die Bayes'schen Antispamfilter führt, wird dies leider verursachtgelegentlicher Fehler noch schwerwiegender. Der gegenteilige Effekt vonfalsche Negative (Spam, der genau wie normale Post aussieht) kann Benutzer stören und frustrieren.