L'indexation permet un apprentissage
de l'AntiSpam Merak de façon à affiner sa reconnaissance des Spam.
L'AntiSpam comprend un filtre Bayesien basé sur une approche
statistique. Il s'appuie sur une base de référence de mots utilisés dans les
messages auxquels on associe le nombre de leurs occurrences dans les Spam et
dans les messages normaux. L'indexation consiste à mettre à jour cette base de référence soit en
ajoutant de nouveaux mots, soit en modifiant les occurrences pour les mots
existants.
Exemple:
viagra 38084 1 231
Le premier nombre indique la date à laquelle le mot a été
indexé pour la première fois. Le deuxième indique le nombre d'occurrences dans
les messages normaux - ici, un seul message contenant le mot 'viagra' a été
considéré comme message normal. Le troisième est le nombre d'occurrences dans
les Spam - ici, de nombreux messages contenant le mot 'viagra' considérés comme
des Spam ont été indexés (pas forcément 231 messages car un message peut
contenir plusieurs fois ce mot).
Quand un message est traité par le filtre Bayesien il évalue tous les mots qui sont dans le message par
rapport à la base de référence et calcule la
probabilité pour que le message soit un Spam.
Pour améliorer les
résultats vous pouvez indexer vos propre messages - ce qui ajoutera
tous les mots de vos messages dans la base de référence et augmentera leur
nombre d'occurrences (normales ou Spam) de façon à ce que le filtre ait plus
d'informations pour évaluer les messages suivants.
Il y a plein de façon d'indexer. Lisez le guide d'administration de l'AntiSpam Merak pour
avoir plus d'informations.