Analyseprogramme im Detail

Die bereits vorgestellten Analyseprogramme bereiten Ihren durchsuchbaren Text für die Indexierung und für Suchvorgänge vor.

Es ist sehr wichtig, welche Analyseprogramme Sie auswählen. Analyseprogramme sind konkrete Klassen, die die Klasse 'org.apache.lucene.analysis.Analyzer' erweitern. Im Lieferumfang des GSS sind mehrere Analyseprogramme enthalten. Sie können aber auch eigene Analyseprogramme erstellen und verwenden. Manchmal, wenn Sie versucht sind, ein Feld als in Tokens zerlegt zu definieren, sollten Sie stattdessen die Wahl Ihres Analyseprogramms sorgfältiger überdenken.

Jeder Suchservice besitzt ein Standardanalyseprogramm. Jedes Suchservicefeld kann dieses Analyseprogramm jedoch überschreiben und ein bestimmtes Analyseprogramm für die die Verwendung mit diesem Feld definieren (siehe analyzerName). Der GSS verwendet für die Indexierung und für Suchvorgänge dasselbe Analyseprogramm.

Der Server für generische Suche bietet folgende vordefinierte Analyseprogramme.

LUCENESTANDARD
Teilt Text bei Interpunktionszeichen, wobei die Interpunktion entfernt wird. Allerdings wird ein Punkt, auf den kein Leerzeichen folgt, als Teil eines Tokens betrachtet. Teilt Wörter bei Bindestrichen, sofern in dem Token keine Zahl enthalten ist. In diesem Fall wird das gesamte Token als Produktnummer interpretiert und nicht geteilt. Erkennt E-Mail-Adressen und Internethostnamen als ein Token. Normalisiert Tokentext zu Kleinbuchstaben und entfernt gebräuchliche englische Stoppwörter.
STANDARD
Ähnelt dem Analyseprogramm LUCENESTANDARD. Allerdings werden Stoppwörter aus den in Tokens zerlegten Begriffen entfernt und wenn es sich bei dem in Tokens zu zerlegenden Inhalt um eine einzelne Zahl handelt, wird dieser nicht geändert (so lassen sich generierte Infrastruktur-IDs verarbeiten, die negative Zahlen sein können).
SIMPLE
Teilt Text bei Zeichen, die keine Buchstaben sind, und normalisiert Tokentext zu Kleinbuchstaben.
STOP
Teilt Text bei Zeichen, die keine Buchstaben sind, normalisiert Tokentext zu Kleinbuchstaben und entfernt gebräuchliche englische Stoppwörter.
WHITESPACE
Teilt Text bei Leerzeichen. Angrenzende Folgen von Zeichen ohne Leerzeichen bilden Tokens.
KEYWORD
Bildet aus dem gesamten Datenstrom ein einziges Token. Dies ist für Daten wie Postleitzahlen, IDs und bestimmte Produktnamen nützlich.

Beachten Sie, dass die Klasse im Klassenpfad des Servers für generische Suche verfügbar sein muss, wenn Sie ein anderes Analyseprogramm als ein vordefiniertes Analyseprogramm oder als die im Lieferumfang von Lucene enthaltenen Analyseprogramme verwenden.