Felder mit und ohne Token

Es wurde bereits kurz erwähnt, dass Suchfelder in Tokens zerlegt werden können. Dabei werden im Wesentlichen die indexierten Daten in Einheiten zerlegt, die als Tokens bezeichnet werden. Dies geschieht mithilfe eines Analyseprogramms. Analyseprogramme weisen ein unterschiedliches Verhalten auf, einige zerlegen Tokens bei Leerzeichen, andere bei Interpunktionszeichen etc. Außerdem werden die so generierten Tokens normalerweise in Kleinbuchstaben umgewandelt. Bei in Tokens zerlegten Feldern werden die Abfragezeichenfolgen in derselben Weise zerlegt, sodass bei Suchabfragen - neben anderen Vorteilen - keine Groß-/Kleinschreibung beachtet werden muss.

Bei bestimmten Feldern ist die Zerlegung in Tokens jedoch nicht sinnvoll. Gute Beispiele dafür sind computergenerierte Werte wie Codes von Codetabellen. Im Allgemeinen sollten jedoch die meisten Ihrer Felder in Tokens zerlegt werden. Besonders das Verhalten von Feldern und Suchabfragen ohne Token, die mehrere Wörter enthalten, widerspricht der Intuition. Ziehen Sie diesen Fall in Betracht, wenn Sie den merken, dass Ihre Suchabfragen nicht die erwarteten Daten zurückgeben.

Nehmen Sie beispielsweise ein Adressfeld mit einem Dokument, das "Joyce Way Parkwest Dublin" enthält. Wenn dieses Feld in Tokens zerlegt ist und das standardmäßige Analyseprogramm enthält, enthält der Index vier Begriffe: "joyce", "way", "parkwest" und "dublin". Jede Abfragezeichenfolge, die Begriffe enthält, die mit diesen Begriffen (genau oder über einen Platzhalter) übereinstimmen, finden dieses Dokument. Beispiele: "Dublin", "Joyce Way", "park*" etc.

Wenn dieses Feld dagegen nicht in Tokens zerlegt ist und dasselbe Dokument hinzugefügt wird, enthält der Index nur einen einzigen Begriff: "Joyce Way Parkwest Dublin". Damit stimmen viel weniger Abfragezeichenfolgen überein, eigentlich nur die Zeichenfolge selbst oder der erste Teil der Zeichenfolge als Präfixsuche. Außerdem muss bei der Suche die Groß-/Kleinschreibung beachtet werden.