I tokenizer (o stemmer) migliorano la qualità delle concordanze tramite il riconoscimento delle parole flesse, sia nei file di partenza, sia nelle memorie di traduzione. Migliorano anche le concordanze nel glossario.
Uno stemmer applicato all'Inglese, ad esempio, deve riconoscere la stringa "cats" (e possibilmente "catlike", "catty", e via discorrendo) basandosi sulla radice (tema) "cat", e "stemmer", "stemming", "stemmed" basandosi su "stem". L'algoritmo di riconoscimento della radice riduce le parole "fishing", "fished", "fish" e "fisher" al tema radice, ossia "fish". Ciò è particolarmente utile nei casi di lingue che utilizzano forme prefissali e suffissali sui temi. Mutuando un esempio dallo Sloveno, di seguito l'aggettivo "buono" in tutte le forme grammaticalmente corrette possibili:
lep, lepa, lepo - singolare, maschile (M), femminile (F), neutro (N)
lepši, lepša, lepše . - comparativo, nominativo, maschile, femminile, neutro, a confronto con la forma plurale dell'aggettivo
najlepših - superlativo, plurale, genitivo per M,F,N
I tokenizer sono inclusi in OmegaT. OmegaT seleziona automaticamente un tokenizer per la lingua di partenza e quella di destinazione, in base alle impostazioni linguistiche del progetto. È possibile selezionare un altro tokenizer, o una sua versione diversa, dalla finestra delle Proprietà del progetto.
OmegaT non si avvierà se vengono trovati i tokenizer nella cartella /plugin. Rimuovere tutti i tokenizer dalla cartella /plugin prima di avviare OmegaT.