A magyar nyelvben használatos produktív képzők és a szóösszetételi szabályok megsokszorozhatják egy szó szótári töveinek számát. Például:
telefonbeszélgetéseitekben |
1. telefonbeszélgetés
2. telefon
3. beszélgetés
4. beszélget
5. beszél |
A tényleges szóalak-homonimáknál is több tő elemezhető:
mentek |
1. ment [melléknév]
2. ment [ige]
3. megy [ige] |
szemetek |
1. szem [főnév]
2. szemét [főnév] |
A HelyesLem visszakeresésre való felhasználását tekintve az alábbi három megoldás közül érdemes választani:
1. Minden szövegbeli szóalakot leindexelünk a lemmatizálón keresztül (is). Ez a művelet helyigényes, időigényes, de nagyon gyors és pontos keresést tesz lehetővé.
Példa:
- Szöveg: Terheitekkel, gyertyáitokkal gyertek hozzánk.
- Index: terheitekkel1, teher1, gyertyáitokkal2, gyertya2, gyertek3, jön3, hozzánk4, mi4
- Keresőparancs: jön
- Találat: 3
- Eredmény: gyertek
2. Semmit sem indexelünk le, de kereséskor a keresőszó minden alakját legeneráljuk és ezek VAGY-kapcsolatával keresünk. Az indexfájl nem nő, a keresés viszont lassul.
Példa
- Szöveg: Terheitekkel, gyertyáitokkal gyertek hozzánk.
- Index: terheitekkel1, gyertyáitokkal2, gyertek3, hozzánk4
- Keresőparancs: jön
- Generált keresőparancs: jövök VAGY jössz VAGY jön VAGY jövünk VAGY jöttök VAGY jönnek VAGY ... VAGY gyere VAGY gyerünk VAGY gyertek.
- Találat: 3
- Eredmény: gyertek
3. A keresőszó allomorfjait generáljuk csak le. Ezekkel csonkoltan keresünk, majd a visszakapott találatokat egyenként ellenőrizzük, hogy valóban a keresőszó származékai-e. Viszonylag gyors, nem helyigényes, ugyanakkor pontos.
Példa
- Szöveg: Terheitekkel, gyertyáitokkal gyertek hozzánk.
- Index: terheitekkel1, gyertyáitokkal2, gyertek3, hozzánk4
- Keresőparancs: jön
- Generált keresőparancs: jö$ VAGY jöv$ VAGY jön$ VAGY gyer$
- Találat: 2,3
- Eredmény: gyertyáitokkal, gyertek
- Ellenőrzés: gyertyá+itok+kal , gyer+tek
Amennyiben érdekli a szótő-visszaállító megoldásunk, vegye fel a kapcsolatot értékesítési osztályunkkal!
|