Nyitólap
Keresés
Vissza
Magyar Nyelvőr
----------

Fórum

Fórumunkban a hozzánk érkezett, közérdeklődésre számot tartó leveleket tesszük közzé. Írjon Ön is!

Villanypostacímünk: nyelvor@c3.hu


----------

Kopányi Sándor <sandor.kopanyi@altavista.net>

2000. június 5. 15.42

Szójegyzék

Tisztelt Szerkesztőség!

Gratulálok e honlaphoz, örülök hogy a magyar nyelvvel foglalkozó „sarok” is van a hálón.

Kérésem, kérdésem a következő: van egy szövegszerkesztő, ViM, ami – a Worddel összehasonlítva egyszerűbb, ugyanakkor bonyolultabb. Egyszerűbb, mert nem lehet benne dőlt betűt, vastag betűt stb. csinálni; bonyolultabb mert programozóknak való.

Ehhez a szövegszerkesztőhöz szeretnék csinálni egy helyesírás-ellenőrző modult; ehhez viszont egy egyszerű szójegyzékre, szólistára lenne szükségem. Kérdésem: merre találhatok ilyet a hálón? Esetleg önöknek van-e?

Én kaptam egyet, de az elég rövid, és nyelvtanilag sem helyes: a hosszú ékezetek helyett rövidek vannak benne…


Segítségüket előre is köszönöm, tisztelettel:

Kopányi Sándor


----------

Bela Simonyi <bsimonyi@freemail.c3.hu>

1999. október 13. 1.32

Tartalomelemzés

T. Nyelvőr!

Nem tudom, Önök tudnak-e segíteni, de próba-szerencse alapon Önöknek is elküldöm az alábbi kérdésemet:

Gyógynövény-adatbázist készítek, és ehhez rengeteg (magyar, német és angol) szakirodalmat próbálok úgy tagolni, preparálni, hogy minél elemibb darabokban adódjanak belőle az információk. Mivel hatalmas mennyiségről van szó, keresem a gépi módszer lehetőségét.

Egy szemléltető példa a gyakorlatomban: szövegszerkesztő-makróval minden szövegdarab (általában: bekezdés) kap egy „zsebet”, amelybe különféle ismertetőjegyek alapján jelölések gyűlnek. A jelölések arra vonatkoznak, hogy a bekezdés tartalma milyen jellegű. Például ahol „mag”, „virág”, „szár”, „gyökér”, „levél” szavak előfordulnak, ott a zsebbe jórészt a morfológia, „a növény kinézete” jelölések gyűlnek. Ahol hatóanyag-nevek csoportosulnak, ott az, ahol a gyógyhatás jellemző szavai, ott az. Sok-sok esetben persze nem lesznek egyneműek az egy zsebben összegyűlt jelölések. A darabszámok aránya valószínűsíthet – de az egész nagyon kezdetleges.

Tulajdonképpen gépi tartalomelemzésről van szó.

Példaként egy nagyon rövid mondat: „Vörös színű naftokinonjai élelmiszerfestékek.” (Az, hogy az információ melyik növényre vonatkozik, a szövegben odébb szerepel, de folyamatosan kapcsolni kell úgy, hogy ebben hibázni szigorúan tilos!) A mondatból kioperálandó elemi tudnivalók:

– Az Alkanna tinctoria tartalmaz naftokinonokat.

– A naftokinonok vörös színűek (ebből még nem kizárt, hogy lehetnek más színűek is).

– A naftokinonok élelmiszerfestékek.

A végeredmény tehát elemi szintre tisztult információ, mint pl.:

– a drog szaga frissen

– a drog szaga helyesen szárítva

– a drog szaga helytelen kezelés után

Egy növényről akár 2000 ilyen kérdés is feltehető.

A kérdés lényege tehát: hogyan lehet folyószöveget széria-módszerrel tartalmi atomokra bontani? Tudnak-e arról, hogy végzett-e már valaki ilyen jellegű munkát?


Köszönök minden ötletet:

Simonyi Béla, bsimonyi@freemail.c3.hu


----------