Unele aspecte de interoperabilitatea resurselor lingvistice computaționale
Închide
Articolul precedent
Articolul urmator
283 1
Ultima descărcare din IBN:
2024-01-08 13:36
SM ISO690:2012
PETIC, Mircea. Unele aspecte de interoperabilitatea resurselor lingvistice computaționale. In: International Conference of Young Researchers , 11 noiembrie 2011, Chişinău. Chişinău: Tipogr. Simbol-NP SRL, 2011, Ediția 9, p. 80. ISBN 978-9975-4224-7-5.
EXPORT metadate:
Google Scholar
Crossref
CERIF

DataCite
Dublin Core
International Conference of Young Researchers
Ediția 9, 2011
Conferința "International Conference of Young Researchers "
Chişinău, Moldova, 11 noiembrie 2011

Unele aspecte de interoperabilitatea resurselor lingvistice computaționale


Pag. 80-80

Petic Mircea
 
Institutul de Matematică şi Informatică al AŞM
 
 
Disponibil în IBN: 21 mai 2021


Rezumat

Resursele lingvistice computaționale contribuie nu doar la construcţia sistemelor de prelucrare a limbajului natural, dar conţin mijloace de completare automată sau semiautomată a lor cu cuvinte generate în baza celor existente folosind legităţile respective bazate pe mijloace exclusiv interne de îmbogăţire a vocabularului, în cazul nostru a derivării cu afixe [1]. Soluţionarea problemei de derivare automată necesită efectuarea studiilor preliminare, care ar permite deducerea legităţilor referitoare la comportamentul afixelor în limba română. Pentru efectuarea acestor studii sînt necesare resurse lingvistice computaţionale disponibile. În cazul nostru vom opera cu trei din ele: DMLR (Dicţionarul morfologic al limbii române în varianta electronică), RRTLN (Resurse reutilizabile ale tehnologiei limbajului natural) şi eDCD (Dicţionarul de cuvinte derivate în format electronic şi adaptat necesităţilor pentru studierea mecanismelor şi elaborarea algoritmilor de generare automată a cuvintelor derivate). Un aspect al cercetării îl constituie studierea dependenţei afixelor de partea de vorbire a derivatelor care le formează. În acest sens s-a dezvoltat un program special, în baza algoritmilor de complexitatea O(n)=n2, cu ajutorul căruia s-au extras acele derivate cu şi fără schimbări de părţi de vorbire. Drept sursă pentru cercetare au servit dicţionarul eDCD și RRTLN. În baza datelor obținute se observă preferinţa prefixării în cazul în care nu este vorba de modificare a părţii de vorbire și a sufixării în cazul schimbării părţii de vorbire. O altă abordare a interoperabilității il constituie studiul asupra eventualei posibilităţi de a grupa cuvintele derivate în corespundere cu grupele de flexionare. În acest sens au fost extrase separat derivatele pentru fiecare afix din eDCD şi au fost racordate la grupul de flexionare din DMLR. În condiţiile resurselor lingvistice computaționale disponibile se constată faptul că este imposibil de a stabili grupele de derivate bazate pe clasele de flexionare, ce ar contribui la procesul de derivare automată lexicală. Totuşi, studiul a arătat că este posibil de a limita numărul claselor de flexionare ce ar corespunde derivării pentru diferite prefixe și sufixe. În general s-a constat că resursele lingvistice computaționale nu constituie simple repozitorii doar de cuvinte dar ar trebui să conţină informaţie morfologică şi cu referire la prefixele şi sufixele componente cu descriere. În acest sens s-a decis de a elabora o extindere RRTLN pentru studierea procesului de derivare cu datele din eDCD. Drept rezultat, au fost elaborate programe speciale cu algoritmi de complexitatea O(n)=n×log2n care au găsit printre cuvintele înregistrate în RRTLN circa 13.000 de derivate care deja sînt în eDCD. Informația cu referitoare la aceste derivate a fost structurată în 4 tabele: cu lista prefixelor; lista sufixelor; lista rădăcinilor-temelor-derivatelor; cu legăturile dintre afixe şi rădăcini/teme pentru a forma derivate [2]. Ţinînd cont de cele expuse mai sus, structura şi conţinutul RRTLN completat poate servi pentru elaborarea unui generator a derivatelor, îmbogățind resursele computaționale existente.

Cuvinte-cheie
resurse lingvistice computaționale, derivare automată, algoritm