Particularitățile afixelor &icirc;n automatizarea procesului de derivare

Petic Mircea

Articolul precedent

Articolul urmator

369

Ultima descărcare din IBN:
2024-01-01 15:37

SM ISO690:2012

PETIC, Mircea. Particularitățile afixelor în automatizarea procesului de derivare. In: International Conference of Young Researchers , 5-6 noiembrie 2009, Chişinău. Chişinău: Centrul Editorial-Poligrafic al USM, 2009, Ediția 7, p. 94. ISBN 978-9975-70-901-9.

EXPORT metadate:
Google Scholar
Crossref
CERIF

DataCite
Dublin Core

International Conference of Young Researchers
Ediția 7, 2009

Conferința "International Conference of Young Researchers "
Chişinău, Moldova, 5-6 noiembrie 2009

Particularitățile afixelor în automatizarea procesului de derivare

Pag. 94-94

Petic Mircea

Institutul de Matematică şi Informatică al AŞM

Disponibil în IBN: 4 iunie 2021

Descarcă PDF

Rezumat

Resursele lingvistice sînt importante la construcţia sistemelor de prelucrare a limbajului natural. Una din sarcinile de bază ale resurselor este îmbogățirea continuă a lor. Printre primele metodele de îmbogăţire a vocabularului a fost generarea automată a flexiunilor. Cea mai cunoscută abordare a flexionării automate este cea a lui Kimmo Koskeniemi, în modelul propriu morfologia pe două niveluri. Prima încercare de acoperire a morfologiei flexionare pentru limba română a fost modelarea FAVR în mediul Mac-ELU. Alte abordări ale flexionării automate pot fi găsite în lucrările lui Dan Cristea, Svetlana Cojocaru. Pornind de la abordarea generării automate a flexiunilor s-a încercat de a soluționa problema derivării automate. Totuși derivarea cu afixe, care este o altă metodă de îmbogățire a vocabularului, nu este, în comparație cu flexionarea, obligator și complet productivă [1]. În scopul stabilirii unor caracteristici cantitative ale unor afixe lexicale, extragerii cuvintelor derivate cu prefixe şi sufixe cît şi generării cuvintelor noi cu ajutorul regulilor de derivare s-a elaborat un complex de module în limbajul C în mediul de programare KDevelop în sistemul de operare Linux OpenSuse 10.3. [2]. Cu toate că cuvintele derivate trec o etapă de validare, totuși nu este posibil cu certitudine de afirmat care este procedura care validează cel mai bine cuvintele derivate generate automat. În lumina faptului că este imposibilă stabilirea corectă a validității cuvintelor cu ajutorul mijloacele Internetului, este important efortul de a elabora un dictionar de derivate [3], care permite stabilirea morfemelor derivatelor cu tipul lor (prefix, rădăcină sau sufix). Dicționarul de derivate electronic constă din peste 15.300 cuvinte derivate, 42 prefixe, 433 sufixe și pîna la 8000 rădăcini. Pentru stabilirea claselor de derivare s-au elaborat algoritmi care vor extrage derivatele separat pentru fiecare afix, apoi se va compara cu clasa de flexionare. Dincolo de aceasta, grație structurii intrărilor dicționarului s-a reușit de stabilit lista de alternanțe vocalice și fonetice pentru fiecare afix în parte. Dicționarul mai este util și pentru extragerea familiilor lexicale pentru rădăcini concrete. Totuși rămîne de menționat caracterul incert al afixelor. În cazul cercetărilor s-au evidențiat mai multe momente de incertitudine: nu xistă un marcator de prezență a afixelor, nu este clar care cuvinte derivate vor fi valide, există afixe care pot fi și prefixe și sufixe și mai mult rădăcini (de exemplu: anistoric, american, anișor). Astfel, tehnologiile limbajului natural reprezintă instrumente esenţiale pentru valorificarea şi îmbogăţirea vocabularului unei limbi ca ea să fie folosită în sistemele informatice.

Cuvinte-cheie
derivarea automată, afix, incertitudinea afixelor, dicționar electronic

DataCite XML Export

<?xml version='1.0' encoding='utf-8'?>
<resource xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xmlns='http://datacite.org/schema/kernel-3' xsi:schemaLocation='http://datacite.org/schema/kernel-3 http://schema.datacite.org/meta/kernel-3/metadata.xsd'>
<creators>
<creator>
<creatorName>Petic, M.V.</creatorName>
<affiliation>Institutul de Matematică şi Informatică al AŞM, Moldova, Republica</affiliation>
</creator>
</creators>
<titles>
<title xml:lang='ro'>Particularitățile afixelor &icirc;n automatizarea procesului de derivare</title>
</titles>
<publisher>Instrumentul Bibliometric National</publisher>
<publicationYear>2009</publicationYear>
<relatedIdentifier relatedIdentifierType='ISBN' relationType='IsPartOf'>978-9975-70-901-9</relatedIdentifier>
<subjects>
<subject>derivarea automată</subject>
<subject>afix</subject>
<subject>incertitudinea afixelor</subject>
<subject>dicționar electronic</subject>
</subjects>
<dates>
<date dateType='Issued'>2009</date>
</dates>
<resourceType resourceTypeGeneral='Text'>Conference Paper</resourceType>
<descriptions>
<description xml:lang='ro' descriptionType='Abstract'><p>Resursele lingvistice s&icirc;nt importante la construcţia sistemelor de prelucrare a limbajului natural. Una din sarcinile de bază ale resurselor este &icirc;mbogățirea continuă a lor. Printre primele metodele de &icirc;mbogăţire a vocabularului a fost generarea automată a flexiunilor. Cea mai cunoscută abordare a flexionării automate este cea a lui Kimmo Koskeniemi, &icirc;n modelul propriu morfologia pe două niveluri. Prima &icirc;ncercare de acoperire a morfologiei flexionare pentru limba rom&acirc;nă a fost modelarea FAVR &icirc;n mediul Mac-ELU. Alte abordări ale flexionării automate pot fi găsite &icirc;n lucrările lui Dan Cristea, Svetlana Cojocaru. Pornind de la abordarea generării automate a flexiunilor s-a &icirc;ncercat de a soluționa problema derivării automate. Totuși derivarea cu afixe, care este o altă metodă de &icirc;mbogățire a vocabularului, nu este, &icirc;n comparație cu flexionarea, obligator și complet productivă [1]. &Icirc;n scopul stabilirii unor caracteristici cantitative ale unor afixe lexicale, extragerii cuvintelor derivate cu prefixe şi sufixe c&icirc;t şi generării cuvintelor noi cu ajutorul regulilor de derivare s-a elaborat un complex de module &icirc;n limbajul C &icirc;n mediul de programare KDevelop &icirc;n sistemul de operare Linux OpenSuse 10.3. [2]. Cu toate că cuvintele derivate trec o etapă de validare, totuși nu este posibil cu certitudine de afirmat care este procedura care validează cel mai bine cuvintele derivate generate automat. &Icirc;n lumina faptului că este imposibilă stabilirea corectă a validității cuvintelor cu ajutorul mijloacele Internetului, este important efortul de a elabora un dictionar de derivate [3], care permite stabilirea morfemelor derivatelor cu tipul lor (prefix, rădăcină sau sufix). Dicționarul de derivate electronic constă din peste 15.300 cuvinte derivate, 42 prefixe, 433 sufixe și p&icirc;na la 8000 rădăcini. Pentru stabilirea claselor de derivare s-au elaborat algoritmi care vor extrage derivatele separat pentru fiecare afix, apoi se va compara cu clasa de flexionare. Dincolo de aceasta, grație structurii intrărilor dicționarului s-a reușit de stabilit lista de alternanțe vocalice și fonetice pentru fiecare afix &icirc;n parte. Dicționarul mai este util și pentru extragerea familiilor lexicale pentru rădăcini concrete. Totuși răm&icirc;ne de menționat caracterul incert al afixelor. &Icirc;n cazul cercetărilor s-au evidențiat mai multe momente de incertitudine: nu xistă un marcator de prezență a afixelor, nu este clar care cuvinte derivate vor fi valide, există afixe care pot fi și prefixe și sufixe și mai mult rădăcini (de exemplu: anistoric, american, anișor). Astfel, tehnologiile limbajului natural reprezintă instrumente esenţiale pentru valorificarea şi &icirc;mbogăţirea vocabularului unei limbi ca ea să fie folosită &icirc;n sistemele informatice.</p></description>
</descriptions>
<formats>
<format>application/pdf</format>
</formats>
</resource>