Clasele de marcheri de definiţii pentru analiza semantică a intrărilor DLRLC

Burca Eugenia

Articolul precedent

Articolul urmator

316

SM ISO690:2012

BURCA, Eugenia. Clasele de marcheri de definiţii pentru analiza semantică a intrărilor DLRLC. In: International Conference of Young Researchers , Ed. 8, 11-12 noiembrie 2010, Chişinău. Chişinău: Tipogr. Simbol-NP SRL, 2010, Ediția 8, p. 84. ISBN 978-9975-9898-4-8..

EXPORT metadate:
Google Scholar
Crossref
CERIF

DataCite
Dublin Core

International Conference of Young Researchers
Ediția 8, 2010

Conferința "International Conference of Young Researchers "
8, Chişinău, Moldova, 11-12 noiembrie 2010

Clasele de marcheri de definiţii pentru analiza semantică a intrărilor DLRLC

Pag. 84-84

Burca Eugenia¹²

¹ Universitatea Agrară de Stat din Moldova,
² Institutul de Matematică şi Informatică al AŞM

Disponibil în IBN: 5 mai 2021

Descarcă PDF

Rezumat

În lucrarea de faţă a fost utilizată metoda de parsare bazată pe configuraţii SCD (Segmentare-Coeziune-Depentenţă) [1] pentru transformarea eficientă a intrărilor (ce conţin text neprelucrat) din Dicţionarul Limbii Ruse Literare Contemporane (DLRLC) în 20 volume [2] într-o resursă lingvistică indexabilă. Strategia care stă la baza acestei metode reuneşte două configuraţii diferite de parsare: una, care identifică şi extrage pentru fiecare intrare de dicţionar arborele de sensuri principale şi secundare şi altă configuraţie, care parsează fiecare nod din arborele de sensuri cu scopul de a clasifica definiţiile din dicţionar, ce descriu sensuri principale şi secundare. Un marcher reprezintă o graniţă pentru o categorie lingvistică specifică. Recunoaşterea marcherilor şi construirea arborelui de sensuri a unei intrări din DLRLC a fost realizată în lucrarea [3]. Clasele de marcheri folosite pentru identificarea arborelui de sensuri pentru sensuri principale sînt: cifrele romane (I., II., III.,...etc.), cifrele arabe urmate de punct (1., 2.,3.,... etc.), două bare oblice (//). Pentru sensuri secundare se utilizează: rombul gol („◊”), traversa („═‖), tilda („~‖), enumerarea literală - de tip litere chirilice, după care urmează paranteza rotundă ( а), б), в),...etc.). În urma analizei conţinutului semantic al sensurilor pentru intrările din DLRLC s-a depistat următorul set specific de clase de marcheri de definiţie: MorfDefs-definiţii morfologice; RegDefs- definiţii scrise cu font regular; BoldDefs- definiţii scrise cu bold; ItalDefs- definiţii scrise cu italic; SpecDefs- definiţii ce conţin specificaţii; SpSpecDefs- definiţii scrise cu litere spaţiate, ce conţin anumite specificaţii; DefExems- exemple la definiţii, cu scopul de a întregi sensul unei definiţii. Aceşti marcheri de definiţie coincid întru-totul cu marcherii definiţiilor propuşi pentru Dicţionarul Tezaur al Limbii Române[1].

Cuvinte-cheie
marcheri de sens şi de definiţii, resurse lingvistice, parsare, intrare de dicţionar, arbore de sensuri.

Cerif XML Export

<?xml version='1.0' encoding='utf-8'?>
<CERIF xmlns='urn:xmlns:org:eurocris:cerif-1.5-1' xsi:schemaLocation='urn:xmlns:org:eurocris:cerif-1.5-1 http://www.eurocris.org/Uploads/Web%20pages/CERIF-1.5/CERIF_1.5_1.xsd' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' release='1.5' date='2012-10-07' sourceDatabase='Output Profile'>
<cfResPubl>
<cfResPublId>ibn-ResPubl-128933</cfResPublId>
<cfResPublDate>2010</cfResPublDate>
<cfVol>Ediția 8</cfVol>
<cfStartPage>84</cfStartPage>
<cfISBN>978-9975-9898-4-8.</cfISBN>
<cfURI>https://ibn.idsi.md/ro/vizualizare_articol/128933</cfURI>
<cfTitle cfLangCode='RO' cfTrans='o'>Clasele de marcheri de definiţii pentru analiza semantică a intrărilor DLRLC</cfTitle>
<cfKeyw cfLangCode='RO' cfTrans='o'>marcheri de sens şi de definiţii; resurse lingvistice; parsare; intrare de dicţionar; arbore de sensuri.</cfKeyw>
<cfAbstr cfLangCode='RO' cfTrans='o'><p>&Icirc;n lucrarea de faţă a fost utilizată metoda de parsare bazată pe configuraţii SCD (Segmentare-Coeziune-Depentenţă) [1] pentru transformarea eficientă a intrărilor (ce conţin text neprelucrat) din Dicţionarul Limbii Ruse Literare Contemporane (DLRLC) &icirc;n 20 volume [2] &icirc;ntr-o resursă lingvistică indexabilă. Strategia care stă la baza acestei metode reuneşte două configuraţii diferite de parsare: una, care identifică şi extrage pentru fiecare intrare de dicţionar arborele de sensuri principale şi secundare şi altă configuraţie, care parsează fiecare nod din arborele de sensuri cu scopul de a clasifica definiţiile din dicţionar, ce descriu sensuri principale şi secundare. Un marcher reprezintă o graniţă pentru o categorie lingvistică specifică. Recunoaşterea marcherilor şi construirea arborelui de sensuri a unei intrări din DLRLC a fost realizată &icirc;n lucrarea [3]. Clasele de marcheri folosite pentru identificarea arborelui de sensuri pentru sensuri principale s&icirc;nt: cifrele romane (I., II., III.,...etc.), cifrele arabe urmate de punct (1., 2.,3.,... etc.), două bare oblice (//). Pentru sensuri secundare se utilizează: rombul gol (&bdquo;&loz;&rdquo;), traversa (&bdquo;═‖), tilda (&bdquo;~‖), enumerarea literală - de tip litere chirilice, după care urmează paranteza rotundă ( а), б), в),...etc.). &Icirc;n urma analizei conţinutului semantic al sensurilor pentru intrările din DLRLC s-a depistat următorul set specific de clase de marcheri de definiţie: MorfDefs-definiţii morfologice; RegDefs- definiţii scrise cu font regular; BoldDefs- definiţii scrise cu bold; ItalDefs- definiţii scrise cu italic; SpecDefs- definiţii ce conţin specificaţii; SpSpecDefs- definiţii scrise cu litere spaţiate, ce conţin anumite specificaţii; DefExems- exemple la definiţii, cu scopul de a &icirc;ntregi sensul unei definiţii. Aceşti marcheri de definiţie coincid &icirc;ntru-totul cu marcherii definiţiilor propuşi pentru Dicţionarul Tezaur al Limbii Rom&acirc;ne[1].</p></cfAbstr>
<cfResPubl_Class>
<cfClassId>eda2d9e9-34c5-11e1-b86c-0800200c9a66</cfClassId>
<cfClassSchemeId>759af938-34ae-11e1-b86c-0800200c9a66</cfClassSchemeId>
<cfStartDate>2010T24:00:00</cfStartDate>
</cfResPubl_Class>
<cfResPubl_Class>
<cfClassId>e601872f-4b7e-4d88-929f-7df027b226c9</cfClassId>
<cfClassSchemeId>40e90e2f-446d-460a-98e5-5dce57550c48</cfClassSchemeId>
<cfStartDate>2010T24:00:00</cfStartDate>
</cfResPubl_Class>
<cfPers_ResPubl>
<cfPersId>ibn-person-18029</cfPersId>
<cfClassId>49815870-1cfe-11e1-8bc2-0800200c9a66</cfClassId>
<cfClassSchemeId>b7135ad0-1d00-11e1-8bc2-0800200c9a66</cfClassSchemeId>
<cfStartDate>2010T24:00:00</cfStartDate>
</cfPers_ResPubl>
</cfResPubl>
<cfPers>
<cfPersId>ibn-Pers-18029</cfPersId>
<cfPersName_Pers>
<cfPersNameId>ibn-PersName-18029-2</cfPersNameId>
<cfClassId>55f90543-d631-42eb-8d47-d8d9266cbb26</cfClassId>
<cfClassSchemeId>7375609d-cfa6-45ce-a803-75de69abe21f</cfClassSchemeId>
<cfStartDate>2010T24:00:00</cfStartDate>
<cfFamilyNames>Burca</cfFamilyNames>
<cfFirstNames>Eugenia</cfFirstNames>
</cfPersName_Pers>
</cfPers>
</CERIF>