Generator semi-automat de fişiere de antrenament pentru Conditional Random Fields, cu etichetare morfologică pentru limba rom&acirc;nă

Slăvescu Radu Răzvan; Buian Marcel; Groza Adrian; Bărbănţan Ioana

Articolul precedent

Articolul urmator

416

SM ISO690:2012

SLĂVESCU, Radu Răzvan, BUIAN, Marcel, GROZA, Adrian, BĂRBĂNŢAN, Ioana. Generator semi-automat de fişiere de antrenament pentru Conditional Random Fields, cu etichetare morfologică pentru limba română. In: Microelectronics and Computer Science: The 5th International Conference, Ed. 8, 22-25 octombrie 2014, Chisinau. Chișinău, Republica Moldova: Universitatea Tehnică a Moldovei, 2014, Ediția 8, pp. 472-475. ISBN 978-9975-45-329-5..

EXPORT metadate:
Google Scholar
Crossref
CERIF

DataCite
Dublin Core

Microelectronics and Computer Science
Ediția 8, 2014

Conferința "Microelectronics and Computer Science"
8, Chisinau, Moldova, 22-25 octombrie 2014

Generator semi-automat de fişiere de antrenament pentru Conditional Random Fields, cu etichetare morfologică pentru limba română

Pag. 472-475

Slăvescu Radu Răzvan¹, Buian Marcel¹, Groza Adrian¹, Bărbănţan Ioana ²

¹ Universitatea Tehnica din Cluj-Napoca,
² Recognos Romania SRL

Disponibil în IBN: 23 aprilie 2019

Descarcă PDF

Rezumat

Se prezintă un sistem care să asiste generarea unui fişier de intrare pentru implementarea CRF++ a modelului Conditional Random Fields. CRF++ are nevoie de un astfel de fişier pentru a construi un model care să permită detectarea opiniilor şi a aspectelor de interes pentru utilizatorii dintr-un anumit domeniu. Generatorul este implementat sub forma unui editor intuitiv şi flexibil, capabil să ofere mai multe facilităţi avansate. Astfel, se oferă posibilitatea de etichetare morfologică pentru limba română cu un nivel de precizie ridicat, chiar şi în cazul scrierii fără diacritice, prin dezvoltarea unei implementări Hidden Markov Model existente. De asemenea, este posibilă etichetarea automată a unor coloane, pe baza importului datelor din fişiere. Se permite clonarea propoziţiilor pe bază de sinonime, ceea ce permite mărirea rapidă a setului de date de antrenament pentru CRF++. Se demonstrează calitatea soluţiei prin măsurători cantitative de acurateţe şi prin prezentarea unor exemple ilustrative de rezultate.

Cuvinte-cheie
Conditional Random Fields, feature detection, Hidden Markov Model, opinion mining, Part-of-Speech Tagging for Romanian