Tehnologie de revitalizare a patrimoniului tipărit românesc
Close
Articolul precedent
Articolul urmator
608 13
Ultima descărcare din IBN:
2022-06-27 13:44
Căutarea după subiecte
similare conform CZU
008:09:004.8 (1)
Civilization. Culture. Progress (818)
Manuscripts. Rare and remarkable works (115)
Artificial intelligence (303)
SM ISO690:2012
COJOCARU, Svetlana, COLESNICOV, Alexandru, MALAHOV, Ludmila, BUMBU, Tudor. Tehnologie de revitalizare a patrimoniului tipărit românesc. In: Patrimoniul cultural de ieri – implicații in dezvoltarea societatii durabile de maine: dedicată zilelor europene ale patrimoniului, Ed. 1, 23-24 septembrie 2019, Chişinău. Chișinău, Republica Moldova: Biblioteca Naţională a Republicii Moldova, 2019, Ediția 1, pp. 34-35. ISBN 978-9975-3290-4-0.
EXPORT metadate:
Google Scholar
Crossref
CERIF

DataCite
Dublin Core
Patrimoniul cultural de ieri – implicații in dezvoltarea societatii durabile de maine
Ediția 1, 2019
Conferința "Patrimoniul cultural de ieri – implicații în dezvoltarea societății durabile de mâine"
1, Chişinău, Moldova, 23-24 septembrie 2019

Tehnologie de revitalizare a patrimoniului tipărit românesc

CZU: 008:09:004.8

Pag. 34-35

Cojocaru Svetlana12, Colesnicov Alexandru1, Malahov Ludmila1, Bumbu Tudor1
 
1 Institutul de Matematică şi Informatică "Vladimir Andrunachievici",
2 Academia de Ştiinţe a Moldovei
 
 
Disponibil în IBN: 26 februarie 2020


Rezumat

Cercetarea noastră se referă la revitalizarea textelor românești tipărite cu utilizarea caracterelor chirilice din secolele XVii–XX. Tehnologia elaborată se bazează pe un instrumentar, care permite automatizarea proceselor de recunoaștere optică a caracterelor (OCR) cu obținerea unui format editabil în caractere proprii epocii respective, transliterarea textelor în grafie latină modernă și, în anumite cazuri, actualizarea ortografierii și a vocabularului. instrumentarul a fost testat pe mai mult de 20 de documente (cărți și articole) din diferite domenii începând cu 1648 (cele patru Evanghelii, 214.800 de cuvinte) și terminând cu anul 1989. A fost elaborat un ansamblu de module care include: alfabete istorice, seturi de modele de recunoaștere, dicționare ortografice, tastaturi virtuale, fonturi și utilități de transliterare. Aplicarea instrumentarului a permis procesarea textelor românești vechi  tipărite cu caractere chirilice asigurând cu o precizie de mai puțin de 5% cuvinte eronate. utilitatea de transliterare elaborată de autori efectuează transformarea textelor românești din scrierile  chirilice din diferite perioade în cea latină modernă și invers. Transliterarea este relativ simplă pentru perioadele anterioare anului 1862. Statisticile pentru procesarea unui text românesc din secolul al XViii-lea din domeniul geografiei arată că din totalul de 8020 de cuvinte, 756 (9,4%) au o ortografiere diferită de cea modernă. Erori OCR: 115 (sub 2%), erori de transliterare: 54 (0,7%). În 301 (3,6%) de cuvinte se atestă o diferența de scriere într-un singur cuvânt sau separat. Alfabetul chirilic moldovenesc din secolul XX prezintă un caz mai dificil pentru transliterare datorită utilizării unui alfabet impropriu limbii. Setul de reguli de transliterare pentru această perioadă îmbină atât abordări statistice, cât și euristice și necesită un dicționar de excepții destul de voluminos. De exemplu, la republicarea în anul 2017 cu utilizarea instrumentarului menționat a cărții lui Vladimir Andrunachievici „Numere și ideale” (1979) în grafie latină modernă (vocabularul matematic fiind unul destul de conservativ) au fost adăugate 160 de cuvinte (6,4%) în calitate de excepții de transliterare din totalul de 2.500 de cuvinte diferite.