HEDY – platformă deschisă pentru digitizarea documentelor tipărite
Închide
Articolul precedent
Articolul urmator
91 0
SM ISO690:2012
COJOCARU, Svetlana, BUMBU, Tudor, BURŢEVA, Liudmila, COLESNICOV, Alexandru, MALAHOV, Ludmila. HEDY – platformă deschisă pentru digitizarea documentelor tipărite. In: Patrimoniul cultural de ieri – implicaţii în dezvoltarea societăţii durabile de mâine, Ed. 8, 8-9 februarie 2024, Chişinău. Iași – Chișinău-Lviv: 2024, Ediția 9, pp. 127-129. ISSN 2558 – 894X.
EXPORT metadate:
Google Scholar
Crossref
CERIF

DataCite
Dublin Core
Patrimoniul cultural de ieri – implicaţii în dezvoltarea societăţii durabile de mâine
Ediția 9, 2024
Conferința "Yesterday’s cultural heritage – contribution to the development of tomorrow’s sustainable society"
8, Chişinău, Moldova, 8-9 februarie 2024

HEDY – platformă deschisă pentru digitizarea documentelor tipărite

HEDY – an open platform for digitisation of printed documents


Pag. 127-129

Cojocaru Svetlana1, Bumbu Tudor2, Burţeva Liudmila2, Colesnicov Alexandru2, Malahov Ludmila2
 
1 Academia de Ştiinţe a Moldovei,
2 Институт математики и информатики им. Владимира Андрунакиевича, ГУМ
 
 
Disponibil în IBN: 8 mai 2024


Rezumat

Evoluțiile recente ale tehnologiilor digitale, în special în domeniul inteligenței artificiale, care înregistrează progrese uimitoare, accentuează necesitatea de automatizare a proceselor de digitizare a textelor – „materiei prime” care contribuie la crearea resurselor necesare pentru dezvoltarea modelelor lingvistice mari. Volumul arhivelor de documente scanate crește dramatic ca urmare a proiectelor privind conservarea patrimoniului cultural. Sistemele cunoscute de procesare a documentelor nu sunt întotdeauna capabile să afișeze corect conținutul acestora din cauza prezenței unor componente eterogene. Platforma HeDy vine cu soluții pentru a maximiza suportul tuturor etapelor de recunoaștere a documentelor eterogene (preprocesarea imaginilor, recunoașterea optică a caracterelor, fragmentarea documentului în porțiuni eterogene, transliterarea din alfabete chirilice în alfabetul latin modern pentru textele de limbă română etc). Prin utilizarea tehnologiei convergente, în cadrul platformei sunt îmbinate module software existente cu cele elaborate de către autori. Documentele procesate pot conține texte contemporane și vechi (inclusiv tipărite în limba română cu caractere chirilice în secolele XVII–XX, pentru cele din secolul al XVII-lea fiind dezvoltată și o aplicație de clasificare a fonturilor bazată pe rețele neurale), formule matematice și chimice, partituri muzicale, diagrame etc. Toate etapele de procesare se caracterizează printr-o precizie destul de bună: 95-96% pentru OCR, 98% pentru clasificarea fonturilor și 96% pentru transliterare. Platforma Web este un instrument cu acces deschis, care poate fi utilizat de către cercetători din diverse domenii, biblioteci, arhive, edituri. Un exemplu de aplicare a tehnologiei propuse îl constituie reeditarea unor cărți, în particular, în cadrul proiectului „Romanul din stânga Prutului”. Un alt exemplu este cel de actualizare a textelor dialectale tipărite cu semnele fonetice chirilice în anii 1970–1980 fără respectarea standardelor internaționale. Pentru procesarea acestor tipărituri au fost elaborate modele de recunoaștere a textelor respective și transliterarea lor utilizând Alfabetului Fonetic Internațional.