Platform for processing heterogeneous documents
Închide
Articolul precedent
Articolul urmator
627 2
Ultima descărcare din IBN:
2021-04-15 13:32
Căutarea după subiecte
similare conform CZU
004.912 (18)
Informatică aplicată. Tehnici bazate pe calculator cu aplicații practice (438)
SM ISO690:2012
BURTSEVA, Lyudmila, COJOCARU, Svetlana, MALAHOV, Ludmila, COLESNICOV, Alexandru. Platform for processing heterogeneous documents. In: Patrimoniul cultural de ieri – implicații în dezvoltarea societății durabile de mâine, Ed. 3, 11-12 februarie 2021, Chişinău. Chișinău, Republica Moldova: 2021, Ediția 3, pp. 46-47. ISSN 2558 – 894X.
EXPORT metadate:
Google Scholar
Crossref
CERIF

DataCite
Dublin Core
Patrimoniul cultural de ieri – implicații în dezvoltarea societății durabile de mâine
Ediția 3, 2021
Conferința "Yesterday’s heritage – implications for the development of tomorrow’s sustainable society"
3, Chişinău, Moldova, 11-12 februarie 2021

Platform for processing heterogeneous documents

Platformă pentru procesarea documentelor eterogene

CZU: 004.912

Pag. 46-47

Burtseva Lyudmila1, Cojocaru Svetlana1, Malahov Ludmila2, Colesnicov Alexandru2
 
1 Academy of Sciences of Moldova,
2 Vladimir Andrunachievici Institute of Mathematics and Computer Science
 
Proiecte:
 
Disponibil în IBN: 2 martie 2021


Rezumat

Most documents (historical or contemporary, handwritten or printed) have a heterogeneous character because, along with the text itself, they also contain other elements: mathematical and chemical formulas, musical scores, diagrams, images, etc. In our research, we will operate with documents the non-textual components of which permits their digital representation in one or more scripting languages. Given the fact that a complete automation of the processing of heterogeneous documents is difficult or maybe even impossible to perform, we aim to create a platform that would combine automatic, semi-automatic and manual processing modules. Thus, we can automatically perform scanning, recognizing document segments according to their type, assembling presentations in scripting language with metadata integration, reconstructing the page image based on the script, checking within certain limits. In a semi-automated way, the image quality will be improved, the page layout will be analyzed, tasks will be distributed for manual verification. For cases where automated or semi-automated verification procedures could not be applied, it will be operated manually, the platform providing some support for this mode as well. The architecture of the platform proposed in the paper is aimed at maximizing the support of the mentioned steps by creating the “single window” for access to all processing tools and by reducing manual operations. * Acknowledgement. This paper was written as part of the re-search project 20.80009.5007.22 „Intelligent information systems forsolving ill-structured problems, processing knowledge and big data”

Majoritatea documentelor (istorice sau contemporane, scrise de mână sau tipărite) au un caracter eterogen, de rând cu textul propriu-zis conținând și elemente de altă natură: formule matematice și chimice, partituri muzicale, scheme, diagrame, imagini etc. În cercetarea noastră vom opera cu documente, pentru componentele non-textuale ale cărora există unul sau mai multe limbaje de scripting ce permit reprezentarea digitală a acestora. Dat fiind faptul că o automatizare completă a procesării documentelor eterogene este dificil sau poate chiar imposibil de efectuat, ne propunem drept scop crearea unei platforme, care ar îmbina module de prelucrare automată, semi-automată și manuală. Astfel, în mod automatizat putem realiza scanarea, recunoașterea segmentelor documentului în funcție de tipul acestora, asamblarea prezentărilor în limbaj de scripting cu integrarea metadatelor, reconstruirea imaginii paginii în baza scriptului, verificarea în anumite limite. În mod semi-automatizat se va efectua îmbunătățirea calității imaginii,analiza aspectului paginii, distribuirea sarcinilor pentru verificarea manuală. Pentru cazurile, când nu au putut fi aplicate proceduri automatizate sau semi-automatizate de verificare, aceasta va fi operată în mod manual, platforma oferind un anumit suport și pentru această modalitate. Arhitectura platformei, propuse în lucrare, este orientată spre maximizarea suportului pașilor menționați prin crearea „ghișeului unic” de acces către toate instrumentele de procesare și prin reducerea operațiilor manuale. * Lucrare realizată în cadrul proiectului 20.80009.5007.22. Sisteme informatice inteligente pentru soluționarea problemelor slab structurate, procesarea cunoștințelor și volumelor mari de date.

Dublin Core Export

<?xml version='1.0' encoding='utf-8'?>
<oai_dc:dc xmlns:dc='http://purl.org/dc/elements/1.1/' xmlns:oai_dc='http://www.openarchives.org/OAI/2.0/oai_dc/' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xsi:schemaLocation='http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd'>
<dc:creator>Burţeva, L.V.</dc:creator>
<dc:creator>Cojocaru, S.C.</dc:creator>
<dc:creator>Malahov, L.A.</dc:creator>
<dc:creator>Colesnicov, A.E.</dc:creator>
<dc:date>2021</dc:date>
<dc:description xml:lang='en'><p>Most documents (historical or contemporary, handwritten or printed) have a heterogeneous character because, along with the text itself, they also contain other elements: mathematical and chemical formulas, musical scores, diagrams, images, etc. In our research, we will operate with documents the non-textual components of which permits their digital representation in one or more scripting languages. Given the fact that a complete automation of the processing of heterogeneous documents is difficult or maybe even impossible to perform, we aim to create a platform that would combine automatic, semi-automatic and manual processing modules. Thus, we can automatically perform scanning, recognizing document segments according to their type, assembling presentations in scripting language with metadata integration, reconstructing the page image based on the script, checking within certain limits. In a semi-automated way, the image quality will be improved, the page layout will be analyzed, tasks will be distributed for manual verification. For cases where automated or semi-automated verification procedures could not be applied, it will be operated manually, the platform providing some support for this mode as well. The architecture of the platform proposed in the paper is aimed at maximizing the support of the mentioned steps by creating the &ldquo;single window&rdquo; for access to all processing tools and by reducing manual operations. * Acknowledgement. This paper was written as part of the re-search project 20.80009.5007.22 &bdquo;Intelligent information systems forsolving ill-structured problems, processing knowledge and big data&rdquo;</p></dc:description>
<dc:description xml:lang='ro'><p>Majoritatea documentelor (istorice sau contemporane, scrise de m&acirc;nă sau tipărite) au un caracter eterogen, de r&acirc;nd cu textul propriu-zis conțin&acirc;nd și elemente de altă natură: formule matematice și chimice, partituri muzicale, scheme, diagrame, imagini etc. &Icirc;n cercetarea noastră vom opera cu documente, pentru componentele non-textuale ale cărora există unul sau mai multe limbaje de scripting ce permit reprezentarea digitală a acestora. Dat fiind faptul că o automatizare completă a procesării documentelor eterogene este dificil sau poate chiar imposibil de efectuat, ne propunem drept scop crearea unei platforme, care ar &icirc;mbina module de prelucrare automată, semi-automată și manuală. Astfel, &icirc;n mod automatizat putem realiza scanarea, recunoașterea segmentelor documentului &icirc;n funcție de tipul acestora, asamblarea prezentărilor &icirc;n limbaj de scripting cu integrarea metadatelor, reconstruirea imaginii paginii &icirc;n baza scriptului, verificarea &icirc;n anumite limite. &Icirc;n mod semi-automatizat se va efectua &icirc;mbunătățirea calității imaginii,analiza aspectului paginii, distribuirea sarcinilor pentru verificarea manuală. Pentru cazurile, c&acirc;nd nu au putut fi aplicate proceduri automatizate sau semi-automatizate de verificare, aceasta va fi operată &icirc;n mod manual, platforma oferind un anumit suport și pentru această modalitate. Arhitectura platformei, propuse &icirc;n lucrare, este orientată spre maximizarea suportului pașilor menționați prin crearea &bdquo;ghișeului unic&rdquo; de acces către toate instrumentele de procesare și prin reducerea operațiilor manuale. * Lucrare realizată &icirc;n cadrul proiectului 20.80009.5007.22. Sisteme informatice inteligente pentru soluționarea problemelor slab structurate, procesarea cunoștințelor și volumelor mari de date.</p></dc:description>
<dc:source>Patrimoniul cultural de ieri – implicații în dezvoltarea societății durabile de mâine (Ediția 3) 46-47</dc:source>
<dc:title>Platform for processing heterogeneous documents</dc:title>
<dc:type>info:eu-repo/semantics/article</dc:type>
</oai_dc:dc>