Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ALTO verzia 4.2 #158

Open
FilipPavcik opened this issue Sep 20, 2021 · 7 comments
Open

ALTO verzia 4.2 #158

FilipPavcik opened this issue Sep 20, 2021 · 7 comments

Comments

@FilipPavcik
Copy link
Collaborator

V súvislosti s aktualizáciou Štandardu pre digitalizáciu monografií pripravujeme aj možnú aktualizáciu formátu ALTO zo staršej verzie 2.0 na najnovšiu verziu 4.2. Domnievame sa, že prechod na najnovšiu verziu formátu ALTO bude možný bez výraznejších zásahov do štandardu. Zmeny sa podľa nášho názoru budú týkať iba troch v našom DMF aktuálne využívaných elementov, ostatné elementy a atribúty by ostali nezmenené.

Ak by ste mali k doterajšiemu používaniu formátu ALTO akékoľvek návrhy alebo pripomienky, prosíme vás, aby ste sa k nim vyjadrili. Hlavne by sme však uvítali informáciu, či vami používané nástroje pro OCR podporujú aktuálnu verziu 4.2.

Diskusiu o formáte ALTO potom plánujeme otvoriť aj na jednaní pracovnej skupiny pre textové dokumenty.

Filip Pavčík
Oddělení pro standardy

@zabak
Copy link
Collaborator

zabak commented Sep 20, 2021

  • Prosím o informaci, jakou verzi ALTO formátu podporuje ABBYY Recognition Server ve verzi, která bude nasazena v lince NDK po jejím spuštění. Pokud by byla verze ALTO volitelná ("2.0 nebo vyšší"), tak to nebude vadit rád bych ale předešel tomu, že bude platná verze standardu, kterou nebudeme sami schopni dodržet.
  • Verzi ALTO je třeba držet stejnou pro všechny typy dokumentů, protože procházejí stejnou digitalizační linkou a nechceme aby nastala situace, kdy třeba u monografií bude možná dělat ALTO 4.2 a u periodik ne.
  • Další věc, kterou by bylo dobré vyřešit je problém ilustrací a grafických elementů. Zatím vím o dvou různých interpretacích:
  1. Sirius generoval v roce 2017 pomocí ABBYY FineReader 8.0.1.1643 toto:
    https://kramerius.mzk.cz/search/api/v5.0/item/uuid:69cde3a5-6d76-11e9-b613-001b63bd97ba/streams/ALTO
    což obsahuje specifikaci obrázku například:
<ComposedBlock ID="ComposedBlock0" HEIGHT="786" WIDTH="2044" HPOS="2318" VPOS="294" TYPE="illustration">
<GraphicalElement ID="GraphicalElement0" HEIGHT="786" WIDTH="2044" HPOS="2318" VPOS="294"/>
</ComposedBlock>

Pokud to převedeme na IIIF Image API, tak je to tento výřez:
https://kramerius.mzk.cz/search/iiif/uuid:69cde3a5-6d76-11e9-b613-001b63bd97ba/1294,1540,2004,1228/full/0/default.jpg

  1. Recognition Server 4.0 generuje toto: https://kramerius.mzk.cz/search/api/v5.0/item/uuid:00dcafe0-7b00-4d9b-b39b-53a01287ec79/streams/ALTO
    <Illustration ID="Page1_Block4" HEIGHT="636" WIDTH="773" VPOS="557" HPOS="359"/>
    a GraphicalElement používá jen pro různé dělicí čáry apod.

Osobně se mi líbí víc ta druhá varianta.

Navíc upozorňuji na ceskaexpedice/kramerius-web-client#385 kde se řeší i návaznost na METS.

@Drahotussky
Copy link

Zdravím,
my používáme FineReader Server 14 a máme v nabídce ALTO jen verzi 4.1 a nižší.

@isenkyr
Copy link

isenkyr commented Sep 21, 2021

Dobrý den,

dovolím si reagovat. Jedna věc je jaké alto generuje OCR nástroj a druhá věc je jaké alto definuje standard. Ve standardu pro Periodika 1.8 na straně 91 je popsáno viz obr.
obrazek
Sirius dodržuje standard a proto je illustration zabalen do ComposedBlock.

@svetlym
Copy link

svetlym commented Oct 7, 2021

Dobrý den,

v Městské knihovně v Praze používáme ABBYY Recognition Server 4 a podle všeho umí generovat jen ALTO XML verze 2.0.

@luckajirku
Copy link

v SVK HK máme ABBYY Recognition Server 3.5 a 4, takže taky ALTO 2.0.

@kerschfilip
Copy link

v KNAV používáme Limb s Abbyy FineReader Engine, verzi 11. V nastavení máme jako nejvyšší verzi 4.0. Nová verze limbu je v testovací fázi a dle informací tam je stále alto v4.0.

@vjirousek
Copy link

Dobrý den, děkujeme všem za zpětnou vazbu. Vzhledem k tomu, že nejen společná digitalizační linka NK a MZK ale i řada dalších provozů je závislá na nástrojích, které neumožňují vytvářet OCR dle zvažované nejnovější verza ALTO XML, nebude v aktuálně připravovaných aktualizacích standardů pro tištěné dokumenty verze ALTO XML navyšována. Do budoucna připravíme návrh úpravy DMF, která by umožnila využít novější verzi ALTO XML na bázi dobrovolnosti.

Václav Jiroušek, Oddělení standardů NK ČR

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

9 participants