-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Extrakcia doplňujúcich informácií z ALTO formátu využíteľných v TEI #5
Comments
Dobrý den, @daliboris a @stranak, prosíme o Vaše vyjádření. |
Ohledně odstavců i toho, jak případně pouštět zpracování v TEI XML souboru jsem se vyjádřil v LIBCAS/DL4DH#9 a víc k tomu asi nemám. Na schůzce jsem řekl nikoliv to, že najít odstavce by bylo příliš náročné. Naopak, to bychom myslím udělat měli, nebo aspoň vzít odstavce, co už našel ABBYY OCR server. Co by bylo zajímavé, ale je podle mě příliš náročné, je celkově analyzovat objekty na stránkách a spojovat je do logických celků, článků ve více sloupcích s nadpisem, obrázky, které mají popisky, pokračují na jiných stranách, na konci mají podpis, apod. |
Beta verzeProblematika je komplexní, postupně ji analyzuju, na základě konkrétních příkladů. Ukazuje se, že výstupy v ALTO jsou proměnlivé (např. identifikace sloupců). Berte zatím uváděné příklady jako nefinální (zejména pokud jde o grafiku), dokud to neotestuju na několika publikacích. Finální řešení budu ověřovat úpravami transformace v XProc. OdstavceIdentifikaceZ mých zkušeností/analýz vyplývá
Zdá, že že v pojetí ALTO znamená Z toho mi vyplývá, že budeme muset rekonstruovat rozdělení na odstavce na základě formátu ALTO, jak už jsem naznačil zde. StylyDůležité upozornění: výstupy z projektu PERO informace o stylech vůbec neobsahují. IdentifikaceALTO definuje styly pro odstavce pomocí elementu Fonty (písmo, velikost) se definuje pomocí elementu Na tyto styly (jejich Další vlastnisti písma se identifikují pomocí atributu Pravděpodobně znáte výstupy OCR do formátovaného textu, které jsou hodně podrobné (a chybné), např. několik velikostí písma (byť v orginálu jsou jenom dvě), prostrkání písmen (byť v originálu žádné není), chybné použití kurzívy ap. Tento nesoulad mezi originálem a výsledkem OCR mě vždycky iritoval, protože komplikoval převod na bezproblémovou digitální verzi, a doufám, že se tomu v DL4DH vyhneme. Ale samozřejmě chápu i druhý pohled: pokud budeme mít tato data, můžeme je analyzovat a navrhnout lepší řešení. Napadá mě jedno řešení: když si uživatel bude vybírat, co vše bude v exportovaném TEI, měl by možnost ne/exportovat údaje o formátování. Styly v TEIFormát ALTO rozlišuje styly na úrovni odstavců a znaků. V TEI se pro to používají atributy Doporučuju použít poslední způsob, tj. v hlavičce definovat styly a v samotném textu používat atribut Při definici stylů (jejich vlastností) je možné vycházet z existujícíh standardů. Doporučuju využívat možností standardu CSS. ImplementaceOdhaduju, že pro převod stylů z ALTO do TEI bude potřeba:
Další grafické prvkySloupceUkázka textu rozděleného do více sloupců viz např. Ottův slovník naučný a odpovídající ALTO. Jiná strana z téhož slovníku s odlišným výstupem v ALTO ALTOV jednom případě jsou sloupce naznačeny pomocí elementu V druhém případě element V obou případech se na samostatné sloupce dá usoudit z toho, že šířka obou elementů <PrintSpace HEIGHT="2408" WIDTH="1503" VPOS="158" HPOS="196">
<TextBlock ID="Page1_Block3" HEIGHT="2320" WIDTH="739" VPOS="245" HPOS="196">
<TextBlock ID="Page1_Block4" HEIGHT="2317" WIDTH="753" VPOS="249" HPOS="946"> TEIPro zachycení začátku sloupce se v TEI používá prázdný element ImplementaceV případě použití elementu Pokud element Záhlaví a zápatíALTOText v záhlaví se uvádí v rámci elementu TEIPro zápatí a záhlaví se v TEI používá element Implementace
Grafické prvkyALTOVe standardu ALTO se používají elementy TEIPro obrázky (s popiskem) se používá element ImplementacePro element Pro element |
Z dosavadní analýzy mi vyplynulo několik otázek:
Mohli by mi prosím kolegové z knihoven odpovědět? |
Ještě jsem se díval na již několikrát zmiňovaný nástroj |
@daliboris Prosíme o finalizáciu Vašej analýzy, ku ktorej by sme spravili schôdzu a mohli sa baviť o konkrétnych bodoch z nej, ktoré by Kramerius+ a TEI Converter podporovali. Následne by sme toto issue uzavreli, pokiaľ nepridá ďalšie požiadavky na rozšírenie TEI formátu o iné infromácie z ALTO formátu. |
@daliboris pripomíname sa so špecifikovaním, aké údaje z ALTO zakomponovať do akých TEI tagov/atribútov. |
Vyřešil jsem to zatím ukázkou konverze z ALTO do TEI. Připojuju rovněž XSLT transformaci, kterou jsem upravil z tohoto zdroje: https://github.com/INL/OpenConvert/blob/master/resources/xsl/alto2tei.xsl. |
Podľa dohody z 28. 7. 2021 bude využívaný formát ALTO na extrakciu plaintextu (ktorý sa ďalej spracováva nástrojmi NameTag a UDPipe) namiesto služby
https://kramerius.mzk.cz/search/api/v5.0/item/<uuid>/streams/TEXT_OCR
. Hlavným dôvodom je možnosť vytiahnutia doplňujúcich informácií ku textu z ALTO formátu, ktoré sa využijú pri generovaní TEI dokumentu.Prosíme o špecifikáciu, aké údaje je možné z ALTO vytiahnuť, ktoré je možné zahrnúť v TEI formáte (@stranak @daliboris ) a boli by pre projekt/bádateľov užitočné. Najväčší prínos bol spomenutý v spracovaní informácií o odstavci. Táto informácia sa ale v ALTO formáte nenachádza priamo a musela by sa spočítavať dodatočne. Výpočet bol označený za mierne komplikovaný, vhodný na samostatný projekt. Cieľom tohto issue je spísanie priamo dostupných informácií/ľahko spracovateľných z ALTO formátu prenositeľných do TEI formátu.
Zároveň prosíme p. @stranak o spísanie argumentov pre použitie ALTO formátu, ktoré zazneli z našej strany na stretnutí.
The text was updated successfully, but these errors were encountered: