-
Notifications
You must be signed in to change notification settings - Fork 1
Webová aplikace
Webová aplikace v testovacím provozu je k dispozici na adrese http://plus.nkp.cz.
Uživatel s přidělenými právy kurátora se přihlásí kliknutím na tlačítko Přihlásit se
.
Po zadání přihlašovacího jména a hesla se vrátí zpět na výchozí stránku webové aplikace.
Přihlášený uživatel má k dispozici následující položky ovládací nabídky:
- Domů
- Obohacení
- Nové obohacení
- Žádosti obohacení
- Publikace
- Export
- Žádosti exportu
- [Akce přihlášeného uživatele]
Uživatel se může ohlásit pomocí položky v nabídce s přihlašovacím jménem. Kliknutím na položku Odhlásit
se odhlásí ze systému a nebude moci provádět žádné další úkony kromě přihlášení.
Ukázka URL: https://plus.nkp.cz/enrichment/new
Během obohacovacího procesu se data a metadata dokumentů, které jsou dostupné v propojené instanci Krameria, rozšíří o další údaje, zejména o lemmatizaci a morfologickou analýzu textu, identifikaci pojmenovaných entit a údaje z balíčků NDK (pokud jsou k dispozici) a převede dokument do formátu TEI.
Ke spouštění nového procesu obohacení vyberte z nabídky Obohacení
> Nové obohacení
.
V textovém poli Název žádosti
můžete pojmenovat vytvářenou dávku obohacení (zejména pro více dokumentů) pro její snazší identifikaci při kontrole zpracování.
V textovém poli UUID publikací
zadejte identifikátory obohacovaných dokumentů (např. uuid:3a4ca630-161b-11e8-bdb0-005056827e51
pro knihu NĚMCOVÁ, Božena. Babička: obrazy z venkovského života. Praha: A. Hlavatá, 1914. Dostupné také z: https://www.digitalniknihovna.cz/nkp/uuid/uuid:3a4ca630-161b-11e8-bdb0-005056827e51). Identifikátory můžete přidávat zapsáním PID jednotlivých publikací oddělených čárkou nebo prázdnym znakem (mezera, tabulátor nebo nový řádek).
V poslední části můžete ovlivnit, jaké procesy a s jakými parametry ve fázi obohacování proběhnou:
- Obohacení externími nástroji
- Obohacení NDK
- Obohacení TEI
Konfigurace můžete přidávat, upravovat nebo odeberat. Některé parametry je možné nastavit u všech úloh obohacení. Jedná se o:
- Přepsat existující - Pokud v systému Kramerius+ dokument obohacený daným typem úlohy obohacení již existuje a chcete jej nahradit novější verzí (např. díky lepšímu OCR v systému Kramerius nebo novější verzemi nástrojů UDPipe a NameTag), použijte volbu
Přepsat existující
. - Tolerance chyb v stránkach - Parametr ovlivňující chování úlohy v případe, že dojde k chybě při obohacování. Definuje počet chyb, ktoré úloha toleruje předtím, než se ukončí. Při toleraci chyby se stránka s chybou přeskočí a pokračujě se na další stránku.
Externí nástroje UDPipe 2
a NameTag 2
slouží k tomu, aby se samotný text dokumentu obohatil o podstatné lingvistické údaje, a to lemmatizaci a morfologickou analýzu (UDPipe 2) a identifikaci pojmenovaných entit (NameTag 2), tj. např. jmen osob, institucí, geopolitických celků, časových údajů ap.
Uvedené nástroje vycházejí z textu dokumentu, který je součástí formátu ALTO. Tento formát nemusí být dostupný pro jednotlivé strany (pokud neobsahují žádný text), nebo pro celou publikaci (dokumenty ze starších fází digitalizace, kdy proběhlo OCR, na jehož výstupu byl pouze prostý text). Při chybějícím ALTO formátu vyhazuje úloha Obohacení externími nástroji chybu MISSING_ALTO. Pokud víte, že ALTO formát chybí jenom u některých stránek, nastavte adekvátnou toleranci chyb.
Při obohacení NDK dochází k tomu, že se součástí metadat k publikaci a k jednotlivým stranám stávají vybraná metadata z balíčků NDK. Tento proces proběhne pouze tehdy, pokud je balíček NDK dané publikace umístěn na souborovém úložišti serveru.
Během tohoto procesu se na základě výstupů v předchozích fázích vytváří kompletní dokument ve formátu TEI, který se rozdelí na dílčí části a uloží k jednotlivým digitálním objektům.
Kliknutím na tlačítko Odeslat
vytvoříte novou žádost o obohacení dokumentů a spustíte jeho provádění.
Ukázka URL: https://plus.nkp.cz/enrichment
Kliknutím na Žádosti obohacení
se zobrazí seznam procesů obohacení, které uživatelé s právy kurátora digitální sbírky v systému Kramerius+ zadali. Seznamy probíhajících procesů se zobrazují chronologicky od posledního zadaného. Pomocí filtrování lze vyhledat konkrétní proces podle PID publikace
, která je součástí žádosti, jeho názvu
nebo uživatele
, který požadavek zadal (případně kombinací všech podmínek).
Ukázka URL: https://plus.nkp.cz/enrichment/1d6c7ac5-7c29-4d04-b784-36c77746d571
Po kliknutí na tlačítko Detail
se zobrazí stránka s podrobnými informacemi o žádosti o obohacení. Při vytvoření žádosti se automaticky spouští inicializační úloha, která vytvoří objektovou strukturu žádosti. Detail inicializační úlohy je možné zobrazit kliknutím na stav při Inicializační úloha
v základních informacích žádosti. Žádosti jsou rozdelené na jednotlivé položky dle UUID publikací zadaných na vstupu.
Po kliknutí na položku se zobrazí plán zvolené položky, který obsahuje jednotlivé podpublikace obsažené pod daným dokumentem. Kliknutím na některou publikaci v plánu se zobrazí podrobnosti o úlohách (tj. Obohacení NDK, Obohacení externími nástroji, Obohacení TEI), které daná publikace absolvovala nebo bude absolvovat. Ke každé úloze lze zobrazit detailní informace kliknutím na daný řádek úlohy.
Ukázka URL: https://plus.nkp.cz/jobs/enriching/a319b943-4171-4c63-b167-117370366d5b
U vytvořených úloh se eviduje každé spuštění jako samostatní běh. Kliknutím na jeden z běhů se zobrazí vykonané kroky. Jednotlivé běhy jsou rozděleny na dílčí kroky, u nichž je uveden nejen čas spuštění a dokončení, ale také jeho výsledný stav. Ten může nabývat jedné z následujících hodnot:
-
CREATED
– krok byl vytvořen a čeká se na jeho spuštění -
ENQUEUED
– krok byl zařaděn do fronty -
STARTED
– krok byl spuštěn, aktuálně probíhá a čeká se na jeho dokončení -
COMPLETED
– krok byl dokončen bez chyb -
FAILED
– krok skončil chybou -
STOPPED
– provádění kroku bylo zastaveno
V případe, že některý z kroků skončil ve stavu FAILED
, je možné důvod zlyhání zobrazit kliknutím na ikonu v stloupci # Chyb
při chybovém kroku. Ze stránky s detaily o úloze je možné proces zastavit nebo restartovat (viz odpovídající tlačítka). Kurátor si může zobrazit daný dokument v prostředí Krameria. Kliknutím na tlačítko Znovu načíst
se aktualizují informace o zobrazené úloze.
Ukázka URL: https://plus.nkp.cz/publications
Na samostatné stránce (nabídka Publikace
) je k dispozici seznam všech dokumentů v systému Kramerius+, které prošly procesem obohacení.
Seznam zobrazených položek lze filtrovat pomocí následujících parametrů:
- UUID publikace
- název publikace
- model (podle Krameria), tj. monografie, část monografie, periodikum, ročník periodika, číslo periodika, interní část a příloha
- čas, před nímž byla úloha obohacení vytvořena
- čas, po němž byla úloha obohacení vytvořena
- zda je, nebo není publikace publikovaná pro badatele, tj. dostupná v aplikaci
DL4DH Feeder
- čas, po němž byla publikace publikována pro badatele
- čas, před nímž byla publikace publikována pro badatele
Obohacené dokumenty je možné exportovat do jednoho ze zvolených formátů. Dokumenty je možné exportovat:
- samostatně - kliknutím na tlačítko
EXPORTOVAT
při zvoleném dokumentu, nebo - hromadně - označením více dokumentů a následným kliknutím na
EXPORTOVAT
v záhlaví tabulky.
V obou případech se zobrazí dialógové okno, v kterém se vybírá jednak formát exportu, jednak podrobnější parametry, tj. které z dostupných údajů se mají do exportovaných dat zahrnout.
Export (jedné i více publikací) je možné vhodně pojmenovat a následně se k němu vracet.
Vygenerované soubory jsou vždy ve formátu ZIP a ukládají se na vyhrazené úložiště na serveru. Dokument ve formátu TEI obsahuje kompletní text jednoho dokumentu včetně doprovodných metadat. V případě dalších formátů se pro každou stranu generuje samostatný soubor, zároveň se generuje zastřešovací soubor s informacemi o souborech jednotlivých stran. Pokud má dokument hierarchickou strukturu (např. periodika jsou tvořena ročníky a následně jednotlivými čísly), ukládají se dokumenty jednotlivých stran do hierarchicky uspořádaných složek.
Exportuje pro každou stranu prostý text rozpoznaného textu.
Exportuje pro každou stranu rozpoznaný text ve formátu ALTO.
Exportuje pro každou stranu text v tabulkovém formátu CSV, popř. TSV (jako oddělovač se volí čárka, nebo tabulátor). Do exportu lze zahrnout jeden z následujících údajů, které budou tvořit sloupce výsledné tabulky:
- Nadpis
- Číslo strany
- NameTag - úroveň stránky
- Číslo tokenu na stránce
- Obsah tokenu
- Číslo tokenu ve větě
- Lemma
- UPosTag
- XPosTag
- Feats
- NameTag - úroveň tokenu
Exportuje pro každou stranu text ve formátu JSON. Do exportu lze zahrnout následující údaje, které budou tvořit hodnoty výsledného záznamu:
- Nadpis
- Číslo strany
- NameTag - úroveň stránky
- Číslo tokenu na stránce
- Obsah tokenu
- Číslo tokenu ve větě
- Lemma
- UPosTag
- XPosTag
- Feats
- NameTag - úroveň tokenu
Exportuje text publikace včetně metadat o ní v podobě jednoho dokumentu XML ve formátu TEI.
Při exportu informací z dokumentu ALTO lze do výstupu v TEI zahrnout následující parametry:
- height – výšku rámečku s textem
- width – výšku rámečku s textem
- vpos – vertikální umístění rámečku s textem na stránce
- hpos – horizontální umístění rámečku s textem na stránce
- jiný znak
Při exportu informací z obohacení pomocí UDPipe lze do výstupu v TEI zahrnout následující parametry:
- n – pořadí tokenu ve větě
- lemma – reprezentativní podoba slovního tvaru
- pos – slovní druh
- msd – morfologické kategorie slovního tvaru
- join – informace o mezeře před interpunkcí
- jiný znak – informace o samostatném znaku (nikoli slovu)
Při exportu informací z obohacení pomocí NameTagu lze do výstupu v TEI zahrnout následující entity (podrobnější vysvětlení viz zde):
- a – čísla (součásti adres)
- g – geografické názvy
- i – názvy institucí
- m – názvy médií
- n – čísla se specifickým významem
- o – názvy věcí
- p – jména osob
- t – časové údaje
Ukázka URL: https://plus.nkp.cz/publications/uuid:54fa2540-4157-11e8-84e3-005056827e52
Obohacené dokumenty je možné publikovat pro badatele, díky čemuž se stanou dostupné v aplikaci DL4DH Feeder
. Dokumenty je možné publikovat hromadně, t.j. označením vybraných publikací a následným kliknutím na tlačítko PUBLIKOVAT v záhlaví tabulky, nebo jednotlivě - kliknutím na tlačítko Publikovat
v sezname publikací nebo v detailu konkrétní publikace. Od této chvíle bude v DL4DH Feederu
dokument označen jako obohacený.
Chcete-li obohacenou publikaci z DL4DH Feederu
stáhnout, aby nebyly dostupné pokročilé funkce pro její vyhledávání nebo export, na stránce s detaily o dokumentu klikněte na tlačítko Zrušit publikování
.
Operace publikování a zrušení publikování se tranzitivně aplikuje na všechny podřazené publikace.
Ukázka URL: https://plus.nkp.cz/exports
V seznamu na stránce s žádostmi o export je vidět datum vytvoření žádosti, který uživatel žádost vytvořil, do jakého formátu se data exportovala a za byl export ukončen.
Kliknutím na tlačítko Detail
v posledním sloupci tabulky se dostanete na stránku s podrobnými informacemi.
Ukázka URL: https://plus.nkp.cz/exports/5c28146b-fe68-404a-9c6b-c2f8d8ab758a
Na stránce s detailními údaji jsou vidět podrobnosti o vytvořeném exportu včetně seznamu jednotlivých dokumentů, které se exportovaly v sekci Položky zádosti
. Na počítač uživatele je možné stáhnout exportované soubory jednotlivých dokumentů (tlačítko Stáhnout
) i všech dokumentů zahrnutých do exportu najednou (tlačítko Stáhnout
v sekci Výsledek hromadního exportu
).
Ukázka URL: https://plus.nkp.cz/jobs/exporting/0f1438da-3ea8-47b0-9e49-662c020966d6
Kliknutím na výslední stav úlohy v položkách žádosti o export se přesunete na stránku s podrobnými informacemi o úlohe exportu, kde je možné zjistit podrobné informace o prováděné úloze, jednotlivých krocích i příčinách problémů.