Skip to content
Noro edited this page Feb 14, 2023 · 2 revisions

Webová aplikace

Webová aplikace v testovacím provozu je k dispozici na adrese http://plus.nkp.cz.

Přihlášení

Uživatel s přidělenými právy kurátora se přihlásí kliknutím na tlačítko Přihlásit se.

home-page

Po zadání přihlašovacího jména a hesla se vrátí zpět na výchozí stránku webové aplikace.

Přihlášený uživatel má k dispozici následující položky ovládací nabídky:

  • Domů
  • Obohacení
    • Nové obohacení
    • Žádosti obohacení
  • Publikace
  • Export
    • Žádosti exportu
  • [Akce přihlášeného uživatele]

Odhlášení

Uživatel se může ohlásit pomocí položky v nabídce s přihlašovacím jménem. Kliknutím na položku Odhlásit se odhlásí ze systému a nebude moci provádět žádné další úkony kromě přihlášení.

User-Odhlaseni

Obohacení

Ukázka URL: https://plus.nkp.cz/enrichment/new

Během obohacovacího procesu se data a metadata dokumentů, které jsou dostupné v propojené instanci Krameria, rozšíří o další údaje, zejména o lemmatizaci a morfologickou analýzu textu, identifikaci pojmenovaných entit a údaje z balíčků NDK (pokud jsou k dispozici) a převede dokument do formátu TEI.

Ke spouštění nového procesu obohacení vyberte z nabídky Obohacení > Nové obohacení.

Enrichment-New

Název

V textovém poli Název žádosti můžete pojmenovat vytvářenou dávku obohacení (zejména pro více dokumentů) pro její snazší identifikaci při kontrole zpracování.

Enrichment-New-Konfigurace-Nazev-Babicka

Publikace

V textovém poli UUID publikací zadejte identifikátory obohacovaných dokumentů (např. uuid:3a4ca630-161b-11e8-bdb0-005056827e51 pro knihu NĚMCOVÁ, Božena. Babička: obrazy z venkovského života. Praha: A. Hlavatá, 1914. Dostupné také z: https://www.digitalniknihovna.cz/nkp/uuid/uuid:3a4ca630-161b-11e8-bdb0-005056827e51). Identifikátory můžete přidávat zapsáním PID jednotlivých publikací oddělených čárkou nebo prázdnym znakem (mezera, tabulátor nebo nový řádek).

Enrichment-New-Publikace-UUID-Babicka

Konfigurace

V poslední části můžete ovlivnit, jaké procesy a s jakými parametry ve fázi obohacování proběhnou:

  • Obohacení externími nástroji
  • Obohacení NDK
  • Obohacení TEI

Konfigurace můžete přidávat, upravovat nebo odeberat. Některé parametry je možné nastavit u všech úloh obohacení. Jedná se o:

  • Přepsat existující - Pokud v systému Kramerius+ dokument obohacený daným typem úlohy obohacení již existuje a chcete jej nahradit novější verzí (např. díky lepšímu OCR v systému Kramerius nebo novější verzemi nástrojů UDPipe a NameTag), použijte volbu Přepsat existující.
  • Tolerance chyb v stránkach - Parametr ovlivňující chování úlohy v případe, že dojde k chybě při obohacování. Definuje počet chyb, ktoré úloha toleruje předtím, než se ukončí. Při toleraci chyby se stránka s chybou přeskočí a pokračujě se na další stránku.

Obohacení externími nástroji

Externí nástroje UDPipe 2 a NameTag 2 slouží k tomu, aby se samotný text dokumentu obohatil o podstatné lingvistické údaje, a to lemmatizaci a morfologickou analýzu (UDPipe 2) a identifikaci pojmenovaných entit (NameTag 2), tj. např. jmen osob, institucí, geopolitických celků, časových údajů ap.

Uvedené nástroje vycházejí z textu dokumentu, který je součástí formátu ALTO. Tento formát nemusí být dostupný pro jednotlivé strany (pokud neobsahují žádný text), nebo pro celou publikaci (dokumenty ze starších fází digitalizace, kdy proběhlo OCR, na jehož výstupu byl pouze prostý text). Při chybějícím ALTO formátu vyhazuje úloha Obohacení externími nástroji chybu MISSING_ALTO. Pokud víte, že ALTO formát chybí jenom u některých stránek, nastavte adekvátnou toleranci chyb.

Enrichment-New-Konfigurace-Obohaceni-externimi-nastroji

Obohacení NDK

Při obohacení NDK dochází k tomu, že se součástí metadat k publikaci a k jednotlivým stranám stávají vybraná metadata z balíčků NDK. Tento proces proběhne pouze tehdy, pokud je balíček NDK dané publikace umístěn na souborovém úložišti serveru.

Obohacení TEI

Během tohoto procesu se na základě výstupů v předchozích fázích vytváří kompletní dokument ve formátu TEI, který se rozdelí na dílčí části a uloží k jednotlivým digitálním objektům.

Spuštění obohacení

Kliknutím na tlačítko Odeslat vytvoříte novou žádost o obohacení dokumentů a spustíte jeho provádění.

Enrichment-New-Uspesna-operace

Žádosti obohacení

Ukázka URL: https://plus.nkp.cz/enrichment

Kliknutím na Žádosti obohacení se zobrazí seznam procesů obohacení, které uživatelé s právy kurátora digitální sbírky v systému Kramerius+ zadali. Seznamy probíhajících procesů se zobrazují chronologicky od posledního zadaného. Pomocí filtrování lze vyhledat konkrétní proces podle PID publikace, která je součástí žádosti, jeho názvu nebo uživatele, který požadavek zadal (případně kombinací všech podmínek).

Enrichment-Seznam

Detail žádosti o obohacení

Ukázka URL: https://plus.nkp.cz/enrichment/1d6c7ac5-7c29-4d04-b784-36c77746d571

Po kliknutí na tlačítko Detail se zobrazí stránka s podrobnými informacemi o žádosti o obohacení. Při vytvoření žádosti se automaticky spouští inicializační úloha, která vytvoří objektovou strukturu žádosti. Detail inicializační úlohy je možné zobrazit kliknutím na stav při Inicializační úloha v základních informacích žádosti. Žádosti jsou rozdelené na jednotlivé položky dle UUID publikací zadaných na vstupu.

Po kliknutí na položku se zobrazí plán zvolené položky, který obsahuje jednotlivé podpublikace obsažené pod daným dokumentem. Kliknutím na některou publikaci v plánu se zobrazí podrobnosti o úlohách (tj. Obohacení NDK, Obohacení externími nástroji, Obohacení TEI), které daná publikace absolvovala nebo bude absolvovat. Ke každé úloze lze zobrazit detailní informace kliknutím na daný řádek úlohy.

Enrichment-Detail

Detail úlohy

Ukázka URL: https://plus.nkp.cz/jobs/enriching/a319b943-4171-4c63-b167-117370366d5b

U vytvořených úloh se eviduje každé spuštění jako samostatní běh. Kliknutím na jeden z běhů se zobrazí vykonané kroky. Jednotlivé běhy jsou rozděleny na dílčí kroky, u nichž je uveden nejen čas spuštění a dokončení, ale také jeho výsledný stav. Ten může nabývat jedné z následujících hodnot:

  • CREATED – krok byl vytvořen a čeká se na jeho spuštění
  • ENQUEUED – krok byl zařaděn do fronty
  • STARTED – krok byl spuštěn, aktuálně probíhá a čeká se na jeho dokončení
  • COMPLETED – krok byl dokončen bez chyb
  • FAILED – krok skončil chybou
  • STOPPED – provádění kroku bylo zastaveno

V případe, že některý z kroků skončil ve stavu FAILED, je možné důvod zlyhání zobrazit kliknutím na ikonu v stloupci # Chyb při chybovém kroku. Ze stránky s detaily o úloze je možné proces zastavit nebo restartovat (viz odpovídající tlačítka). Kurátor si může zobrazit daný dokument v prostředí Krameria. Kliknutím na tlačítko Znovu načíst se aktualizují informace o zobrazené úloze.

Enrichment-Uloha-Detail

Publikace (dokumenty)

Ukázka URL: https://plus.nkp.cz/publications

Na samostatné stránce (nabídka Publikace) je k dispozici seznam všech dokumentů v systému Kramerius+, které prošly procesem obohacení.

Publications-Seznam

Seznam zobrazených položek lze filtrovat pomocí následujících parametrů:

  • UUID publikace
  • název publikace
  • model (podle Krameria), tj. monografie, část monografie, periodikum, ročník periodika, číslo periodika, interní část a příloha
  • čas, před nímž byla úloha obohacení vytvořena
  • čas, po němž byla úloha obohacení vytvořena
  • zda je, nebo není publikace publikovaná pro badatele, tj. dostupná v aplikaci DL4DH Feeder
  • čas, po němž byla publikace publikována pro badatele
  • čas, před nímž byla publikace publikována pro badatele

Publications-Seznam-Filtr

Export

Obohacené dokumenty je možné exportovat do jednoho ze zvolených formátů. Dokumenty je možné exportovat:

  • samostatně - kliknutím na tlačítko EXPORTOVAT při zvoleném dokumentu, nebo
  • hromadně - označením více dokumentů a následným kliknutím na EXPORTOVAT v záhlaví tabulky.

V obou případech se zobrazí dialógové okno, v kterém se vybírá jednak formát exportu, jednak podrobnější parametry, tj. které z dostupných údajů se mají do exportovaných dat zahrnout.

Export (jedné i více publikací) je možné vhodně pojmenovat a následně se k němu vracet.

Vygenerované soubory jsou vždy ve formátu ZIP a ukládají se na vyhrazené úložiště na serveru. Dokument ve formátu TEI obsahuje kompletní text jednoho dokumentu včetně doprovodných metadat. V případě dalších formátů se pro každou stranu generuje samostatný soubor, zároveň se generuje zastřešovací soubor s informacemi o souborech jednotlivých stran. Pokud má dokument hierarchickou strukturu (např. periodika jsou tvořena ročníky a následně jednotlivými čísly), ukládají se dokumenty jednotlivých stran do hierarchicky uspořádaných složek.

TEXT

Exportuje pro každou stranu prostý text rozpoznaného textu.

ALTO

Exportuje pro každou stranu rozpoznaný text ve formátu ALTO.

CSV

Exportuje pro každou stranu text v tabulkovém formátu CSV, popř. TSV (jako oddělovač se volí čárka, nebo tabulátor). Do exportu lze zahrnout jeden z následujících údajů, které budou tvořit sloupce výsledné tabulky:

  • Nadpis
  • Číslo strany
  • NameTag - úroveň stránky
  • Číslo tokenu na stránce
  • Obsah tokenu
  • Číslo tokenu ve větě
  • Lemma
  • UPosTag
  • XPosTag
  • Feats
  • NameTag - úroveň tokenu

JSON

Exportuje pro každou stranu text ve formátu JSON. Do exportu lze zahrnout následující údaje, které budou tvořit hodnoty výsledného záznamu:

  • Nadpis
  • Číslo strany
  • NameTag - úroveň stránky
  • Číslo tokenu na stránce
  • Obsah tokenu
  • Číslo tokenu ve větě
  • Lemma
  • UPosTag
  • XPosTag
  • Feats
  • NameTag - úroveň tokenu

TEI

Exportuje text publikace včetně metadat o ní v podobě jednoho dokumentu XML ve formátu TEI.

Při exportu informací z dokumentu ALTO lze do výstupu v TEI zahrnout následující parametry:

  • height – výšku rámečku s textem
  • width – výšku rámečku s textem
  • vpos – vertikální umístění rámečku s textem na stránce
  • hpos – horizontální umístění rámečku s textem na stránce
  • jiný znak

Při exportu informací z obohacení pomocí UDPipe lze do výstupu v TEI zahrnout následující parametry:

  • n – pořadí tokenu ve větě
  • lemma – reprezentativní podoba slovního tvaru
  • pos – slovní druh
  • msd – morfologické kategorie slovního tvaru
  • join – informace o mezeře před interpunkcí
  • jiný znak – informace o samostatném znaku (nikoli slovu)

Při exportu informací z obohacení pomocí NameTagu lze do výstupu v TEI zahrnout následující entity (podrobnější vysvětlení viz zde):

  • a – čísla (součásti adres)
  • g – geografické názvy
  • i – názvy institucí
  • m – názvy médií
  • n – čísla se specifickým významem
  • o – názvy věcí
  • p – jména osob
  • t – časové údaje

Publikování

Ukázka URL: https://plus.nkp.cz/publications/uuid:54fa2540-4157-11e8-84e3-005056827e52

Obohacené dokumenty je možné publikovat pro badatele, díky čemuž se stanou dostupné v aplikaci DL4DH Feeder. Dokumenty je možné publikovat hromadně, t.j. označením vybraných publikací a následným kliknutím na tlačítko PUBLIKOVAT v záhlaví tabulky, nebo jednotlivě - kliknutím na tlačítko Publikovat v sezname publikací nebo v detailu konkrétní publikace. Od této chvíle bude v DL4DH Feederu dokument označen jako obohacený.

Publication-Publikovat

Chcete-li obohacenou publikaci z DL4DH Feederu stáhnout, aby nebyly dostupné pokročilé funkce pro její vyhledávání nebo export, na stránce s detaily o dokumentu klikněte na tlačítko Zrušit publikování.

Publication-Zrusit-publikovani

Operace publikování a zrušení publikování se tranzitivně aplikuje na všechny podřazené publikace.

Export (publikací)

Žádosti exportu

Ukázka URL: https://plus.nkp.cz/exports

V seznamu na stránce s žádostmi o export je vidět datum vytvoření žádosti, který uživatel žádost vytvořil, do jakého formátu se data exportovala a za byl export ukončen.

Kliknutím na tlačítko Detail v posledním sloupci tabulky se dostanete na stránku s podrobnými informacemi.

Exports

Detail žádosti o export

Ukázka URL: https://plus.nkp.cz/exports/5c28146b-fe68-404a-9c6b-c2f8d8ab758a

Na stránce s detailními údaji jsou vidět podrobnosti o vytvořeném exportu včetně seznamu jednotlivých dokumentů, které se exportovaly v sekci Položky zádosti. Na počítač uživatele je možné stáhnout exportované soubory jednotlivých dokumentů (tlačítko Stáhnout) i všech dokumentů zahrnutých do exportu najednou (tlačítko Stáhnout v sekci Výsledek hromadního exportu).

Exports-Detail

Detail úlohy exportování

Ukázka URL: https://plus.nkp.cz/jobs/exporting/0f1438da-3ea8-47b0-9e49-662c020966d6

Kliknutím na výslední stav úlohy v položkách žádosti o export se přesunete na stránku s podrobnými informacemi o úlohe exportu, kde je možné zjistit podrobné informace o prováděné úloze, jednotlivých krocích i příčinách problémů.

Jobs-Exporting-Detail