-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Software NETLET Edition Converter je jedním z hlavních výstupů projektu NETLET (https://netlet.lib.cas.cz/).
Umožňuje vytváření strukturovaných metadat z tištěných edic korespondence vybraných osobností a jejich následné využití pro uložení v databázi. Zdrojem mohou být data v textových formátech PDF i data získaná skenováním tištěných edic, kde je využito OCR k získání plných textů. Logické části jsou rozpoznány a členěny do požadované struktury.
Používané nástroje pro zpracování textu:
- OCR zpracování: PERO (pero-ocr.fit.vutbr.cz)
- Analýza obsahu umělou inteligencí: openAI (platform.openai.com)
- Rozpoznání jazyka: open-source JAVA knihovna "language-detector" (GitHub)
- Překlad: lindat.mff.cuni.cz
- Získání klíčových slov: NameTag 3 (ufal.mff.cuni.cz)
- Uložení, indexace a následné hledání: SOLR (solr.apache.org)
Používané technologie pro vyvoj aplikace:
Aplikace běží v JAVA kontejneru Tomcat. Webové rozhraní je implementováno pomocí frameworku Angular.
- Pro backend aplikace je implementovana v JAVA. Minimalne pozadovana verze JDK11
- Jako uloziste dat aplikace pouziva Apache SOLR. SOLR umoznuje rychle indexaci a vyhledavani
- Klient je implementováno pomocí frameworku Angular.
Stručný popis
NETLET-Edition-Converter umožňuje nahrávat digitalizovanou korespondenci ve formátu PDF. Aplikace generuje obrázky z každé stránky, používá nástroj PERO pro generování ALTO XML souborů pro každou stránku a tyto údaje indexuje do SOLRu. Uživatel může zpracovávat soubory, vybírat oblasti v obrázcích definující dopisy a posílat je do konkrétních polí metadat, nebo jako textové/obrázkové vstupy do openAI. Modely (např. GPT-3.5-turbo a GPT-4o) pak předvyplňují pole jako odesílatel, příjemce, datum, místo, incipit, explicit a generují abstrakt dopisu v češtině i angličtině.
Všechna pole jsou ručně editovatelná a vygenerovaná metadata lze odeslat do databáze HIKO.
Tim to modelem aplikace umoznuje zpracovat od zacatku (nahrani PDF) do konce (ulozeni v DB, indexace v SOLRu) zdigitalizovanou korespondenci pro naslednou analyzu dat, napr. generovani grafu souvislosti mezi osobnosti v case, analyzu temat mezi osobnosti, atd