Skip to content
Alberto Hernandez edited this page Jan 6, 2025 · 9 revisions

NETLET-Edition-Converter

Software NETLET Edition Converter je jedním z hlavních výstupů projektu NETLET (https://netlet.lib.cas.cz/).

Umožňuje vytváření strukturovaných metadat z tištěných edic korespondence vybraných osobností a jejich následné využití pro uložení v databázi. Zdrojem mohou být data v textových formátech PDF i data získaná skenováním tištěných edic, kde je využito OCR k získání plných textů. Logické části jsou rozpoznány a členěny do požadované struktury.

Používané nástroje pro zpracování textu:

Používané technologie pro vyvoj aplikace:

Aplikace běží v JAVA kontejneru Tomcat. Webové rozhraní je implementováno pomocí frameworku Angular.

  • Pro backend aplikace je implementovana v JAVA. Minimalne pozadovana verze JDK11
  • Jako uloziste dat aplikace pouziva Apache SOLR. SOLR umoznuje rychle indexaci a vyhledavani
  • Klient je implementováno pomocí frameworku Angular.

Stručný popis

NETLET-Edition-Converter umožňuje nahrávat digitalizovanou korespondenci ve formátu PDF. Aplikace generuje obrázky z každé stránky, používá nástroj PERO pro generování ALTO XML souborů pro každou stránku a tyto údaje indexuje do SOLRu. Uživatel může zpracovávat soubory, vybírat oblasti v obrázcích definující dopisy a posílat je do konkrétních polí metadat, nebo jako textové/obrázkové vstupy do openAI. Modely (např. GPT-3.5-turbo a GPT-4o) pak předvyplňují pole jako odesílatel, příjemce, datum, místo, incipit, explicit a generují abstrakt dopisu v češtině i angličtině.

Všechna pole jsou ručně editovatelná a vygenerovaná metadata lze odeslat do databáze HIKO.

Tim to modelem aplikace umoznuje zpracovat od zacatku (nahrani PDF) do konce (ulozeni v DB, indexace v SOLRu) zdigitalizovanou korespondenci pro naslednou analyzu dat, napr. generovani grafu souvislosti mezi osobnosti v case, analyzu temat mezi osobnosti, atd