Ladění - vyhledávání #25

motyc · 2022-12-03T15:47:09Z

Chybí možnost hledat v plném textu napříč publikacemi
Chybí možnost hledat v položkách UDPipe
Nefunguje vůbec výrazová logika, protože se vše automaticky obaluje uvozovkami (neodpovídá to Krameriu ani návodu v pokročilém vyhledávání)

motyc · 2022-12-08T12:22:33Z

Doplňuji diskusi z emailu:

Vyhledávání přes řádek v záhlaví - z čeho všeho zde čerpá našeptávač a kde všude se hledá? Rozumím tomu dobře, že nyní nelze hledat v OCR napříč publikacemi?

Hledání na stránkách - Jak vlastně funguje hledání podle volných řetězců? Zohledňují se nějak lemmata apod.? Jde nějak vyhledávat podle obohacení vzniklých z UDPipe?

@sekanIQ

Snaha bola zachovať aktuálnu funkcionalitu Krameria, ktorý v danom poli našeptáva len podľa názvu publikácie. Pokiaľ vyberiete nejakú nametag kategóriu, samozrejem vyhľadáva tam. OCR nie je v našeptávači používané. V Krameriovi je možné vyhľadávať v OCR v rámci pokročilého vyhľadávania, pokiaľ vyberiete možnosť hladať vo všetkom. Podobne to chceme robiť aj u nás, ale nakoľko text OCR u nás neindexujeme (aby nebola duplicita týchto dát), tak nevieme kombinovať dotaz nad nameTag údajmi (ktoré sú len v našom Solr) a zároveň nad OCR (ktoré je len v Solr Krameria). Preto uvažujeme rozdeliť kategóriu hladať vo všetkom na hľadať vo všetkých základných metadátach (aktuálne položka ALL_BASIC_METADATA) a hľadať vo všetkých nametag dátach (aktuálne položka ALL_NAMETAG_DATA v pokročilom vyhľadávaní, bude premenovaná/lokalizovaná).

Vyhľadávania na stránkach využíva highlighting zo Solr Krameria nad OCR, kde vyhľadáva slova, ktorá začínajú ako zadaný výraz. Zároveň dopĺňa do výsledkov aj stránky, ktoré obsahujú vyhľadávaný výraz v nametag rozpoznaných entitách (tu sa berú do úvahy len stránky, ktorých rozpoznaná entita sa presne rovná zadanému text, predpokladá sa výber konkrétnej entity z našeptávače). Lemmata tak v prípade nametagu nie sú zohľadňované. Momentálne vyhľadávať v údajoch z obohatenia z UDPipe vyhľadávať nejde.

@stranak

Kdybyste přidali index na lematizovaný text z UDPipe, možná byste nemuseli řešit to hledání v textu přímo z OCR ze SOLRu Krameria. Není to sice úplně to stejné, lematizovaný text, vs. formy se stemmingem (předpokládám) v Krameriu, ale mohlo by to mít dost podobnou hodnotu.

@sekanIQ

Môžeme lematizovaný text z UDPipe využiť v prípade pokročilého vyhľadávania, tam by to riešilo problém s dotazovaním na Solr Krameria v prípade vyhľadávania v texte. V druhom bode je potrebný ale highlighter a ten si spolu s lematizovaným textom nevieme ešte predstaviť.

motyc mentioned this issue May 11, 2023

Ladění - detail #27

Closed

9 tasks

sekanIQ mentioned this issue Jul 18, 2023

Nesprávně zvýrazněný hledaný výraz #45

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Ladění - vyhledávání #25

Ladění - vyhledávání #25

motyc commented Dec 3, 2022

motyc commented Dec 8, 2022

Ladění - vyhledávání #25

Ladění - vyhledávání #25

Comments

motyc commented Dec 3, 2022

motyc commented Dec 8, 2022