Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ladění - vyhledávání #25

Open
3 tasks
motyc opened this issue Dec 3, 2022 · 1 comment
Open
3 tasks

Ladění - vyhledávání #25

motyc opened this issue Dec 3, 2022 · 1 comment

Comments

@motyc
Copy link
Collaborator

motyc commented Dec 3, 2022

  • Chybí možnost hledat v plném textu napříč publikacemi
  • Chybí možnost hledat v položkách UDPipe
  • Nefunguje vůbec výrazová logika, protože se vše automaticky obaluje uvozovkami (neodpovídá to Krameriu ani návodu v pokročilém vyhledávání)
@motyc
Copy link
Collaborator Author

motyc commented Dec 8, 2022

Doplňuji diskusi z emailu:

@motyc

  1. Vyhledávání přes řádek v záhlaví - z čeho všeho zde čerpá našeptávač a kde všude se hledá? Rozumím tomu dobře, že nyní nelze hledat v OCR napříč publikacemi?

  2. Hledání na stránkách - Jak vlastně funguje hledání podle volných řetězců? Zohledňují se nějak lemmata apod.? Jde nějak vyhledávat podle obohacení vzniklých z UDPipe?

@sekanIQ

  1. Snaha bola zachovať aktuálnu funkcionalitu Krameria, ktorý v danom poli našeptáva len podľa názvu publikácie. Pokiaľ vyberiete nejakú nametag kategóriu, samozrejem vyhľadáva tam. OCR nie je v našeptávači používané. V Krameriovi je možné vyhľadávať v OCR v rámci pokročilého vyhľadávania, pokiaľ vyberiete možnosť hladať vo všetkom. Podobne to chceme robiť aj u nás, ale nakoľko text OCR u nás neindexujeme (aby nebola duplicita týchto dát), tak nevieme kombinovať dotaz nad nameTag údajmi (ktoré sú len v našom Solr) a zároveň nad OCR (ktoré je len v Solr Krameria). Preto uvažujeme rozdeliť kategóriu hladať vo všetkom na hľadať vo všetkých základných metadátach (aktuálne položka ALL_BASIC_METADATA) a hľadať vo všetkých nametag dátach (aktuálne položka ALL_NAMETAG_DATA v pokročilom vyhľadávaní, bude premenovaná/lokalizovaná).
  2. Vyhľadávania na stránkach využíva highlighting zo Solr Krameria nad OCR, kde vyhľadáva slova, ktorá začínajú ako zadaný výraz. Zároveň dopĺňa do výsledkov aj stránky, ktoré obsahujú vyhľadávaný výraz v nametag rozpoznaných entitách (tu sa berú do úvahy len stránky, ktorých rozpoznaná entita sa presne rovná zadanému text, predpokladá sa výber konkrétnej entity z našeptávače). Lemmata tak v prípade nametagu nie sú zohľadňované. Momentálne vyhľadávať v údajoch z obohatenia z UDPipe vyhľadávať nejde.

@stranak

Kdybyste přidali index na lematizovaný text z UDPipe, možná byste nemuseli řešit to hledání v textu přímo z OCR ze SOLRu Krameria. Není to sice úplně to stejné, lematizovaný text, vs. formy se stemmingem (předpokládám) v Krameriu, ale mohlo by to mít dost podobnou hodnotu.

@sekanIQ

Môžeme lematizovaný text z UDPipe využiť v prípade pokročilého vyhľadávania, tam by to riešilo problém s dotazovaním na Solr Krameria v prípade vyhľadávania v texte. V druhom bode je potrebný ale highlighter a ten si spolu s lematizovaným textom nevieme ešte predstaviť.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant