Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ODBP: DiWoo-sitemap splitsen per documenttype/datum combinatie #22

Open
Tracked by #9
felixcicatt opened this issue Nov 20, 2024 · 3 comments
Open
Tracked by #9

ODBP: DiWoo-sitemap splitsen per documenttype/datum combinatie #22

felixcicatt opened this issue Nov 20, 2024 · 3 comments
Milestone

Comments

@felixcicatt
Copy link
Contributor

felixcicatt commented Nov 20, 2024

Het is best practice om een sitemap kleiner te houden dan 50MB en 50.000 records (bron). Zodra je daarboven komt, moet je de sitemap splitsen.

Geschikte kandidaten om de sitemap te splitsen is op publicatiedatum (jaar+maand) en documenttype.

Acceptatiecriteria

  • De sitemap-index verwijst naar losse sitemaps per jaar+maand+documenttype
  • Per jaar+maand+documenttype is een sitemap beschikbaar die alleen documenten bevat van dat documenttype, die in die maand van dat jaar gepubliceerd zijn
@github-project-automation github-project-automation bot moved this to Backlog in GPP-Woo Nov 20, 2024
@felixcicatt felixcicatt moved this from Backlog to Refinement in GPP-Woo Nov 20, 2024
@MarcoKlerks MarcoKlerks added this to the 23. ODBP: Integratie met de Woo-index milestone Dec 6, 2024
@felixcicatt
Copy link
Contributor Author

@MarcoKlerks zou het mogelijk voldoende kunnen zijn om alleen te splitsen op jaar-maand?

@felixcicatt
Copy link
Contributor Author

felixcicatt commented Dec 12, 2024

Oplossingsrichtingen die genoemd zijn:

  • Zoek de allereerste publicatie. Zet van dat moment tot nu voor alle jaar-maand waardes een entry in de sitemap-index. Hier zouden lege entries tussen kunnen zitten maar dat is waarschijnlijk niet erg. De sitemap index kan beter niet gecached worden in dit scenario ivm race conditions.
  • Bouw eerst alle records voor de sitemap zelf op. Beredeneer op basis daarvan hoe grof er gesplitst moet worden. Andere benadering, iets meer rework maar wel heel flexibel. Zowel de index als de sitemap kan gecached worden.

@MarcoKlerks
Copy link

@MarcoKlerks zou het mogelijk voldoende kunnen zijn om alleen te splitsen op jaar-maand?

Dat lijkt mij voldoende.

@MarcoKlerks MarcoKlerks modified the milestones: 23. ODBP: Integratie met de Woo-index , Plateau 1 Dec 23, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: Refinement
Development

No branches or pull requests

2 participants