Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Scripts de mise à jour de taxref v9 à v11 #156

Closed
amandine-sahl opened this issue Jan 31, 2018 · 24 comments
Closed

Scripts de mise à jour de taxref v9 à v11 #156

amandine-sahl opened this issue Jan 31, 2018 · 24 comments

Comments

@amandine-sahl
Copy link
Contributor

No description provided.

@amandine-sahl
Copy link
Contributor Author

amandine-sahl commented Jan 31, 2018

Le passage vers taxref v11 se fait en 3 étapes, disponibles sous forme de scripts .sh dans le répertoire data/scripts/update_taxref_v11/ :

1. import_taxref_data.sh: import de taxref et détection des changements de bib_noms. Un export des changements est réalisé à l'issue du scrip

2. apply_changes.sh : Application des modifications dues au changement de taxref. Le script ne peut se lancer que s'il n'y a plus de conflits.

Il est possible d'automatiser la résolution de conflit un créant les scripts :

  • 2.1_taxref_changes_corrections_pre_detections.sql et
  • 2.2_taxref_changes_corrections_post_detections (permet notament de changer la colonne action et d'indiquer si on veut dupliquer les médias et attributs)

Ce script met également à jour les statuts taxonomiques. Il est possible de créer un script 4.2_stpr_update_concerne_mon_territoire.sql pour réaliser la selection des statuts concernant la structure

3. clean_db.sh : Suppression des tables résiduelles

Les logs de ces scripts sont disponibles dans le répertoire montaxhub/var/log/updatetaxrefv11.

@camillemonchicourt
Copy link
Member

Utilisé pour la migration vers la 1.4.0

@sig-pnrnm
Copy link

sig-pnrnm commented Feb 4, 2019

Bonjour,

Comme Camille, Gil et Théo le savent, je suis en en cours de mise à jour de mon instance TaxHub.
Il ne me reste plus que l'étape de mise à jour TaxRef de la release 1.4.0, que j'avais laissé de côté pour me concentrer sur toutes les autres étapes de mise à jour.

Je me permets de répondre sur ce fil pour éclaircir la procédure spécifique TaxRef 11.

J'en suis au script 1.3 qui m'exporte bien une table des changements identifiés automatiquement.

Voici pour mes données le nombre de cas identifiés :

cas nombre
merge 13
split 6
split and merge 2
update cd_ref 72

Pour ce qui est des update cd_ref et des merge, je pense que cela ne pose pas de souci et je vais faire confiance à la procédure automatique.
Par contre, pour les split (et split and merge), je ne comprends pas où et comment on doit indiquer le choix qui sera fait pour nos données ?

J'ai survolé les scripts suivants et je n'ai pas compris où s'effectuait cette opération manuelle.

Si vous pouvez m'aider à éclaircir ce point, je vous en serait très reconnaissant 😉

@gildeluermoz
Copy link
Contributor

Ben en gros, partout où sont utilisés les cd_nom splités, tu dois

  • ajouter les nouveaux cd_noms dans bib_noms ( + cor_nom_liste + cor_taxon_attribut) (si besoin)
  • updater tes observations "une par une" pour dire :
    • pour telle obs, le cd_nom A, devient B,
    • pour telle autre le cd_nom A devient C,
    • etc... (ou les cd_nom A deviennent tous C si tu as de la chance).

Tout est fonction de ton contexte local et de ce que les thématiciens vont choisir de faire pour les taxons concernés. Il n'y a pas de requête déjà écrite pour faire ça je pense car cela dépend des schémas sources dans le ou lesquelles tu dois faire ça. Car en fait, dans ces cas, tu ne dois pas uniquement updater le schéma taxonomie mais aussi toutes les obs dans synthese, contactfaune, contactinv, contactflore, etc...
Bon courage.

@sig-pnrnm
Copy link

Merci Gil pour tes précisions (et désolé pour le délai de réponse).

Ok, je pensais que les scripts ne concernaient que TaxHub, mais pas les données des protocoles : dans mon esprit, les données doivent concerver le cd_nom qui a été utilisé à la transmission (saisie) de la donnée.

Pour les requêtes sur les données qui alimentent la synthèse, je m'en chargerai plus tard : pour le moment, je vais me pencher uniquement sur les requêtes qui concernent le référentiel de TaxHub, schéma taxonomie (et donc en théorie identiques pour tout le monde).

Si jamais, aurais tu juste un exemple de requête sur ce schéma, dans le cas d'un split ?

@Eric-a-BRUNO
Copy link

Bonjour,
Nous avons commencé à charger des données dans notre instace GeoNature du SINP de l'Occitanie. Nous avons un problème lié à la version TAXREF utilisée. En effet nos partenaires ont préparé des données à l'import en version v12 ce qui fait que certains cd_nom ne sont pas reconnus (TAXHUB est en V11 si j'ai bien suivi). D'où ma question : est-il possible, et raisonnable, de repartir des scripts v9 à v11 #156 pour, après adaptation passer de la V11 à la V12 ?
merci pour votre retour.

@TheoLechemia
Copy link
Member

Oui tout à fait. cela a déjà été fait sur une instance de Taxhub.
On prévoit la sortie de TaxHub avec taxref v12 dans les prochaines semaines (mois?)

@camillemonchicourt
Copy link
Member

Oui la version actuelle de TaxHub fonctionne avec Taxref v12.
On a déjà testé des installations avec succès.
On a aussi fait des migrations simples en réutilisant les scripts v9>v11.
Il faut bien commencer par récupérer la v12 de Taxref.
Cela devrait être intégré dans la prochaine version de TaxHub / #182

@gildeluermoz
Copy link
Contributor

Les versions de taxref sortent souvent à l'automne (23/10/2018 pour la V12). Il est probable que Taxref 13 sorte très prochainement.

@Eric-a-BRUNO
Copy link

Merci pour ces infos.
Donc si je comprends bien : nous sommes en version GeoNature 2.1.2, si on applique les scripts de migration vers la 2.2.1 cela passe TAXHUB à la V12 ?
Question subsidiaire : il faut passer d'abord par une migration vers la 2.2.0

@camillemonchicourt
Copy link
Member

Non, pas du tout.
Les version de Taxref sont liées à TaxHub.
Officiellement la dernière version de TaxHub fonctionne avec Taxref v11. Mais on a testé son fonctionnement avec Taxref v12 avec succès.
Mais le fonctionnement garanti de TaxHub avec Taxref v12 sera intégré dans une prochaine version de TaxHub.

Oui la version 13 arrive.

@Eric-a-BRUNO
Copy link

OK, donc la meilleure solution c'est d'adapter les scripts v9>v11 en v11>v12 si on veut disposer rapidement de la V12

@camillemonchicourt
Copy link
Member

Oui

@Eric-a-BRUNO
Copy link

Bonjour,
Pour rester sur le script import_taxref_data.sh vous est-il possible de mettre à disposition les fichiers TAXREF_INPN_v12.zip et ESPECES_REGLEMENTEES_v12.zip dans https://geonature.fr/data/inpn/taxonomie/ ?
Merci

@camillemonchicourt
Copy link
Member

Bonjour c'est fait.
Mais vous pouviez aussi utiliser n'importe quelle URL ailleurs pour vos tests.

Attention, à noter que le fichier ESPACES_REGLEMENTEES n'existe plus depuis la v12 de Taxref et a été remplacé par la "Base de connaissance des statuts" (https://inpn.mnhn.fr/telechargement/referentielEspece/bdc-statuts-especes).
Le fichier en question a donc un autre nom (BDC-Statuts-v12.zip) et est différent, donc pour migrer cette partie Statuts, il y a des évolutions plus conséquentes à réaliser.
Voir #157

Je vous conseille pour le moment de vous concentrer sur la partie Taxref uniquement.

@Eric-a-BRUNO
Copy link

C'est noté, merci !

@Eric-a-BRUNO
Copy link

Bonjour ,
dans le script 1.2_taxref_changes_detections_cas_actions.sql (appelé par import_taxref_data.sh) on trouve la séquence :
-- Merge detection des conflits pour les attributs
WITH atts AS (
SELECT DISTINCT *
FROM taxonomie.cor_taxon_attribut a
JOIN tmp_taxref_changes.comp_grap c
ON a.cd_ref = c.i_cd_ref
WHERE NOT valeur_attribut ='{}' AND NOT valeur_attribut =''
AND cas = 'merge' AND f_cd_ref = 110139

Pourquoi le cd_ref 110139 est-il utilisé ? Est-ce une spécificité du passage de V9 à V11 ?
Faut-il la conserver pour le passage de V11 à V12 ?

@camillemonchicourt
Copy link
Member

Si vous vous lancez dans la migration V11 à v12 avant nous, très bien, mais on vous laisse comprendre et défricher, car nous justement... on n'a pas encore pu s'y coller.

@amandine-sahl
Copy link
Contributor Author

Pour le cd_ref 110139 à mon sens c'est une coquille. Cette valeur devait être utilisé comme test et est resté alors qu'elle n'aurait pas du

@Eric-a-BRUNO
Copy link

oui je l'ai analysé comme ça...

@camillemonchicourt
Copy link
Member

OK sûrement.
Du coup ça vaudrait le coup de le corriger aussi dans le script v9 à v11.

@Eric-a-BRUNO
Copy link

Eric-a-BRUNO commented Nov 29, 2019

Bonjour,
Pour vous le signaler les archives ZIP copiées hier sur https://geonature.fr/data/inpn/taxonomie/ contiennent un fichier XLS et un XLSX :
CDNOM_DISPARUS.XLS au lieu de CDNOM_DISPARUS.csv
BDC_STATUS_TYPES_12.xlsx au lieu de ...CSV
du coup dans le script SQL 0.1_import_taxrefv12.sql la commande
COPY taxonomie.cdnom_disparu FROM '/tmp/taxhub/CDNOM_DISPARUS.csv'
WITH CSV HEADER
DELIMITER E'\t' encoding 'UTF-8';
ne peut pas fonctionner.

@amandine-sahl
Copy link
Contributor Author

Ces fichiers sont toujours en xls(x), ce qu'on fait c'est qu'on les transforme en csv en amont pour pouvoir travailler dessus

@camillemonchicourt
Copy link
Member

Ouais OK bien vu.
Là je les ai téléchargé et les ai déposé directement sur le serveur pour que vous y ayez accès.
Mais j'ai pas pris le temps de les convertir comme il faut etc...

Par contre vous pouvez tout a fait utiliser et adapter les scripts, en pointant sur les mêmes fichiers, mais en local ou n'importe où.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants