Otimização no procedimento de carga de task_migrate_document_records #478

robertatakenaka · 2024-06-20T13:39:11Z

Descrição da tarefa

O procedimento de migração dos registros de documentos é muito lento devido à busca sequencial dos registros nos arquivos *.id localizados em serial, bases-work, bases/artigo, bases/artigo/p (Em fixture há exemplos reais de como podem ser o conteúdo).

scms-upload/migration/controller.py

Line 187 in 64c9952

for doc_id, doc_records in self.classic_website.get_documents_pids_and_records(

Esta função é da biblioteca scielo_migration (https://github.com/scieloorg/scielo_migration)
Nesta estratégia, para cada issue (journal acron + volume + número) é buscado nos arquivos .id disponíveis os registros dos documentos correspondentes e registrado em MigratedArticle.

A proposta alternativa é varrer todos os arquivos id sem filtrar por journal e acron e carregá-los na base de dados. Em etapa posterior, extrair os dados e registrar nos MigratedArticle.

A diferença é que cada arquivo id será percorrido apenas 1 vez.

Etapas

a) obtenção dos arquivos *.id
b) armazenamento do arquivo em banco de dados em modelo que contenha nome do arquivo, a data da coleta, data do arquivo, tamanho do arquivo (Talvez migration.models.MigratedFiles atenda). Estes dados ajudam a identificar se houve atualização dos arquivos .id
c) leitura aos arquivos *.id "novos" registrados no banco de dados para conversão do conteúdo dos arquivos *.id em JSON
d) extração do conteúdo do JSON
e) armazenamento dos registros JSON em MigratedArticle

Notas

Para (a), pode ser usada a classe para obter os caminhos para os arquivos id que
contém registros de documentos https://github.com/scieloorg/scielo_migration/blob/c4ba659b1decf2923fd45dc09f9eb3c59c55d73d/scielo_classic_website/models/issue_files.py#L270
Para (d), pode ser usado https://github.com/scieloorg/scielo_migration/blob/main/scielo_classic_website/iid2json/id2json3.py
Para (e):

podem ser usados https://github.com/scieloorg/scielo_migration/blob/c4ba659b1decf2923fd45dc09f9eb3c59c55d73d/scielo_classic_website/models/document.py#L47 para abstrair os dados contidos no JSON. A classe Document deve ser instanciada com um dicionário (JSON) que contenha as chaves "journal", "issue", "article", sendo que cada valor corresponde ao JSON dos dados do journal, issue, "registros de documentos" relacionados com o artigo em questão.
https://github.com/scieloorg/scielo_migration/blob/c4ba659b1decf2923fd45dc09f9eb3c59c55d73d/scielo_classic_website/models/issue.py#L6
https://github.com/scieloorg/scielo_migration/blob/c4ba659b1decf2923fd45dc09f9eb3c59c55d73d/scielo_classic_website/models/journal.py#L5

The text was updated successfully, but these errors were encountered:

robertatakenaka assigned samuelveigarangel and robertatakenaka and unassigned samuelveigarangel Jun 20, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Otimização no procedimento de carga de task_migrate_document_records #478

Otimização no procedimento de carga de task_migrate_document_records #478

robertatakenaka commented Jun 20, 2024

Otimização no procedimento de carga de task_migrate_document_records #478

Otimização no procedimento de carga de task_migrate_document_records #478

Comments

robertatakenaka commented Jun 20, 2024

Descrição da tarefa

Notas