Skip to content

Gerador de texto treinado nas obras de João Guimarães Rosa

Notifications You must be signed in to change notification settings

turing-usp/gerador-texto-guimaraes

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Gerador de texto de João Guimarães Rosa

Gerador de texto treinado nas obras de João Guimarães Rosa para escrever como o autor.

O site com resultado do projeto pode ser encontrado aqui:

gerador.png

Uso

As dependências do projeto estão disponíveis em requirements.txt e podem ser instaladas com o seguinte comando:

pip install -r requirements.txt

Extração de dados

O corpus foi montado utilizando todas as obras de João Guimarães Rosa, são elas: Sagarana, Corpo de Baile, Grande Sertão Veredas, Primeiras Estórias, Tutameia, Estas estórias e Ave, palavra. Os PDFs de todos as obras foram coletados do site LeLivros.

A extração do texto dos PDFs foi realizada com o arquivo extract_pdf.py.

Informações como notas da editora, prefácios e textos teóricos de outros autores sobre os livros foram retirados manualmente.

Modelo

A construção do modelo utilizado para criar o gerador de texto está disponível em geração_texto.ipynb.

Feito por: Julia Pocciotti

About

Gerador de texto treinado nas obras de João Guimarães Rosa

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published