Projeto desenvolvido pelo Grupo Turing para classificar poemas do Fernando Pessoa de acordo com o heterônimo que os escreveu. Nesse classificador, foram considerados os quatro principais heterônimos com mais textos disponíveis: Bernardo Soares, Alberto Caeiro, Ricardo Reis e Álvaro de Campos.
Mais informações estão disponíveis no post do medium sobre o projeto: Como Machine Learning consegue diferenciar heterônimos de Fernando Pessoa.
Esse projeto foi desenvolvido utilizado Python 3 e Jupyter notebooks. Ele pode ser visualizado online em um binder.
Alternativemente, as dependências desse projeto estão listadas em requirements.txt. Para instalá-las, utilize o comando:
pip install -r requirements.txt
Os dados foram extraídos do site arquivopessoa.net utilizando scrapy e estão disponíveis no arquivo fernando_pessoa.csv. As colunas do dataset estão exemplificadas abaixo:
id | autor | titulo | tipo | texto | data | bibliografia |
---|---|---|---|---|---|---|
4 | Ricardo Reis | Diana através dos ramos | poesia | Diana através dos ramos Espreita a vinda de Endymion... |
16-6-1914 | Poemas de Ricardo Reis. Fernando Pessoa. (Edição Crítica de... |
5 | Fernando Pessoa | A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS | prosa | A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS... | 10-3-1933 | Páginas de Pensamento Político. Vol II. Fernando Pessoa... |
Para rodar o scraper, basta executar:
scrapy crawl ArquivoPessoa -o fernando_pessoa.csv
A análise de dados está disponível no arquivo analise.ipynb e pode ser visualizada diretamente no github. Para modificar e executar o código, o notebook deve ser aberto no binder ou no jupyter notebook.
Esse projeto depende das seguintes bibliotecas:
Além disso, a análise de dados foi feita em jupyter notebooks.
Desenvolvido pela área de PLN (processamento de linguagem natural) do Turing USP:
Distribuído sob a licença MIT. Veja LICENSE
para mais informações.