Classificador de Poemas do Fernando Pessoa

Projeto desenvolvido pelo Grupo Turing para classificar poemas do Fernando Pessoa de acordo com o heterônimo que os escreveu. Nesse classificador, foram considerados os quatro principais heterônimos com mais textos disponíveis: Bernardo Soares, Alberto Caeiro, Ricardo Reis e Álvaro de Campos.

Mais informações estão disponíveis no post do medium sobre o projeto: Como Machine Learning consegue diferenciar heterônimos de Fernando Pessoa.

Pré-requisitos

Esse projeto foi desenvolvido utilizado Python 3 e Jupyter notebooks. Ele pode ser visualizado online em um binder.

Alternativemente, as dependências desse projeto estão listadas em requirements.txt. Para instalá-las, utilize o comando:

pip install -r requirements.txt

Guia de Uso

Extração de Dados

Os dados foram extraídos do site arquivopessoa.net utilizando scrapy e estão disponíveis no arquivo fernando_pessoa.csv. As colunas do dataset estão exemplificadas abaixo:

id	autor	titulo	tipo	texto	data	bibliografia
4	Ricardo Reis	Diana através dos ramos	poesia	Diana através dos ramos Espreita a vinda de Endymion...	16-6-1914	Poemas de Ricardo Reis. Fernando Pessoa. (Edição Crítica de...
5	Fernando Pessoa	A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS	prosa	A REFORMA DO CALENDÁRIO E AS SUAS CONSEQUÊNCIAS COMERCIAIS...	10-3-1933	Páginas de Pensamento Político. Vol II. Fernando Pessoa...

Para rodar o scraper, basta executar:

scrapy crawl ArquivoPessoa -o fernando_pessoa.csv

Análise de Dados

A análise de dados está disponível no arquivo analise.ipynb e pode ser visualizada diretamente no github. Para modificar e executar o código, o notebook deve ser aberto no binder ou no jupyter notebook.

Créditos

Esse projeto depende das seguintes bibliotecas:

Além disso, a análise de dados foi feita em jupyter notebooks.

Autores

Desenvolvido pela área de PLN (processamento de linguagem natural) do Turing USP:

Licença

Distribuído sob a licença MIT. Veja LICENSE para mais informações.

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
scraper		scraper
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
analise.ipynb		analise.ipynb
fernando_pessoa.csv		fernando_pessoa.csv
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Classificador de Poemas do Fernando Pessoa

Pré-requisitos

Guia de Uso

Extração de Dados

Análise de Dados

Créditos

Autores

Licença

About

Releases

Packages

Contributors 5

Languages

License

turing-usp/fernando-pessoa

Folders and files

Latest commit

History

Repository files navigation

Classificador de Poemas do Fernando Pessoa

Pré-requisitos

Guia de Uso

Extração de Dados

Análise de Dados

Créditos

Autores

Licença

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 5

Languages

Packages