Краулеры для проекта Taiga Corpus и Taiga Parser, скачивание ресурсов из открытых источников
Ресурсы к скачиванию: Новости
Фонтанка (Оля)
Ведомости (Оля)
Известия (Оля)
Интерфакс (Таня)
Комсомольская Правда (Таня)
Лента ру (Таня)
Газета ру (Оля)
Худлит
Журнальный зал (Таня)
Остальное
Прожито ру (?)
oral history (Оля)
nplus1 (Таня)
postnauka (Таня)
Стихи ру (Таня)
Проза ру (Таня)
Арзамас (Оля)
Все скачанные данными скриптами материалы необходимо проверять на наличие лишних тегов, достоверность метатекстовой разметки и дедублицировать отдельно.