Skip to content

huangy10/PatentData

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

这个爬虫项目是用来爬取http://www.soopat.com 这个专利网站的数据的。

因为之前DJANGO用的比较多,这里使用了DJANGO的ORM。

数据输入为Patent/data/companies.xlsx文件,输出在output.xlsx。cell中的数据意思为: 有效专利数量[申请中专利数量](失效专利数量),注意输出的2004年份实际代表的是2004年及以前的数量总和。

运行是,设置好PYTHON_PATH环境变量,具体方法为

export PYTHON_PATH = "$PYTHON:path/to/project"

About

爬取专利信息的爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published