Skip to content

Commit

Permalink
Fix the link for the termtree (PaddlePaddle#402)
Browse files Browse the repository at this point in the history
* Fix the link for the termtree

* fix the format for the termtree readme
  • Loading branch information
wawltor authored May 18, 2021
1 parent e11763d commit 55e96ba
Show file tree
Hide file tree
Showing 3 changed files with 29 additions and 27 deletions.
8 changes: 4 additions & 4 deletions examples/text_to_knowledge/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -7,13 +7,13 @@

![解语框架结构](./doc/img/text_to_knowledge.png)

**解语由以下三部分构成:**
**解语由以下三部分构成:**

- [百科知识树(TermTree)](./termtree) :包括能够描述所有中文词汇的TermType词类体系,以及Term关系和属性值。
- 中文知识标注工具集:包括[词类知识标注工具(WordTag)](./wordtag) 和名词短语标注工具(NPTag),为中文文本解析提供词类序列标注框架,结合百科知识树可实现定制化词类序列标注。
- [中文预训练语言模型(ERNIE-CTM)](./ernie-ctm) :适用于中文文本挖掘任务的预训练语言模型,汉字字表扩充为2万+,解决中文文本挖掘中常见的UNK(未收录字符)问题。

**本次发布的解语开源试用版包括:**
**本次发布的解语开源试用版包括:**

- 百科知识树(TermTree)V1.0试用版:包括简化版的TermType词类体系,和约100w的term集。
- 中文词类知识标注工具(WordTag)V1.0版。
Expand Down Expand Up @@ -146,7 +146,7 @@ WordTag的标注结果中,区分了“人物类\_实体”和“人物类\_概

## 后续计划

1. 发布百科知识树(TermTree)正式版数据,建立知识共建社区,支持用户提交应用词表/应用图谱 & 定制化TermTree;
1. 发布百科知识树(TermTree)正式版数据,建立知识共建社区,支持用户提交应用词表/应用图谱 & 定制化TermTree, [TermTree下载链接](https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz)
2. 持续优化ERNIE-CTM预训练模型,支持多种参数规模模型发布,探索更好的适配中文解析挖掘任务的预训练模型;
3. 持续优化中文文本知识标注工具集,提供更加精准的知识标注服务;发布多粒度标注工具,支持更加丰富的应用场景。

Expand All @@ -169,4 +169,4 @@ WordTag的标注结果中,区分了“人物类\_实体”和“人物类\_概

## 问题与反馈

解语在持续优化中,如果您有任何建议或问题,欢迎提交issue到Github。
解语在持续优化中,如果您有任何建议或问题,欢迎提交issue到Github。
40 changes: 21 additions & 19 deletions examples/text_to_knowledge/termtree/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,17 +2,19 @@
TermTree(百科知识树)是一个描述所有中文词汇(包括概念、实体/专名、领域术语、语法词等,统一称之为Term)的树状知识库,完整的TermTree由两部分构成:

> I. TermType词类体系:覆盖所有中文词汇词类的树状知识体系,是对中文词汇集合的一种全划分层次表示;
>
>
> II. Term关系和属性值:描述具体Term之间关系和Term属性值网状图谱,用于整合各应用知识图谱;
本次发布的TermTreeV1.0试用版是TermTree的一个常用子集,包括两部分内容:

> A. 简化版的TermType词类体系,由160+ termtype(三层结构)和 7000+ subtype构成。
>
>
> B. 约100w的term集(挂接在TermType词类体系下),包括大多数常用概念(src=cb,基础概念库,termtype准确率为98%)和一部分高频百科实体(src=eb,基础实体库,termtype准确率为95%)。
>
> 开源版不包括Term关系和属性值,但给出了实体的百科词条链接,应用方可以利用百科链接整合其他知识图谱使用。
我们提供了TermTreeV1.0试用版的下载链接供大家使用,[下载链接](https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz)

**注:** 与其他常见应用知识图谱不同,TermTree的核心是概念词,而非专名实体词。因为,在中文文本中,概念词的含义是相对稳定的,而专名实体词随应用变化(例如,不同电商有不同的商品实体集,不同的小说站有不同的小说实体集),因此,TermTree通过 “提供常用概念集 + 可插拔的应用实体集/应用知识图谱” 来达到支持不同的应用适配。

**常见问题1:为什么TermTree采用树状结构(Tree),而不是网状结构(Net/Graph)?**
Expand Down Expand Up @@ -99,7 +101,7 @@ TermTree(百科知识树)是一个描述所有中文词汇(包括概念、
]
},
{
"id": "688dc07cc98f02cbd4d21e2700290590",
"id": "688dc07cc98f02cbd4d21e2700290590",
"subtype": [
"影视作品_cb_韩国电影"
],
Expand All @@ -114,7 +116,7 @@ TermTree(百科知识树)是一个描述所有中文词汇(包括概念、
]
},
{
"id": "bbf4abe6ac412b181eac383333ca9fef",
"id": "bbf4abe6ac412b181eac383333ca9fef",
"subtype": [
"影视作品_cb_剧情电影"
],
Expand Down Expand Up @@ -154,20 +156,20 @@ TermTree(百科知识树)是一个描述所有中文词汇(包括概念、

5. 为重要的概念/实体构建完整上位归类路径(**注:** TermTreeV1.0试用版暂不包括),用于细粒度特征计算和知识推断,参见以下示例

| term | 类别| src| 上位归类路径示例 |
|---|---|---|---|
|苹果 | 植物类|cb|苹果 → 苹果属 → 蔷薇科 → 蔷薇目 → 双子叶植物纲 → 被子植物门 → 种子植物 → 植物界 → 真核生物域 → 生物|
| 黄香蕉苹果| 饮食类|cb|黄香蕉苹果 →苹果 →水果 → 蔬果和菌藻类 →食材 →食物 →饮食|
|甲型流感 | 疾病类|cb|甲型流感 → 流行性感冒 → 感冒 → 呼吸道感染 → 呼吸系统疾病 → 疾病损伤 → 生物疾病|
|甲型流感病毒| 微生物类|cb|甲型流感病毒 → 流行性感冒病毒 → 正粘病毒科 → RNA病毒 → 生物病毒 → 病原微生物 → 微生物 → 生物|
|琴房| 区域场所类|cb|琴房 → 音乐室 → 活动室 →活动场所 →区域场所|
|琴房| 音乐类|eb|琴房 → 歌曲 →音乐作品 →艺术作品 →作品 → 作品与出版物|
|认同感 | 生活用语类|cb|认同感 →正面感受 → 感受 → 知觉感受 → 个体描述 → 生活用语|
| 认同感| 图书类|eb|认同感 →书籍 →图书 →书刊 →出版物 → 作品与出版物|
|佛罗伦萨足球俱乐部| 体育组织机构|eb|佛罗伦萨足球俱乐部 →意大利足球联赛球队→职业足球俱乐部→足球俱乐部 →足球队 →球队 →运动队 →体育组织机构 →组织机构|
|佛罗伦萨市 | 世界地区类|cb|佛罗伦萨市 →托斯卡纳大区 →意大利 →南欧 →欧洲 →地球区域 →世界地区|
|言情小说 | 小说类|cb|言情小说 →情感小说 →小说 →文学作品 →作品 →作品与出版物|
| 言情小说| 音乐类|eb|言情小说 → 歌曲 →音乐作品 →艺术作品 →作品 → 作品与出版物|
| term | 类别| src| 上位归类路径示例 |
|---|---|---|---|
|苹果 | 植物类|cb|苹果 → 苹果属 → 蔷薇科 → 蔷薇目 → 双子叶植物纲 → 被子植物门 → 种子植物 → 植物界 → 真核生物域 → 生物|
| 黄香蕉苹果| 饮食类|cb|黄香蕉苹果 →苹果 →水果 → 蔬果和菌藻类 →食材 →食物 →饮食|
|甲型流感 | 疾病类|cb|甲型流感 → 流行性感冒 → 感冒 → 呼吸道感染 → 呼吸系统疾病 → 疾病损伤 → 生物疾病|
|甲型流感病毒| 微生物类|cb|甲型流感病毒 → 流行性感冒病毒 → 正粘病毒科 → RNA病毒 → 生物病毒 → 病原微生物 → 微生物 → 生物|
|琴房| 区域场所类|cb|琴房 → 音乐室 → 活动室 →活动场所 →区域场所|
|琴房| 音乐类|eb|琴房 → 歌曲 →音乐作品 →艺术作品 →作品 → 作品与出版物|
|认同感 | 生活用语类|cb|认同感 →正面感受 → 感受 → 知觉感受 → 个体描述 → 生活用语|
| 认同感| 图书类|eb|认同感 →书籍 →图书 →书刊 →出版物 → 作品与出版物|
|佛罗伦萨足球俱乐部| 体育组织机构|eb|佛罗伦萨足球俱乐部 →意大利足球联赛球队→职业足球俱乐部→足球俱乐部 →足球队 →球队 →运动队 →体育组织机构 →组织机构|
|佛罗伦萨市 | 世界地区类|cb|佛罗伦萨市 →托斯卡纳大区 →意大利 →南欧 →欧洲 →地球区域 →世界地区|
|言情小说 | 小说类|cb|言情小说 →情感小说 →小说 →文学作品 →作品 →作品与出版物|
| 言情小说| 音乐类|eb|言情小说 → 歌曲 →音乐作品 →艺术作品 →作品 → 作品与出版物|
> **注:** TermType词类体系可视为所有上位归类路径的集合。
## TermTree应用方式
Expand Down Expand Up @@ -195,4 +197,4 @@ TermTree(百科知识树)是一个描述所有中文词汇(包括概念、

## 问题与反馈

百科知识树在持续扩充优化中,如果您有任何建议或发现数据问题,欢迎提交issue到Github。
百科知识树在持续扩充优化中,如果您有任何建议或发现数据问题,欢迎提交issue到Github。
8 changes: 4 additions & 4 deletions examples/text_to_knowledge/wordtag/predictor.py
Original file line number Diff line number Diff line change
Expand Up @@ -23,7 +23,7 @@
import pandas as pd
from paddlenlp.datasets import MapDataset
from paddlenlp.data import Stack, Pad, Tuple
from paddle.utils.download import get_path_from_url
from paddlenlp.utils.downloader import get_path_from_url
from paddlenlp.utils.env import MODEL_HOME
from paddlenlp.transformers import ErnieCtmWordtagModel, ErnieCtmTokenizer

Expand Down Expand Up @@ -93,8 +93,8 @@
}

URLS = {
"termtree.rawbase":
"https://paddlenlp.bj.bcebos.com/paddlenlp/resource/termtree.rawbase",
"TermTree.V1.0":
"https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz",
"termtree_type.csv":
"https://paddlenlp.bj.bcebos.com/paddlenlp/resource/termtree_type.csv",
"termtree_tags.txt":
Expand All @@ -116,7 +116,7 @@ def __init__(self, model_name="wordtag", term_linking=True, tag_path=None):
The tag vocab path.
"""
term_schema_path = self._download_termtree("termtree_type.csv")
term_data_path = self._download_termtree("termtree.rawbase")
term_data_path = self._download_termtree("TermTree.V1.0")
if tag_path is None:
tag_path = self._download_termtree("termtree_tags.txt")
self._tags_to_index, self._index_to_tags = self._load_labels(tag_path)
Expand Down

0 comments on commit 55e96ba

Please sign in to comment.