Skip to content

TTS FrontEnd DataSet: Polyphone / Prosody / TextNormalization

License

Notifications You must be signed in to change notification settings

thundax-lyp/tts-frontend-dataset

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

tts-frontend-dataset

TTS 前端数据集汇总: 多音字 / 韵律 / 文本归一化 TTS FrontEnd DataSet: Polyphone / Prosody / TextNormalization

欢迎贡献,添加更多数据集, Feel free to contribute and add more datasets!

链接:语音 AI 共创知识库

ChangeLog

Todo

  • 添加更多语种数据

数据说明

中文Chinese

英文English

粤语Cantonese

参考开源项目 Reference github project

Chinese

English

Cantonese

https://github.com/jacksonllee/pycantonese

  • TN
  • G2P
  • Prosody

声明 Declaration

如有侵权请联系我 If there is any infringement, please contact me

讨论 Discussion

使用 chatgpt 标注多音字?

使用 gpt 4, 可能是我使用姿势不对, 没有得到一个好的结果, 我没有做深入的尝试, 如果你能得到一个好的结果欢迎与我分享

User:

你现在是一个中文多音字数据标注员,请按照以下格式对中文的多音字进行标注,例子:

宋代出现了▁le5▁燕乐音阶的记载
爆发了▁le5▁占领华尔街示威活动

请标注下面数据中的多音字

12月2日,江西南昌一彩票店售出中得2.2亿元大奖的彩票
为城市一线工作者营造温馨舒适的生活环境、提供多元化的配套服务。
被砸得一踏糊涂

ChatGPT

根据您的要求,这里是对给定文本中多音字的标注:

12月2日,江西南昌一彩票店售出中得▁zhong4▁2.2亿元大奖的彩票
为城市一线工作者营造温馨舒适的生活环境、提供多元化的配套服务。
被砸得一踏糊涂
在这些句子中,我只找到了一个多音字的例子,即“中”在“中得2.2亿元大奖”的上下文中读作“zhong4”。其他句子中没有显而易见的多音字。

User

继续标注

若是能让东冕少主看上
与祝先生同行的夏先生因为没注意
强烈的感觉到主人有难瞬间跳出灵魂空间

ChatGPT

以下是对您提供的文本中的多音字进行标注:

若是能让东▁mian3▁冕少主看上
与祝先生同行的夏▁xia4▁先生因为没注意
强烈的感觉到主人有难瞬间跳出灵魂空间
在这些句子中,“冕”在“东冕少主”中读作“mian3”,而“夏”在“夏先生”中读作“xia4”。其他部分没有发现多音字的用例。

About

TTS FrontEnd DataSet: Polyphone / Prosody / TextNormalization

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%