-
Notifications
You must be signed in to change notification settings - Fork 33
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
收录了错误的单词 #1
Comments
这个词是出现过的,应该是个笔误,而且还出现过很多,我再搜索语料库时把这个词列进来了,找不到解释就google翻译。 |
不过我只用过一段时间的 google 翻译不确定词,后面就没用了,所以这些词应该不多。具体还有哪些,已经不可靠,但是主流词频数据库里的词,各大词典的词头索引部分的词,后来释义又经过我多次校对覆盖,应该没这些问题。 |
“网络”改成“机翻”,大哥不考虑吗? |
因为网络还有很多是真的来自网络的,不是机翻的。已经混起来了。 |
比如你查:right of abode |
以fenced这个词为例,本词典的结果如下
质量不行。 我以为本词库是必应词典的本地词库,但是查了下差别很大,质量上还是比不上在线词典 |
我擦,你尽找些过去式过去分词的来搜索,你搜它的原型嘛,fence 看看全不全。 历史原因,有一部分过去分词或者过去式释义不够好,仅仅一部分。你可以搜索 lemma.en.txt 数据库,把所有 lemma 的衍生词提取出来,并且判断他们不是另一个 lemma,然后用金山词霸释义覆盖之,可以解决你的需求,到时候也发一份更新给我,谢谢。 |
操作的时候可以转成 sqlite 数据库,方便修订和更新,发布了再转回 csv |
或者你发现某个单词其实是另外一个单词的衍生词时(exchange字段),直接显示该原型词汇,就和必应干的一样,然后下面加一行(fenced 是 fence 的过去式和过去分词) |
我做这个词典前后几年,也对比了很多,金山词霸一些词比必应好,但是必应再一些生僻词以及词组方面的释义强过金山词霸很多,你对比下:right of abode 的释义就知道了。 |
我以前想过这种做法,但问题是有些动词的过去分词作为形容词用,这时候如果转回动词原型就会丢掉形容词的词义,所以作罢。 关于自己做字典这个事情,我对此完全属于外行,要做也是很久以后的事情了,目前只是在利用大哥你的词典打算做个类似于金山词霸这种软件而已,偶尔发现有些词的释义质量一般~ |
是不是考虑一下把那种仅有 |
@gitterliu 确实,如你所说的情况还是比较普遍的 |
没有senario这个单词
https://en.oxforddictionaries.com/search?filter=dictionary&query=senario
https://cn.bing.com/dict/search?q=senario&go=搜索&qs=ds&form=Z9LH5
但是查到的结果却显示
这种错误单词混进来很影响词典质量啊,希望去掉
另外,“[网络]”这种标识文档说是“机器翻译”出来的,这种标识会让人误以为改词是“网络”相关专业术语,所以建议把标识改成“机翻”
The text was updated successfully, but these errors were encountered: