Incorrect language detection for Kazakh texts #160

kazuser · 2023-09-05T09:42:16Z

Lingua-py writes "MONGOLIAN", but this is KAZAKH :(

Text:

Language.MONGOLIAN Адамдар жүретін жолдардағы пандустар көлбеуін төменде көрсетілгеннен асырмай алу қажет
Language.MONGOLIAN Балаларды жүзуге үй-рету бассейнінің үй-жайы
Language.MONGOLIAN Биіктігі 50 м астам ғимараттардың өрт бөлігінде екі өрт лифтілерін көздеу қажет
Language.MONGOLIAN Киноэкран өлшемдері сызбада көрсетілген мұндағы
Language.MONGOLIAN Көшіру-көбейту қызметінің үй-жайлары
Language.MONGOLIAN Мүмкіндігі шектеулі келушілер үшін қолжетімділік
Language.MONGOLIAN Мұқабалық - түптеу үй-жайлары
Language.MONGOLIAN Үйірме бөлмелері және музыка кластары
Language.MONGOLIAN Үстел үсті ойындар үйжайлары
Language.MONGOLIAN Үш сағат ішінде сыртынан өрт сөндіруге кететін су шығынын

from lingua import Language, LanguageDetectorBuilder

aDetector = LanguageDetectorBuilder.from_all_languages().build()
aText = "%text%"
aLang = aDetector.detect_language_of(aText)
print(aLang, aText)

kazuser · 2023-09-06T13:12:24Z

:(

Language.ENGLISH нормаланбайды I

from lingua import Language, LanguageDetectorBuilder

aDetector = LanguageDetectorBuilder.from_languages(Language.ENGLISH, Language.KAZAKH).build()
aText = "нормаланбайды I"
aLang = aDetector.detect_language_of(aText)
print(aLang, aText)

kazuser · 2023-09-06T13:57:36Z

Language.ENGLISH III не нормируется I, II

from lingua import Language, LanguageDetectorBuilder

aDetector = LanguageDetectorBuilder.from_languages(Language.ENGLISH, Language.RUSSIAN).build()
aText = "III не нормируется I, II"
aLang = aDetector.detect_language_of(aText)
print(aLang, aText)

pemistahl · 2023-09-11T15:08:39Z

Hi @kazuser, thank you for reporting these issues. I accidentally assumed that the characters ӨөҮү are unique to Mongolian but I've learned that they also occur in Kazakh. The fix for this will be part of the next release which will be published shortly.

pemistahl added a commit that referenced this issue Sep 11, 2023

Remove incorrect unique characters for Mongolian (#160)

cba186c

pemistahl added this to the Lingua 1.3.3 milestone Sep 11, 2023

pemistahl added the bug Something isn't working label Sep 11, 2023

pemistahl closed this as completed Sep 11, 2023

pemistahl changed the title ~~Incorrect language detection~~ Incorrect language detection for Kazakh texts Sep 27, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Incorrect language detection for Kazakh texts #160

Incorrect language detection for Kazakh texts #160

kazuser commented Sep 5, 2023

kazuser commented Sep 6, 2023 •

edited

Loading

kazuser commented Sep 6, 2023

pemistahl commented Sep 11, 2023

Incorrect language detection for Kazakh texts #160

Incorrect language detection for Kazakh texts #160

Comments

kazuser commented Sep 5, 2023

kazuser commented Sep 6, 2023 • edited Loading

kazuser commented Sep 6, 2023

pemistahl commented Sep 11, 2023

kazuser commented Sep 6, 2023 •

edited

Loading