Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Incorrect language detection for Kazakh texts #160

Closed
kazuser opened this issue Sep 5, 2023 · 3 comments
Closed

Incorrect language detection for Kazakh texts #160

kazuser opened this issue Sep 5, 2023 · 3 comments
Labels
bug Something isn't working
Milestone

Comments

@kazuser
Copy link

kazuser commented Sep 5, 2023

Lingua-py writes "MONGOLIAN", but this is KAZAKH :(

Text:

Language.MONGOLIAN Адамдар жүретін жолдардағы пандустар көлбеуін төменде көрсетілгеннен асырмай алу қажет
Language.MONGOLIAN Балаларды жүзуге үй-рету бассейнінің үй-жайы
Language.MONGOLIAN Биіктігі 50 м астам ғимараттардың өрт бөлігінде екі өрт лифтілерін көздеу қажет
Language.MONGOLIAN Киноэкран өлшемдері сызбада көрсетілген мұндағы
Language.MONGOLIAN Көшіру-көбейту қызметінің үй-жайлары
Language.MONGOLIAN Мүмкіндігі шектеулі келушілер үшін қолжетімділік
Language.MONGOLIAN Мұқабалық - түптеу үй-жайлары
Language.MONGOLIAN Үйірме бөлмелері және музыка кластары
Language.MONGOLIAN Үстел үсті ойындар үйжайлары
Language.MONGOLIAN Үш сағат ішінде сыртынан өрт сөндіруге кететін су шығынын

from lingua import Language, LanguageDetectorBuilder

aDetector = LanguageDetectorBuilder.from_all_languages().build()
aText = "%text%"
aLang = aDetector.detect_language_of(aText)
print(aLang, aText)
@kazuser
Copy link
Author

kazuser commented Sep 6, 2023

:(

Language.ENGLISH нормаланбайды I

from lingua import Language, LanguageDetectorBuilder

aDetector = LanguageDetectorBuilder.from_languages(Language.ENGLISH, Language.KAZAKH).build()
aText = "нормаланбайды I"
aLang = aDetector.detect_language_of(aText)
print(aLang, aText)

@kazuser
Copy link
Author

kazuser commented Sep 6, 2023

Language.ENGLISH III не нормируется I, II

from lingua import Language, LanguageDetectorBuilder

aDetector = LanguageDetectorBuilder.from_languages(Language.ENGLISH, Language.RUSSIAN).build()
aText = "III не нормируется I, II"
aLang = aDetector.detect_language_of(aText)
print(aLang, aText)

@pemistahl
Copy link
Owner

Hi @kazuser, thank you for reporting these issues. I accidentally assumed that the characters ӨөҮү are unique to Mongolian but I've learned that they also occur in Kazakh. The fix for this will be part of the next release which will be published shortly.

@pemistahl pemistahl added this to the Lingua 1.3.3 milestone Sep 11, 2023
@pemistahl pemistahl added the bug Something isn't working label Sep 11, 2023
@pemistahl pemistahl changed the title Incorrect language detection Incorrect language detection for Kazakh texts Sep 27, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants