Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Check 442 - Proceso de detección del lenguaje con resultados erróneos #27

Open
jolr opened this issue Sep 9, 2021 · 1 comment
Open

Comments

@jolr
Copy link

jolr commented Sep 9, 2021

Buenas tardes,

Se da el caso de que en un análisis de tipo "Código fuente", sobre una página declarada y con el contenido en español (xml:lang="es" lang="es") , OAW detecta la siguiente incidencia correspondiente al código de check 442:

El idioma de la página no coincide con el especificado.
El idioma principal empleado en la página no se corresponde con el idioma definido en el
atributo lang (o xml:lang) del elemento HTML. En caso de incluir fragmentos de textos en otros
idiomas, es necesario que se identifique el cambio de idioma para dichos fragmentos. Para
ello, se han de identificar los cambios de idioma mediante el atributo lang (o xml:lang para
XHTML servido como XML) del elemento que contiene al fragmento de texto en un idioma
diferente (p. ej. P, DIV, SPAN, EM, etc.).
El código a usar será un código de idioma válido según el 'Registro de subetiqueta de idioma
de la IANA' (p. ej. 'es' para español, 'eu' para euskera, 'ca' para catalán, 'gl' para gallego, 'en'
para inglés, 'fr' para francés, etc.).
Si se identifican correctamente los idiomas usados los lectores de pantalla podrán emplear la
entonación y pronunciación adecuada para los mismos.
Se puede comprobar la lista completa de códigos de idioma de IANA en la siguiente dirección:
http://www.iana.org/assignments/language-subtag-registry`

En la clase GuessLanguaje.java se produce la llamada al método check(sample, ALL_LATIN) devolviendo como resultado "ast", correspondiente al código del lenguaje asturiano.
Precisamente la puntuación obtenida en la llamada a scores.put(distance(model, models.get(key)), key), se observa que los código de lang "ast" y "es" son muy parecidos, de ahí la incidencia ocurrida únicamente al agregar un nuevo elemento al HTML.

194531 ast
194617 es
200586 pt
202452 ca
202530 it
213751 fr
219917 en
220666 de
221773 eu

¿Qué se podría hacer al respecto?.

Por otro lado, como sugerencia, sería interesante que se aportara en el informe más información cuando se detecte esta incidencia, como el lenguaje detectado por OAW sobre el falso positivo.

Gracias, un saludo.

@orioltestart
Copy link

Buenos días,

Nos encontramos con el mismo problema, @jolr pudiste solucionarlo?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants