Skip to content
jamesohortle edited this page Nov 10, 2019 · 2 revisions

Fichiers avec données principales

Les fichiers qui se trouvent sous le dossier data:

  • sections.txt — sections de tableau Unicode
  • sets.txt — ensembles de caractères
  • entities.txt — mnémotechniques (par ex. ©)
  • types.txt — sections par type d'écriture (alphabet, abugida)
  • languages.txt — sections par langue
  • countries.txt — sections par pays
  • specs.txt — caractères de contrôle (par ex. \n)

Ces fichiers ne sont que pour les données communes (c'est-à-dire indépendantes de langue). Tous les noms et descriptions se trouvent dans fichiers de localisation

Format de fichiers

Par exemple, le fichier sections.txt:

# Sections params

[greek-coptic]
	diap            : 0370:03FF
	type            : alphabet
	languages       : greek, coptic
	countries       : greece

[cyrillic]
	diap            : 0400:04FF
	type            : alphabet
	languages       : russian, ukrainian, bulgarian
	countries       : russia, ukraine, bulgaria, serbia, macedonia, moldova

Les lignes commençantes par # sont des commentaires et doivent être ignorées. Les lignes vides s'ignorent également.

Par exemple, deux objets : les alphabets grec et cyrillique.

Les descriptions de sections commencent avec la clé de section (cyrillic) qui est en crochets. Ensuite, une liste de caractéristiques sous la forme caractéristique : valeur.

La clé de l'objet a plusieurs buts :

La clé doit être unique et se composer de caractères minuscules latins, chiffres et / ou traits d'union.

La liste d'arguments dépend du contenu. Les arguments peuvent être obligatoires ou facultatifs. La valeur peut être une chaîne ou une liste de valeurs délimitées par virgules (par ex. russian, ukrainian, bulgarian).

Veuillez noter que nous utilisons des clés au lieu de noms de pays qui peuvent être différents selon la langue. Les clés sont définies dans les fichiers languages.txt et countries.txt.

Sections (sections.txt)

Arguments :

  • diap - le diapason (gamme) de valeurs (par ex. 0370:03FF). Les diapasons de différentes sections ne doivent pas s'intersecter.
  • type - type (par ex. alphabet ou abugida). Correspond aux types de types.txt. Facultatif.
  • languages - une liste de langues qui utilisent les symboles dans cette section. Correspond aux langues de languages.txt. Facultatif.
  • countries - une list de pays qui utilisent les symboles dans cette section. Correspond aux pays de countries.txt. Facultatif.

Ensembles (sets.txt)

Utilisé pour les pages (http://unicode-table.com/sets/)

Arguments :

  • set - une liste de caractères dans cet ensemble

Example:

[set-abcdef]
    set : a, b, c, d, e, f

Types (types.txt)

En ce moment, il n'y a pas d'arguments définis. Spécifiez alors seulement la liste de clés.

[abjad]

[abugida]

[alphabet]

Langues (languages.txt)

De façon similaire à type, les langues ne prennent pas d'argument.

Pays (countries.txt)

Arguments :

  • map - les coordonnées de ce pays. Format : x:y (par ex. 110:75)

Entités caractère de HTML (entities.txt)

Par exemple : © - marque de droit d'auteur.

Le fichier a un format simple :

copy     : 169
ordf     : 170
laquo    : 171
not      : 172

D'abord le nom de séquence (sans & et ;), ensuite le code décimal du caractère.

En ce moment, s'utilise dans les recherches : http://unicode-table.com/en/search/?q=%26copy%3B

Caractères de contrôle (specs.txt)

Ce sont des caractères comme \n, \t etc. Le format du fichier est similaire à entities.txt :

0: 0
a: 7
b: 8
t: 9
n: 10
v: 11
f: 12
r: 13

D'abord, la séquence de caractères sans barre oblique, ensuite le code décimal du caractère. Ceci s'utilise également pour les recherches.

Ajout de nouveaux objets

Veuillez noter que vous ne pouvez faire référence qu'aux objets existants. Par exemple, si vous voulez que cyrillic fasse référence à lang-unknown :

[cyrillic]
	diap            : 0400:04FF
	type            : alphabet
	languages       : russian, ukrainian, bulgarian, lang-unknown

Vous devez créer lang-unknown dans languages.txt et le traduire en autant de langues possibles dans les fichiers de localisation (au moins en anglais).