Skip to content

Commit

Permalink
Update 2. 日本語デジタルテキスト入門(Introduction to Japanese Digital Text).md
Browse files Browse the repository at this point in the history
2024-10-24の編集会議を反映
  • Loading branch information
kidayasuo authored Oct 24, 2024
1 parent c71cae5 commit 3398987
Showing 1 changed file with 59 additions and 47 deletions.
Original file line number Diff line number Diff line change
@@ -1,11 +1,11 @@
# 2 日本語デジタルテキスト入門(タイトル気に食わない)(Introduction to Japanese Digital Text)
# 2 日本語デジタルテキスト入門(Introduction to Japanese Digital Text)
> 理論的基礎というよりは、普通の人にも読んで欲しいので「入門 / Introduction to」を使う。
> この章で、日本語デジタルテキストの基礎、および組版・テキストレイアウトの観点での日本語デジタルテキストの作り方を述べる。対象は、jlreq-dの読者全て。特に対象読者のうち三番目、日本語テキストを書く人はこの章までで読み止めても大丈夫なようにする。
前章で述べたように、デジタルテキストにおいては、書き手が組版の大きな部分を担っているので、書き手が意図通りのデジタルテキストを作る方法を知っていることが重要である。

この章で説明するが、デジタルテキストで重要なことは、目の前のテキストの見かけが正しければ全て良し、というわけではない、ということだ。例えば、横書きで長音とダーシは形がよく似ていて、間違った方を使っても読めるが、意味が全く異なり、また組版上の処理も異なる。
この章で説明するが、デジタルテキストで重要なことは、目の前のテキストの見かけが正しければ全て良し、というわけではない、ということだ。例えば、横書きで長音とダーシは形がよく似ていて、間違った方を使っても読めるが、意味が全く異なり、また組版上の処理も異なる。(検索の問題)

このために書き手が気をつけるべきことをこの章にまとめた。同時に、この章は以降の章のための基礎となる。

Expand Down Expand Up @@ -67,25 +67,26 @@
### 漢字
漢字は中国で生まれた表意文字であり、それぞれの文字が一つもしくは複数の概念を表す。非常に多くの文字が存在する。漢字一つ一つが英単語やその語根、歴史上存在したスペリングなどに対応するものと考えると、その多さを理解しやすいだろう。日本語において漢字は主に内容語(content words)を作る。

また、既に述べたように多くの漢字や複合語には複数の読みがあり、これが日本語における表記と読みの二重構造を作っている。
また、既に述べたように多くの漢字には複数の読みがあり、これが日本語における表記と読みの二重構造を作っている。

### アラビア数字
歴史的には数字を漢字で示していたが、現代では数量を表す際にアラビア数字の使用が増えている。一方、熟語や慣用句の中に数字が現れる場合は漢字を使う。
### アラビア数字と漢数字
歴史的には数字を漢字で示していたが、現代では数量を表す際にアラビア数字の使用が増えている。一方、固有名詞や慣用句の中に数字が現れる場合は漢字を使う。
> 例を挙げる:**三日坊主 (“Short-lived enthusiasm”)**、議論で出てきた他の例:一貫の終わり、一進一退、八重桜、八十八夜、五十歩百歩、四日市市、二酸化炭素、十字路、八目鰻、第二次世界大戦、一日二日一つ二つ(訓読み)、十日、11日、
> また英語の例も:two sides vs 2 sides、a thousand and one nights vs 1001 nights(千一夜物語)、The seven Seas など
(間違えやすい例を一つ。また英語の例も一つ:two sides vs 2 sides、a thousand and one nights vs 1001 nights(千一夜物語)、The seven Seas など)
縦書きにおいては数量の表記でも漢数字を使うのが一般的であったが、最近ではアラビア数字にする例が増えている。一方、横書きでは従来からアラビア数字が使用されている。

### 英字
英字は、西欧語由来の単語や技術的な内容を表すために使用される。また、ブランド名、製品名や企業名などを中心に、外国由来でなくても英字を使用した単語が使われることがあり、略語や記号としても広く利用されている。これらに見られるように、英字は現代日本語の一部として定着している
### ラテン文字
ラテン文字は、西欧語由来の単語や技術的な内容を表すために使用される。また、ブランド名、製品名や企業名などを中心に、外国由来でなくてもラテン文字を使用した単語が使われることがあり、略語や記号としても広く利用されている。これらに見られるように、ラテン文字は現代日本語の一部として定着している

数字と英字をまとめて英数字と呼ぶ。英数字は一般的に一文字一文字独自の幅を持つ。
アラビア数字と英字をまとめて英数字と呼ぶ。英数字は一般的に一文字一文字独自の幅を持つ。

### 和文と欧文の約物
### 約物
約物(やくもの)とは、記号\*の一種で、文章に使われ、文章の意味や構造を明確にするために使われる文字の総称である。

\* 記号とは言語の基本単位としての文字(Letter)ではない文字で、特定の意味や機能を持ち、情報を補完したり、特定の操作や概念を表現する。記号には約物以外に、数学記号や通貨記号、矢印、絵文字をはじめとするピクトグラムなどがある。
> 英語ではLetter vs Characterの区別があるが、日本語でどのように言い分けるのが良いだろう?
和文約物には欧文約物が起源のものが多く、見かけや用法の似ているものが多い。ただし、同じように見えるものでも、和文文字に合わせたデザインになっているので混用は望ましくない。

和字とともに使われるようにデザインされている和文約物と、ラテン文字とともに使われるようにデザインされている欧文約物がある。代表的な和文約物に以下のものがある。
代表的な和文約物に以下のものがある。

- 句読点:
- 読点(、)
Expand Down Expand Up @@ -121,75 +122,86 @@
> '(FULLWIDTH APOSTROPHE)
> `(FULLWIDTH GRAVE ACCENT)
和文約物には欧文約物が起源のものが多く、見かけが似ているものが多い。ただし、同じように見えるものでも、和文文字に合わせたデザインになっているので混用は望ましくない。

約物の使い方は次節で説明する。

### 絵文字
日本の携帯電話で発明されたピクトグラムであり、多くは色を使っている。Unicode化され、世界中に広まった。
### 記号と絵文字
記号とは言語の基本単位としての文字(Letter)ではない文字で、特定の意味や機能を持ち、表現を補完したり、特定の概念を表現する。記号には数学記号や通貨記号、矢印、絵文字をはじめとするピクトグラムなどがある。

絵文字は日本の携帯電話で発明されたピクトグラムであり、多くは色を使っている。Unicode化され、世界中に広まった。

### 特殊な文字
### 全角英数字と半角カタカナ
#### 全角英数字
歴史的な理由(金属活字の作業性)から、英数字には本来の文字に加えて、全角英字や全角数字と呼ばれる固定全角幅を持つ文字が存在する。(Unicodeの文字コード範囲を示すか?)
歴史的な理由、金属活字の作業性から、英数字には本来の文字に加えて、全幅の固定幅を持つ文字が存在する。これらは全角英字や全角数字と呼ばれる。
> 文字の例
> (Unicodeの文字コード範囲を示すか?)
全角英数字を本来の文字と混ぜて使うとデザインが不統一になるので利用には注意が必要である。詳しくは次節で述べる。
全角英数字を本来の文字と混ぜて使うとデザインが不統一になるので利用には注意が必要である。また、英単語や二桁以上の数量表現に使用すると字間が空いて読みににくくなる。詳しくは次節で述べる。

なお、全角英数字と対比して、通常の英数字を表す言葉として、全角の半分の幅を意味する「半角文字」「半角英字」「半角数字」という言葉が使われることがある。初期のコンピューターでは英数字はいわゆる半角幅を持っていたが、現代のデジタルデバイスにおいて英数字は一般的に文字ごとに幅を持っているので、これはもはや技術的に間違った用語である。

#### 半角カタカナ
初期のコンピューターではターミナル画面上に一般的に縦横2:1の固定の大きさにアルファベットを表示するようになっていた。これら初期のデバイス上で日本語を表示するために作られた文字が半角カタカナであり、現在では歴史的な互換性のために存在している。

可読性に劣り、また他の文字との視覚的一貫性にも問題があるため、半角カタカナの使用は避けるべきである。これらの文字の入力の難しいデバイスも多い。

## 2.3 文字の使い方
> ここでは、組版が正しく行われるための、文字の使い方を述べる。ここでは文字の使い方、選び方を説明し、レイアウトの詳細には立ち入らない。
> 書くことの意味が、紙とデジタルで変わっている。デジタルでは目の前の見かけではなく、正確に文字コードを選ぶ必要がある。ゆえに正しい文字の選び方、使い方が重要。適切な入力支援が必要。
ここでは、組版や検索をはじめとするデジタルテキストの処理が正しく行われるための、文字の使い方を述べる。

> この2.3節の各項目は敏先生にドラフトをお願いできると嬉しいです
デジタルテキストで重要なことは、目の前のテキストの見かけが正しければ全て良し、というわけではない、ということだ。例えば、横書きで長音とダーシは形がよく似ていて、間違った方を使っても読めるが、意味が全く異なり、また組版上の処理も異なる

> この節で言うことがあまりない場合、2.2節の文字の種類か、もしくは基礎フォーマットに統合する?
> ここで入力支援の必要性を説明する。xxxとなっているのが望ましい的な文。
> 正しい約物の選択を支援すること。特に、和文約物と欧文約物の区別、似た形の約物の区別。一番支援が欲しいのが約物なのでここに置いてあるが、場所は他でも。
> todo: JLReq をスキャンして、文字の使い方に関連することを拾い出す。Unicode confusable を利用して見た目で紛らわしく、誤用しやすい文字を探すか?
>
### 全角英数字
全角英数字には以下のような欠点があるので使用には注意が必要である。
> ここでは文字の使い方、選び方を説明し、レイアウトの詳細には立ち入らない。
- 本来の文字と混ぜて使うと視覚的一貫性を損なう。同じ文字でも、幅の異なるものが混在することになり、さらに国際化環境など英数字に和字とは異なるフォントが用いられる場合には文字デザインの一貫性も損なわれる。
- 英字略語のように一文字一文字読む場合を除き、英単語や英文などに用いると可読性に劣る。
- 幅が通常の文字に比べて長いため、文字列が長くなる。
- アクセントの付いたものは存在せず、よってアクセント付き文字の必要な単語を表す時には使えない。
- 全角英数字はURLの構造的部分に使うべきではない。URLの構造的部分は通常の英数字を用いることが規定されており、全角英数字を使うと動作しないなどエラーの原因になり、読み手に負担をかけることになる。URL以外でも、HTML/CSSやmarkdownなどの機能的な部分に使用することはできない。
> 書くことの意味が、紙とデジタルで変わっている。デジタルでは目の前の見かけではなく、正確に文字コードを選ぶ必要がある。ゆえに正しい文字の選び方、使い方が重要。適切な入力支援が必要。
全角英数字には下のような利点がある
> この2.3節の各項目は敏先生にドラフトをお願いできると嬉しいです。
- 縦書きで自動的に縦向きになるので、縦書きでの英字の記号的利用に便利である。
> この節で言うことがあまりない場合、2.2節の文字の種類か、もしくは基礎フォーマットに統合する?
結果的に、下のような場合に限定して用いるのが安全である。
> todo: JLReq をスキャンして、文字の使い方に関連することを拾い出す。Unicode confusable を利用して見た目で紛らわしく、誤用しやすい文字を探すか?
- 縦書きであり、英数字の使用が大文字の英字略語や2桁以内の数字に限られる場合。全角英数字を使用する場合には、通常の英数字は用いず、一貫して全角英数字を用いる。
### 約物と記号
約物や記号の使用に際し、次のような点に注意する。
1. 約物には使い方の慣用があるのでそれに従う。例えば、会話や引用を鉤括弧で括る例や、引用文中に注釈をつける場合にブラケットや亀甲を使う、など。
2. 縦書き、横書きで使用する約物が異なる場合がある。
3. 字形の似た約物があるので注意する
- 長音、ハイフンマイナスとダーシ類、マイナス記号、などの混用。
- ラテン記号と全角文字(+=)の混用
- 和文英文約物の混用

### 半角カタカナ
先に述べたように、可読性に劣り、また他の文字との視覚的一貫性にも問題があるため、テキストでの半角カタカナの使用は避けるべきである。
> 木田がドラフト
### 英字・数字
> 文字の使い方、選び方で言うことはあるか?
> 英語などに比べると使い方が緩い。読点、段落、など
### 約物
> 読みやすくするための工夫は、読点だけではなく、語句を漢字にしたり仮名に開いたりする、語彙自体を工夫する、助詞を省いたりあえて加えたり、などの手段があると思いますが、これらは触れるとしたら書き手のための2章がより適当?
#### 括弧やクオート類
> 全角括弧とラテン文字用括弧の使い方の注意。ラテン文字用括弧はそう定義されているわけではないが、ほとんどの場合ラテン文字用に作られている。和文括弧とラテン文字用括弧では囲む範囲が異なることを図解。英文の括弧は英字をディセンダを含めて囲むように、和文の括弧は全角和文を囲むように作られていて、上下範囲が異なる。
> 和文で使うクォーテーションマークが2024年時点で独立した文字として存在しない。CSSや高度な処理の可能なアプリケーションではフォント中の全角クォーテーションマークを使うことができる。
#### ダッシュ類
> EM DASHおよび三点リーダは二つ続ける。長音と間違えない。入力支援が重要。
> 罫線素片使うな!
#### 疑問符と感嘆符
> 疑問符と感嘆符の後は一文字空ける。開け過ぎに感じる場合も多いが……
> 開けない場所も説明
### 入力プログラムによる支援
> 正しい約物の選択を支援すること。特に、和文約物と欧文約物の区別、似た形の約物の区別。一番支援が欲しいのが約物なのでここに置いてあるが、場所は他でも。

### 全角英数字
全角英数字には以下のような問題があるので使用には注意が必要である。

- 全角でないラテン文字や数字と混ぜて使うと視覚的一貫性を損なう。同じ文字でも、幅の異なるものが混在することになり、さらに国際化環境などでは英数字に和字とは異なるフォントが用いられる場合が多く、この場合には文字デザインの一貫性も損なわれる。
- 英字略語のように一文字一文字読む場合を除き、英単語や英文などに用いると可読性に劣る。また、行の折り返しが単語の途中で起きてしまう。
- 幅が通常の文字に比べて長いため、文字列が長くなる。
- アクセントの付いたものは存在せず、よってアクセント付き文字の必要な単語を表す時には使えない。
- 全角英数字はURLの構造的部分に使うべきではない。URLの構造的部分は通常の英数字を用いることが規定されており、全角英数字を使うと動作しないなどエラーの原因になり、読み手に負担をかけることになる。URL以外でも、HTML/CSSやmarkdownなどの機能的な部分に使用することはできない。

全角英数字には下のような利点がある

- 縦書きで自動的に縦向きになるので、縦書きでの英字の記号的利用に便利である。


## 2.4 日本語書体とフォント
ここで書体とは文字デザインのカテゴリを指し、フォントとは名前のついた具体的な実装を指す。
Expand Down Expand Up @@ -258,7 +270,7 @@ Adobeの定めた日本語文字セット。Adobe-Japan1 の後のsupplement追
### 英字書体との合わせ方
書体、サイズとウェイトの合わせ方。

日本語コンテキストであって特に意図のない場合は、日本語フォントに含まれる英字を使うのが賢明である。そのフォントの和字と使われることを念頭にデザインされているからである。これらの英字は和文との相性が良いように、特に下へのはみ出し(ディセンダ)が小さくデザインされている。
日本語コンテキストであって特に意図のない場合は、日本語フォントに含まれる英字を使うのが賢明である。そのフォントの和字と使われることを念頭に、上下位置、サイズ、ウェイト、などを揃えてデザインされているからである。例えば和文書体に含まれる英字は和文との相性が良いように、特に下へのはみ出し(ディセンダ)が小さくデザインされている。

英字が重要な用途において、または国際化環境などでは、英字に対して和字を合わせる必要のある場合がある。この場合の注意点を

Expand Down

0 comments on commit 3398987

Please sign in to comment.