Zawgyiのシャン語拡張: Zawgyi-Tai
### シャン語表記の文字化け
YouTubeでシャン語の動画を見ていたら、タイトルが一部文字化けしていた。
YouTubeのシャン語動画のタイトルとキャプションが一部文字化けしている https://www.youtube.com/watch?v=3B-HUIr2Zt0
文字化けした表記と、Unicode表記が併記されていて、Unicode表記の方はある程度まともに表示されているようだ。
この化け方…なんとなくZawgyiを思い出すな?
### Zawgyiについて
シャン語は主に、ミャンマー東~北部・タイ北部・中国雲南省あたりにかけて話者が多くいる。タイ語に近い言語であるが、表記に使うシャン文字はビルマ文字と似ている(一部は共通の形である)。
ビルマ語表記用にはZawgyi-One (Zawgyi)というフォントがある。これはUnicode非互換なグリフを勝手に配置したもので、実装が単純なためミャンマーのビルマ語表記用として爆発的に広まった。Zawgyiに関しては以下の記事で考察した。
nixeneko.hatenablog.com
しかし、Zawgyiではシャン語は表記できない。ではどうしていたのか?
Zawgyiを拡張し、シャン語向けの文字を追加すればよい。それがZawgyi-Taiであるようだ。
### Zawgyi-Tai
Zawgyi-Taiというフォントは、まさにZawgyiを拡張したような名称である。ちなみにTai (တႆး)はシャンの自称であるので、シャン版Zawgyiというような雰囲気だ。もちろんUnicode非互換である。
#### ダウンロード
* https://sourceforge.net/projects/shanfont/files/
ここからダウンロードできる。 `ZawgyiTai-2013.ttf`または`Zawgyi-Tai.ttf`だと思う。ダウンロード数多いから`ZawgyiTai-2013.ttf`が一番使われているのかもしれない。
#### Zawgyi-TaiのZawgyiとの違い
基本的にはZawgyiの割り当てを変更せず、使っていない領域にシャン文字用のグリフを追加しているようだ。
##### Myanmar文字ブロック
Zawgyi-TaiのMyanmar文字ブロックへのグリフ割当て
ZawgyiはMyanmarブロックを使い潰しているが、Zawgyi-Taiでは空き部分にシャン文字用の文字や記号を追加している。
ZawgyiとZawgyi-Taiで異なるのは、`0x1022`, `0x1028`, `0x1035`, `0x103E`, `0x103F`, `0x1050`-`0x1059`, `0x105B`-`0x105F`, `0x1093`, `0x1098`-`0x109D`である。
* `0x1022` ဢ はUnicode 5.1以降と共通である(U+1022 Myanmar Letter Shan A)。
* `0x1093`に関してはZawgyiで別の記号が収録されていたが、シャン数字の3に変更されている。これは数字を入れる場所が足りなかったからかもしれない。
* `0x109E`-`0x109F`に関しては、`Zawgyi-Tai.ttf`では未定義、`ZawgyiTai-2013.ttf`ではUnicodeと同じ記号が入っているようだ。
##### チャム文字ブロック
このほか、チャム文字ブロックにも文字を配置している(なんでここに?)。
Zawgyi-TaiのCham文字ブロックへのグリフ割当て
`0xAA00`-`0xAA03`, `0xAA05`-`0xAA0E`, `0xAA11`-`0xAA13`, `0xAA15`-`0xAA18`, `0xAA1F`-`0xAA24`, `0xAA2C`, `0xAA2E`-`0xAA44`にシャン文字用のグリフが割り当てられている。
見ると、シャン語用の子音字・母音記号の一部や、声調記号・数字等がミャンマー文字ブロックとチャム文字ブロックに重複して割り当てられている。特に用途の区別がなさそうなものもあるので、表示できるから重複してても問題ないだろうという考えかと思う。
数字なんかは、ミャンマー文字ブロックへの割り当てでは分かれ分かれになってしまっているので、連続させて収録したかったとかかもしれない。
### Zawgyi-Tai↔Unicodeコンバータ
いくつかありそう。
* PangLong Converter https://tawngphait.github.io/plconverter/ (GitHub repository)
### Zawgyi-Taiを使ったサイトの例と他のフォント
以下のページではPanglongフォントとZawgyi-Taiフォントのインストール方法を紹介しているが、ページ全体にわたってシャン語が文字化けしている。これは、Zawgyi-Taiフォントを前提に書かれているためだと思う。
* Tai Cultures: Panglong And Zawgyi-Tai Font https://saolaofa.blogspot.com/p/zawgyi-tai-font.html
このシャン語と思われる化けた文字列を前掲のコンバータで変換すると、正しい形のUnicode表現に変換できた。
Panglongフォントについては、次のURLからダウンロードできるようで、しっかりは確認していないが大体Unicode準拠であるようだ。
* https://github.com/NoerNova/Panglong_Shan_Keyboard_Windows/tree/main/shan_fonts
### シャン語のUnicode表現について
ミャンマー文字のUnicode表現をどうするかについて書かれた文書である _Representing Myanmar inUnicode: Details and Examples Version 4_にシャン語に関するページがある(pp.41-45)。詳しくはそちらを参照(次掲のURLから読める)。
* Martin Hosken. _Representing Myanmar inUnicode: Details and Examples Version 4_ (UTN#11v4). https://www.unicode.org/notes/tn11/UTN11_4.pdf
一例として、長母音aaを表す ႃ U+1083 Myanmar Vowel Sign Shan Aaには、対応する脚の短い形があり、これは ၢ U+1062 Myanmar Vowel Sign Sgaw Karen Euで表すようだ。文字名はSgaw Karen語となっているが、シャン語表記にも使っている。
脚の短い形は二重母音の一部であったり、閉音節(母音の後に末子音がくる場合)で使われる。次に例を挙げる。
意味 | シャン語 | 発音 | Wiktionaryリンク
---|---|---|---
馬 | မႃႉ | /maː˦˨ˀ/ | မႃႉ - Wiktionary
ビルマ | မၢၼ်ႈ | /maːn˧˧˨/ | မၢၼ်ႈ - Wiktionary
### まとめ
* Unicodeが普及する前、ネット上でのシャン文字の表記にはZawgyi-Taiフォントが使われていたようだ。
* Zawgyi-Taiフォントはビルマ語用のZawgyiフォントを拡張したものである。
* 一部チャム文字用のUnicodeブロックを使っているため、ミャンマー文字とチャム文字がごちゃ混ぜの文字列はZawgyi-Taiである可能性がある。
### その他関連文献
* Issues in Noto Sans Myanmar for "Shan Language" · Issue #19 · notofonts/myanmar · GitHub
* シャン文字のデザインについて、Noto Sans MyanmarのGitHubリポジトリに投稿されたissue。教育で使われるものや実際の印刷物などの例があり、面白いかもしれない。