ちょっと気になる隣の技術畑

第4回神話と楔形文字と⁠ときどきUnicode

画像

【話し手】
ゆー(Yu)

楔形文字検索ツールqantuppi、クルヌギアを開発。技術同人誌『楔形文字とユニコードの出会いにまつわるエトセトラ』で技術書典「第3回 刺され!技術書アワード」エポックメイキング部門受賞。家にねこがいます。
GitHub:uyumyuuy
Twitter:@uyum

本コーナーでは技術へのタッチポイントを増やすことを目標に、各分野で活躍されている方をお迎えします。

今回のテーマは文字コードです。楔形文字くさびがたもじに詳しくなってしまったゆーさんに古代文字の符号化の議論、Unicodeが世界のすべての文字を収録する意義を技術と文化の両面から紹介いただきます。

楔形文字との出会い

日高:Unicodeをはじめとした文字コードって普段は意識しない領域だと感じています。いろいろ教えてもらいながら話せればと考えています。

ゆー:よろしくお願いします。私もこの分野を専門にしている学者というわけではなく、趣味なんですよ。ゲームで興味を持ち始めたことが最初のきっかけです。

日高:楔形文字が出てきたんですか?

ゆー:いえいえ。メソポタミア地域やシュメール人の神話が登場していたんです。このあたりの神話は日本語でも新書や文庫の解説書が豊富だと感じていますが、読んでみると訳文が少し古くて最新の解釈が知りたくなったという背景です。

日高:古代の神話ながらも入門書が多くとっつきやすかったと。

ゆー:調べてみるとほとんどの文献はWebに公開されていたんですよね。

日高:写本かなにかでしょうか。

ゆー:後世に発見された粘土板などです。翻刻されてわかりやすいものがWebに載っていまして、シュメールの神話は「イナンナ女神とエビフ山」などが有名ですが、これもシュメール語の原文英訳された2種類が公開されています。

日高:そんな昔のものでも英語であれば見つかるんですね。

ゆー:1999年ごろの翻刻だったと思いますが、この分野では比較的新しい解釈といってよいかなと。ただシュメール語の原文といっても「in-nin me ḫuš-a」みたいにアルファベットで表記してあります。

日高:たしかにイメージしている楔形文字とは違いますね。英訳のための中間言語といった趣もあります。

ゆー:そうなんです。研究の立場からは利用がしやすい形なんでしょうけれども私自身、学者ではないのでミーハー的には楔形文字で読んでみたいと感じたんです。

日高:過去をありのまま感じてみたいと。

ゆー:調べてみると楔形文字には1つの文字でいろんな読み方があるとわかってきました。日本語の漢字に近いと言えば理解しやすいかもしれません。

日高:漢字と言われるとわかりやすいですね。

ゆー:このため楔形文字で書くと文字をどう解釈したかという情報が抜け落ちてしまいます。こう読むんだという付加情報がなくなるので、その道のプロはアルファベットで表記することが普通のようだなと。

日高:読みが複数ある文字ならアルファベット表記のほうが親切ですね。

ゆー:しかし素人には物足りなかったので何とかして楔形文字で読みたいという気持ちが芽生えてきました。

日高:文学的な出会いから楔形文字にたどり着いたのですね。文字の世界が想像以上に深いなと伝わってきます。

符号化の議論

ゆー:本当は粘土板に神話がどう書かれているのかを見たかっただけなんですけどね。なにかしらの対照表はないのかと探し始めました。

日高:言語を見比べるといえば辞書のイメージがあります。

ゆー:辞書もあるんですよ。ただしかなりの部分が手書きでした。本を読んでわかったのですがデジタル化されていなかったんです。最終的には研究者がWebで公開しているUnicodeの対応表を見つけてアルファベットから楔形文字に変換できました。

日高:それはすごい。ご自身で読むにあたって迷うことはありましたか?

ゆー:変換の仕様というか、どうしてこうなっているんだろうという疑問が浮かんできました。

日高:ここで文字符号化がでてくる。

ゆー:Unicodeの場合、文字の符号化はコンソーシアムが主導して決定します。これに対してプロポーザルを出すワーキンググループ(WG)が作られるんですね。楔形文字のシュメール語をUnicodeに入れたい人々がWGのメーリングリストなどで議論し、提案を形作ります。

日高:符号化を話し合う先人がいたと。

ゆー:プロポーザルにまつわる文書もやはりWebで公開されているんですよ。

日高:楔形文字のWGではどのような人たちが関わっていたんですか?

ゆー:さまざまですね。研究者、文字コードの専門家やフォント制作のプロといった方々です。それぞれの立場や視点で議論されていました。

日高:研究者が強い動機を持つのはうなずけますね。ただ現代に楔形文字を導入するメリットってあるのかな? と少し疑問に感じます。

ゆー:どうでしょう。多分ですが出版するときなど文字コードとして符号化されていないと楔形文字を使うときにえらく大変だと思うんですよ。

日高:そうか。表現の幅が変わってくるわけですね。

ゆー:Unicodeに収録する前にも符号化の議論はあったようなんですが先ほど話した辞書では手書きでした。結局、画像として扱っていたんじゃないかなと。

日高:文字の符号化にそんな側面があるとは思いもよりませんでした。

文字の魅力

ゆー:Unicode収録の議論は2000年ごろが活発だったようです。古代エジプトの象形文字であるヒエログリフなども同時期に進みました。

日高:おおよそ20年前ですね。古い文字となると、どう符号化するかというルールも難しそうです。

ゆー:WGでは文字の符号順序をとっても、文字の形を基準に並べる方式、文字の名前を基準に並べる方式などいろいろな検討がされていたようです。そもそも1つの文字という定義も決めないといけません。

日高:1文字が明らかじゃないケースがあるんですか?

ゆー:そうですね。タイポグラフィ(文字の美しさ)を脇に置いておくなら林という文字を木を2つ並べて表現しても読めないことはないですよね。たまたま漢字を使っていた中国でタイポグラフィが発達していたので我々は1文字として認識できているんです。

日高:言われてみると我々は無意識に理解できていますね。

ゆー:楔形文字の場合は詰めて書いたり、広げて書いたりと表現に自由度があったようなんです。

日高:何らかの合意できる文字の区切りをベースに、はじめて議論が進むと。

図1 ⁠メシュ」と読める楔形文字
図1 「メシュ」と読める楔形文字

ゆー:はい。たとえばこちらの文字図1の左辺)なんですが、長い縦棒があって短い横棒、そしてくの字が3つ続く文字で、メシュと読みます。

日高:楔形文字だ。

ゆー:ギルガメシュ叙事詩の「メシュ」の部分をこの字で綴る時代もあったみたいです。この字は実は分割できるんですよ。長い縦棒と短い横棒、それに続く3つのくの字といった具合です(図1の右辺⁠⁠。最初の部分はメという字、くの字はウという字で表せるんです。

日高:複数に分けられる文字の組から構成していると。

ゆー:はい。楔形文字のUnicodeでは、ほかの文字を横に並べて表せる文字は採録しないというルールがあります。そのためこの文字は単独の文字としては採録されませんでした。

日高:組み合わせて表記できる文字を入れると非効率なので1文字はなるべく細かくしましょうという背景ですか。

ゆー:専門家ではないので想像混じりですが、Unicodeには収録する文字の数を抑えようとした時代と制限するのを諦めた時代があるみたいです。楔形文字などの収録時期が前者だったのでしょうね。

変わりゆく文字の意味

日高:楔形文字の構造もそうですが、文字の持つ意味も時期によって変わりそうですね。

ゆー:はい。楔形文字の起源は中東のあたり、紀元前3200年ぐらいにさかのぼります[2]⁠。特徴的な形は粘土板にあしの茎を押し付けて書いたからと言われています。

日高:メソポタミア地域のお話ですね。

ゆー:紀元後1世紀まで長い期間で使われており、今のトルコあたりのヒッタイトなどでは自国語の表記に、エジプトでは外交のために楔形文字を利用していた記録が残っています。

日高:それだけ長いと書き方も変わってきますか?

ゆー:書き方もそうですが歴史の中でいろんな言語で楔形文字を使っています。

聞き手 日高正博
聞き手 日高正博

日高:外来語のカナ表記みたいに?

ゆー:はい。もともとはシュメールの人たちが使っていた文字ですが、アッカドという別の民族がアッカド語を書くのにも使っていて、楔形文字で書かれた文章の中でアッカド語とシュメール語が両方でてくるシーンも多数あります。

日高:借用の歴史でもあるんですね、おもしろく感じます。

ゆー:あとは同じ文字でも微妙に違う形も見つかっていますよ。

符号化の先にある表現

日高:人名用漢字の「わたなべ」さんみたいなケースですか?

ゆー:楔形文字の場合は日本語と違って同じ文字だと認められているものは1種類として符号化されているようです。

日高:複数の文字を1つとして扱う結合文字のような仕様も取り入れられているんでしょうか?

ゆー:先ほどのメシュのように複数の文字を並べるといったルールも数多くあるものの、Unicode上は結合文字にはなっていないんですよね。

日高:順番に並べるしかないと。

ゆー:今のところ、楔形文字はそういう風には扱われていません。結合文字の概念まで入っていれば区切りがわかりやすいんですが。あとは文字の形にも特徴があります。

日高:いわゆるフォントデザイン上での字体でしょうか。

ゆー:今、楔形文字を表示するときに一般的に使われる字体は紀元前22世紀のウル第三王朝で使われていた形をもとにしています。

日高:どうして選ばれたのでしょう。

ゆー:やはり最も使われていた時代だったからではないでしょうか。文字のバリエーションもはっきりしていて豊富です。その後、アッカド民族など他民族での利用がメインとなるようで、音を書き記すことが重要になってシンプルな文字の形に変わっていきます。

日高:用途にあわせて字体も変わると。

ゆー:Unicodeでの基準を決めるときにWGとしてはシュメールの字体をベースに決めていったようです。

日高:文字を符号化するときに考えることもいろいろあるんですね。

ゆー:そう思います。もっと古い文字はとりあえず符号化だけされているというケースも見受けられます。これは発見したはいいけどどう使われているかまではわからないので、いったん番号だけ付けて機械的に収録するぞと。

日高:意味は不明だけど表現できるよう収録していると。すごいな。

ゆー:時代によって組み合わせが違う文字、後世になって発見された組み合わせなどは新しい字として収録されます。このあたりは日本でもある新語を思い浮かべていただけると近しいかと。

日高:字と熟語という違いはありますが、それはわかりやすいです。

Unicodeが支える文化

ゆー:今はNotoというフォントファミリーがNo more tofu(豆腐)の精神でUnicode標準で定義されているたくさんの言語と文字に対応を進めてくれています。そのおかげで楔形文字でも使えるシーンは格段に増えました。

日高:フォントで表示できない文字があると小さい四角(通称、豆腐)で置き換えられますからね。

ゆー:Notoフォントでも楔形文字はシュメール時代の字体が採用されています。

日高:Unicodeで符号化されたからこそたどり着いた採用といえそうです。

ゆー:楔形文字では2000年ごろから策定がはじまり、2006年のUnicode 5.0でほとんどが収録されています。

日高:近年では絵文字の追加が活発ですね。統一した文字コードがあるからこそ相互運用ができている。

ゆー:Unicodeで文字符号化を統一しているメリットは大きいですよね。ほかの字体にしたい場合は差し替えるだけですし、楔形文字はNoto以外に言語研究者が提供しているフォントもあります。

日高:文字のバリエーションは言語だけでなく表現を支えていると思います。

ゆー:私自身、楔形文字を調べて粘土板に書かれた楔形文字をそのまま読むことにもチャレンジしています。参考文献にあたりながらですが、自分で粘土板を解読しているようでとても楽しいです。

日高:それはすごい。興味を持ったきっかけだった神話についてですか?

ゆー:神話のほうは趣味の一環で邦訳版を公開しています図2⁠。⁠イナンナの冥界下り」という神話の原文に日本語訳をつけて両方を見られるようになっています。こういうことができるのもブラウザで楔形文字を扱えるからなんですよね。

図2 現代語訳神代旧辞 天女冥界往還記より
図2 『現代語訳神代旧辞 天女冥界往還記』より

日高:ブラウザで古代の神話が楽しめるというのも不思議な感覚です。符号化から新しい文化につながっているんだなと。

ゆー:私も調べ始めてまだ数年なのですが、文字ってテクノロジとしてとても強い力があるんだなと感じています。

日高:文字や符号化についてこんな風に考えたことがなかったのでたいへん勉強になりました。ありがとうございました。

WEB+DB PRESS

本誌最新号をチェック!
WEB+DB PRESS Vol.136

2023年8月25日発売
B5判/152ページ
定価1,628円
(本体1,480円+税10%)
ISBN978-4-297-13610-9

  • 特集1
    Python最新Web開発
    FastAPI+SQLAlchemyで非同期処理
  • 特集2
    実戦投入パスキー
    いまこそ実現、パスワードレス認証!

おすすめ記事

記事・ニュース一覧