Photo by gettyimages

シュリーマンもビックリ!「古代文字」を解読するAIが登場!?

失われた言語「線文字B」も読める?
明確に文法などが解明されていない言語では、その言語の専門家でも翻訳するのは簡単ではありません。未知の言語の解読には、数十年の歳月と、辞書にも及ぶほどの専門知識が必要です。

そのうえ、仮に一つの言語が機械学習によって解析できたとしても、その技術をそのまま他の言語に流用することはできません。

しかし、今回紹介する手法では、「ニューラルネットワーク」を用いることで、未解読の文字を解読するモデルを提案しています。しかも、これは1つのモデルで複数の言語に対応できるのです。

このモデルの鍵となるのは、「編集距離」という概念を解析に用いているところです。これにより、正解データが少ない未知の言語に対する解析制度の向上を目指しています。

(オリジナルの記事全文はこちら

忘れ去られた「2つの言語」

今回紹介する論文は、2つの忘れ去られた言語についての話です。

一つ目は「ウガリット語」です。地中海東岸にあった古代の都市国家・ウガリットで使用されていた言語であり、現在は(おそらく)まったく使われていません。

ウガリット語シリアのウガリット遺跡で出土した石版 Photo by Getty Images

二つ目は、紀元前1450年ごろに使われた古代ギリシャ言語 “Linear B”(線文字B)です。絵画的な記号と、数字・単位記号から構成されています。

これまで、線文字Bの自動的な解析は良い結果を出すことができていませんが、論文ではこの解読にも挑戦しています。

線文字B
拡大画像表示

モデルを作製するにあたっての課題は、「確証のある正解ラベルデータ」の不足です。この課題が残されている限り、未知のデータに対応することができない従来のアルゴリズムでは解くことができません。

そこで今回は、「現在分かっている言語パターン」を最大限活用することで、この課題を解決していきます。

さまざまな言語を文字単位まで分割した場合、それらは起源ごとに似たような形になっています。たとえば、日本語と中国語はまったく別の言語ですが、どちらも「漢字」という文字を使っています。今回の手法では、起源となる文字を媒介的に学習させることで、共通点を特徴量として抽出していきます。

このモデルを用いれば、ウガリット語からへブライ語へ、線文字Bからギリシャ語へ、それぞれ対応する変換が可能になります。たとえば、ウガリット語とヘブライ語は「セム語」という同じ起源を持つので、それらをアルファベット(文字)単位で対応させ、単語レベルへ認識、変換を行なっていきます。

上の表は、未知言語である線文字Bの文字と、既知言語のギリシャ語の文字との対応表を表しています。チェックは正解を表し、バツは間違った対応を表しています。

鍵となる「編集距離」の概念

続いて、自然言語処理を得意とする「LSTM」を用いたseq2seq(語句の並びを置き換えるルールを学習するモデル)により、文字レベルの特徴量抽出をおこなっていきます。

重要なのは、「編集距離」という概念を導入する“Minimum-Cost Flow”というアルゴリズムを採用しているところです。

“Minimum-Cost Flow”は、文字を「単語レベル」で理解するために、少ない正解データからでも、編集距離を用いて、マッピング(対応づけ)を試みるものです。

Minimum-Cost Flowのモデル図
拡大画像表示

編集距離の概念は以下のように説明されます。

「ある文字列 s と別の文字列 t がどれだけ似ているか」 を判断するために必要なのが編集距離(Edit Distance)という概念です。 編集距離を小さくすることで、損失関数のように2つの文字列を類似させることができます。

文字列 s に次の3種類の操作を加えて、文字列 t に変更するのに必要な計算量を「編集距離」とします。

(1)置き換え:入力文字列の中の1文字を別の1文字で置き換える。
    例:apble → apple

(2)挿入:入力文字列の中に1文字を挿入する。
    例:aple → apple

(3)削除:入力文字列から1文字を削除する。
    例:applet → apple

「編集距離」を用いた重みづけを最適化すると、入力データから最短のルートで出力を得ることができ、少ない正解ラベルデータを最大限に活用することが可能になります。