2021.11.25
# 人工知能

Google翻訳よりも高性能? AI翻訳「DeepL」の驚異的な実力

とても「自然な翻訳」になる理由

良質の学習データとは、具体的にどういうものなのだろう。

専門分野に特化した対訳データということです。つまり、PC分野の翻訳をしたいとなれば、PC分野の対訳データを持っていたほうが、その業界内で使われる言い回しや表現がより正確になるわけです。PCの分野で“マウス”が“ねずみ”と訳されるのが減る、などがいい例ですね。

また、これはあくまで噂で聞いた話ですが、DeepLはさまざまな分野に特化した翻訳エンジンをたくさん持っているようです。これはドメインアダプテーションというもので、翻訳するシステムを一つに集約せず、原文が入力された時点で文章の前後からどのジャンルの文章かを解析し、それに特化するチューンがなされたエンジンで翻訳するというものです」

Photo by iStock
 

山田氏は、分野に特化した対訳データを有していることが、DeepLの文章の“流暢さ”にも繋がっていると分析する。

「先に少し触れましたが、往々にして言葉というものは正確性と流暢性で成り立っているものです。例えば『山田さんはここにきたかもしれないんだよ』という文章があったとき、正確性にあたる部分が『山田さんはここにきた』という部分であり、これがないと文章が成立し得ない情報の核です。

対して流暢性にあたるのが『かもしれないんだよ』という部分です。翻訳の分野ではこの正確性の追求は当然必要ですが、流暢性の部分にこそ“スムーズな翻訳”と受け取られる秘訣があるとされています。

DeepLは先に説明した分野特化の対訳データを有していたことで、数多くの口語表現や言い回しにおいて、秀でた流暢性を手にしているわけです。この流暢さには私も驚かされることも多く、時折DeepLの自動翻訳文を見て、専門分野ではこういった英語の表現を使うんだなと学べることもあるほどですね」

関連記事

おすすめの記事