翻訳バンクとは

翻訳バンクとは

NICTでは、2020年までに多言語音声翻訳技術の社会実装を目指すグローバルコミューニケーション計画 (※1)の下、AI技術で多用される深い階層構造を持つニューラルネットワークを用いた自動翻訳技術(以下、ニューラル翻訳)の研究開発に取り組んでいます。ニューラル翻訳による自動翻訳の精度向上のためには、ニューラルネットワークのアルゴリズムの改良が有効であることに加えて、翻訳データ量の影響が大きいので様々な分野の翻訳データの確保が重要となります。
翻訳データとは、原文とそれが様々な言語に翻訳された訳文の対を集めたものです。現在までに活用されている翻訳データの大部分はwebページのクローリングによって 集めたものです。

しかし、webページに掲載されている翻訳データは社会にある翻訳データのごく一部に過ぎません。現在までに、NICTは、中央官庁、地方自治体、企業、各種団体などからも翻訳データの提供を受けていますが、現在の量が足りない様々な分野の翻訳データを集積しなければなりません。

そこで、NICT は総務省と共に「翻訳バンク」の運用を開始(※2)しました。企業などには技術資料やマニュアルなどの翻訳データが眠っているのではないでしょうか。今後はオールジャパン体制で翻訳データをNICTに集積し、日本の翻訳技術の多分野化・高精度化に取り組んでいきたい(図1)と考えています。
当面の目標としては1億文の翻訳データの集積を目指しています。

図1:『翻訳バンク』のコンセプト
図1:『翻訳バンク』のコンセプト
  • ※1 グローバルコミューニケーション計画について[ リンク ]
  • ※2「翻訳バンク」の運用を開始について[ リンク ]

翻訳バンクの未来像

提供いただいた翻訳データは、他の翻訳データと共に集積され、自動翻訳の精度向上に役立てます。そして、精度が向上した自動翻訳技術を実際に使っていただくことにより更に翻訳データが増え、その結果自動翻訳の精度が更に向上することになります。社会全体で自動翻訳を育てながら高精度自動翻訳を活用していくというエコシステムが生まれると考えています。

図2:高精度翻訳の分野
図2:高精度翻訳の分野

様々な分野で高精度翻訳(図2)を実現することで「言葉の壁」をなくし、日本を『世界で最も多言語コミュニケーションが容易な国』にすることによって、日本の経済・社会の活性化に貢献します。

翻訳バンクのコンセプト(動画)

◆本動画は、日本記者クラブでの会見模様です。
 この会見の中で「翻訳バンクのコンセプト」について触れています。
 ※動画は1時間30分程度(コンセプトについては46:20辺りに説明)

2018年04月03日
「AI翻訳技術のいまと東京五輪への展望」
  隅田英一郎 国立研究開発法人情報通信研究機構(NICT)フェロー
 https://www.jnpc.or.jp/archive/conferences/35063/report (外部サイト)