翻訳バンクとは
データ提供を検討されている方へ
翻訳バンクには、どのような組織が既に翻訳データを提供しているのでしょうか。
地方自治体、企業、各種団体などから、幅広く提供を受けております。
翻訳データを提供するメリットは何でしょうか。
大きく、(1)NICTの研究開発した自動翻訳システムを使用されたい方にとっては、ライセンス料算定時に提供翻訳データを考慮して自動翻訳技術の使用料負担が軽減されるという固有のメリットと、(2)自動翻訳システムの多分野化・高精度化への貢献という広く社会的・公共的な意義との2つがあります。
翻訳バンクにおいて、翻訳データの収集目標はどのくらいの量でしょうか。
当面の目標として、100社・組織から各100万文の、1億文のデータ集積を目指しています。一方で、日本では、年間約2,000億円が翻訳に投じられているという調査があり、この数字に基づいて年間5億文の翻訳データが生産されていると推定しておりますので、実現可能な目標と考えております。
翻訳バンクのデータが蓄積された場合、ユーザにはどのようなメリットがあるのでしょうか。例えば、一般ユーザが利用する場合、どのようなインターフェイスで利用できるのでしょうか。
ご提供いただいた翻訳データは他の翻訳データとともに集積され、自動翻訳システムの精度向上に役立てられます。精度向上した自動翻訳の利用には、
(1)TexTra®やVoiceTra®といったNICTの試験提供を通じてご利用いただく、
(2)NICTからライセンスを受けていただく、
(3)NICTからライセンスを受けた企業等の製品やサービスをご利用いただく
という方法があります。
翻訳(対訳)データとは何でしょうか。
様々な言語による「原文」とそれが翻訳された「訳文」の対を集めたものです。
翻訳データは、どのような形式で提供することが望ましいのでしょうか。
文単位で対応付けられた形式(例:表計算ソフトの隣り合う列に、原文と訳文が行ごとに対に並んでいる形式)により提供されることが最も望ましいです。また、文書ファイルやテキストファイル等の電子ファイルにより文章単位で提供されることも歓迎です。(なお、この場合、NICTにおいてプログラムで文単位に対応付けを行います。)
提供する翻訳データは、どの言語を対象としているのでしょうか。
日本語と任意の外国語とのペアを主な対象としていますが、日本語を含まない翻訳データ(例:中国語と英語のペア)も歓迎します。
提供する翻訳データの対象は、どんな内容でも良いのでしょうか。例えば、取扱説明書や工場のマニュアルなどの分野も対象となるのでしょうか。
内容・分野は特に限定しておりません。
翻訳データの品質は、どのようなものでも構わないのでしょうか。
ご提供いただくデータの品質は問いません。NICTで品質を判断し、自動翻訳システムの精度を向上させるために適切な方法で利用させていただくことになります。
提供したデータは、どのように利用されるのでしょうか。
NICTが研究開発を行っている、高精度自動翻訳システムの精度をさらに向上させるため、提供された「翻訳データ」から翻訳における単語の選択や語順の変更を統計的に学習するために用います。統計処理のため、データ量に応じて翻訳精度が上がります。
提供した翻訳データに係る知的財産権は、どのように扱われるのでしょうか。
NICTは翻訳データの使用権(複製、翻訳、翻案、追加、削除、統計処理、解析等を行う権利)の許諾を受け、著作権その他の権利は原権利者に帰属することになります。提供者の許可無しに翻訳データ自体を第三者に提供することはございません。データの提供に関する契約の詳細に関しては、下記連絡先にお問い合わせください。
提供する翻訳データについてクライアントとの間に秘密保持義務がある場合、その翻訳データをNICTに提供することは秘密保持義務上問題になるのでしょうか。
例えば、翻訳会社とクライアントの関係において、両者の間に秘密保持義務(翻訳データの漏洩禁止及び目的外利用の禁止)がある場合であっても、翻訳会社がNICTに翻訳原文を開示する時点で翻訳原文が公知であり、かつ翻訳原文及び翻訳文が翻訳精度の向上の目的に利用される限りにおいて、翻訳会社が翻訳データをNICTに提供することに秘密保持義務上の問題はないと思われます。
ライセンス料とは何でしょうか。
NICTが研究開発した技術をご利用いただく場合の技術移転の対価です。
ライセンス料は、どの程度の金額なのでしょうか。また、翻訳バンクにデータを提供すると、どの程度ライセンス料が低減されるのでしょうか。
ライセンス料はNICTの自動翻訳システムの利用形態や期間等に応じて異なることや、ご提供いただく翻訳データの品質・分量に応じて異なることから、詳しくは下記連絡先にお問い合わせください。
翻訳データを提供した場合、自分が提供したデータの領域だけでなく、全領域を対象とする自動翻訳システムがライセンスされるのでしょうか。
そのとおりです。