• Yuji

AIの進化がもたらす機械翻訳の未来


Photo by geralt via pixabay.

最近のテレビのニュース報道やインターネット上のニュース記事で、人工知能(AI)機械学習の話題を聞かない日はありません。インターネットではもうずいぶん前から話題になっていましたが、テレビでも大きく話題になったのは、ソフトバンクの「Pepper」の登場あたりからでしょうか。他にもソニーの「aibo」もバージョンアップして話題になりました。


こうしたヒト型ロボットやペット型ロボットへの導入はかなりわかりやすい例ですが、もっと安価でシンプルなものとして、Googleの「Google Home」やAmazonの「Amazon Echo」などのスマートスピーカ―も話題です。


こうした目に見える形がないものでも、コンピュータが膨大なデータを学習する機械学習は大きく発展しています。


例えば、中国の監視カメラと連動した犯罪者追跡システム「天網」などにもAI の画像認識技術が応用されています。


やわらかめのトピックとしては Google の機械学習を応用してデカ盛りラーメンで有名な二郎で提供されるラーメンの画像から、どの店舗のラーメンなのかを 95% の精度で判定することに成功したという発表がありました。二郎ラーメンの大好きなジロリアンにも話題になったのではないでしょうか。

機械翻訳でも AI は大活躍している

こうした機械学習は、みなさんもお使いになられているであろう”機械翻訳”の世界でも活躍しています。


従来は、ルールベース機械翻訳(RBMT : Rule Based Machine Translation)や統計的機械翻訳(SMT : Statistical Machine Translation)といった手法、あるいはその組み合わせが採用されていました。


ルールベース機械翻訳(RBMT)

言語ごとの文法・辞書データと構文解析・意味解析などの自然言語処理で訳文を生成する

※ルール / 辞書などのデータ作成に多大なコスト・時間がかかる

統計的機械翻訳(SMT)

膨大な対訳データを元に統計学的に訳文を生成する

※膨大な対訳データ(コーパスデータ)が必要なため、ハードウェアの高度な処理能力が求められる


また、2016年11月には「Google 翻訳」のサービスに機械学習をベースにした仕組みがリリースされ、精度が飛躍的に向上して話題になりました。ニューラルネットワークやディープラーニングといった技術を応用して、これまでの機械翻訳とは比較にならない流暢さで翻訳をおこなってくれるようになりました。


機械翻訳の歴史 - ルールベース機械翻訳

ルールベース機械翻訳は、CD-ROM(あるいはフロッピーディスク)からパソコンにインストールする翻訳ソフトの時代に全盛を極めた手法でした。


Windows 95 の登場で一般家庭にもパソコンがあっという間に普及し、家電量販店に大きなソフトウェア販売フロアが出現した時代です(いまは、ずいぶん売場面積が狭くなってしましいましたね)。ちょうどインターネットも民間でも利用されはじめたころでもあります*。


ただし、パソコンにインストールする翻訳ソフトでは、原稿の登録から、翻訳処理、翻訳結果の出力までをパソコンで処理します。そのため、その当時のパソコンの処理能力に大きく依存するというネックを抱えていました。


*国内の某翻訳ソフトのベンダーの関係者の方に、当時有償だったブラウザソフト(現 Firefox の前進 Netscape)とその会社の翻訳ソフトをバンドル販売したら、おもしろいように売れた……というエピソードをうかがったことがあります

(インターネット黎明期は、日本語のサイトが少なく、海外のサイトを見ることが多かったため、翻訳ソフトを介して、海外のサイトを閲覧していたわけです)

Photo by Pexels via pixabay.

近年の機械翻訳 - 統計的機械翻訳からニューラル機械翻訳へ

近年では、CPU / メモリ / 分散処理技術の向上にともない、統計的機械翻訳が台頭してきました。


さらにハードウェア(特に GPU / GPGPU)の進歩とともに、機械学習 / 深層学習が発展し、Googleが提供するようなニューラル機械翻訳(NMT : Neural Machine Translation)が、それまでの機械翻訳と比較して、翻訳結果が格段に向上していることから、非常に注目されています。


ただし、どれが一番か?ということではなく、それぞれルールベース機械翻訳の得手不得手、統計的機械翻訳の得手不得手があるように、ニューラル機械翻訳の得手不得手もあります。つまり、ニューラル機械翻訳の翻訳結果にも注意を払う必要があります。


ルールベース機械翻訳や統計的機械翻訳では、こなれていない(不自然な / 流暢でない)翻訳結果になることがよくありました。それに対し、ニューラル機械翻訳は、翻訳結果の流暢さで注目されているのですが、欠点もあります。まれに訳抜けが発生したり、訳語が重複したりする……という課題を抱えています(技術の発展とともに解消されていくのではないかと思います)。


これからの機械翻訳

こうした問題点を受けて、ニューラル機械翻訳と既存のルールベース機械翻訳 / 統計的機械翻訳とのハイブリッドのような手法も同時進行で研究・開発されているようです。


こうした機械翻訳市場は、Googleの独占市場ではなく、MicrosoftやSYSTRANといった大企業から、日本企業のロゼッタまで市場参入している群雄割拠の世界です。


株式会社ロゼッタでは、日本語(英日・日英)をベースとした「熟考」という機械翻訳サービスに始まり、採用企業単位でカスタマイズ可能な「T-4OO」の開発・販売をおこなっています。


本記事で注目したのは「T-4OO」の現在の翻訳精度です。


各社サービスが翻訳精度の向上に努めていますが、とりわけ「T-4OO」は研究開発が進み、従来のものから翻訳精度を飛躍的に向上(最大95%=プロ翻訳者に匹敵する正確さ)させることに成功しました。

詳しくは、医学・化学・法務・IT・金融の分野において、英日翻訳で精度 95%、日英翻訳で精度 90% をマークした旨のプレスリリース(2017/11/27)をご確認ください。

Google翻訳には世界のあらゆる言語をあらゆる言語に翻訳する……というミッションがありますが、「T-4OO」は、日本語(英日・日英)をベースとして、国内の企業活動に役立てる機械翻訳サービスに特化しています。「T-4OO」 には、以下の特徴があります。


専門分野データベース

ロゼッタが独自に構築したデータベース。データベースは 2,000分野に細分化されており、分野ごとの専門用語・公的文書等が登録されている。分野に合わせて、その分野の適訳を得ることが可能 ※ ロゼッタが長年蓄積してきた翻訳精度に大きく貢献できる秘伝のタレのようなものです


企業別データベース

ご採用いただいた企業内の英語・日本語の文書を企業別データベースに登録することで、社内表現や言い回しをAIが学習し、翻訳結果に反映可能 ※ インターネット上の翻訳サービスではできない、企業ごとのカスタマイズができる機能


セキュアな環境で利用可能

インターネット上で無料で利用可能なサイトは情報漏えいのリスクを常に抱えているが、「T-4OO」では機密情報を含む重要な企業内文書の翻訳を、常にセキュアな環境で利用可能(ISMS 認証取得の設備にて外部の不正なアクセスから保護) ※ インターネット上のサービスの利用を禁止されている企業の方からご評価いただいています


さまざまなファイルタイプに対応

Microsoft Word / Excel / PowerPoint / PDF などビジネスシーンでよく使われるソフトウェアで保存されたファイルをそのまま翻訳することが可能 ※ Microsoft Word の原稿を、原文のレイアウト / スタイルを保ったままの Microsoft Word 形式で翻訳します


このあたりが、ご採用いただいた企業さまより、高評価を受けています。


「T-4OO」に関するお問い合わせはこちらからお寄せください。

Xtra株式会社は「T-4OO 」の販売代理店です)


※導入コスト(初期費用)不要、翻訳上限もない使い放題*のリーズナブルなサービスとして「Qlingo」も開発中です(2019年 3月中旬リリース予定)。 *1度にリクエストできる文字数には上限があります。 ※「T-4OO」の導入には、ライセンスの費用が必要です。とりあえず、試してみたいというお客さまには、「アイちゃん」という「T-4OO」のエッセンスを都度従量課金でご利用いただけるサービスも提供しています。

本記事は、Xtra株式会社の公式ブログコンテンツです。ビジネスに関する情報から社員の働き方まで様々なコンテンツを発信しています。ニュース配信も行なっておりますので、音声読み上げサービスなどサイト外でお楽しみの皆様は、ぜひ x-tra.jp にアクセスしてみてくださいね。

- Originally published on the QuickTranslate Blog.