JP7133003B2

JP7133003B2 - 画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置

Info

Publication number: JP7133003B2
Application number: JP2020215551A
Authority: JP
Inventors: ヤン，シャオジョン; チョウ，チェン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2020-12-24
Publication date: 2022-09-07
Anticipated expiration: 2040-12-24
Also published as: KR102461043B1; US20210374920A1; JP2021190085A; CN111833239A; EP3920129A1; CN111833239B; KR20210148836A; US11508044B2

Description

本出願は、画像処理技術分野に関し、具体的には、深層学習及び画像処理技術分野に関し、特に画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置に関する。

画像翻訳ネットワークは、画像の内容を変更することなく、１つのタイプの画像を別のタイプの画像に直接変換することができ、画像生成、シーン分割、画像様式化などの分野で広く応用されている。しかしながら、画像を翻訳するプロセスでは、その演算量が大きい。

関連技術において、一般的に翻訳モデルの構造を連続的にカットしたり、入力された画像の解像度を直接下げたりするなどの方式により、画像翻訳の演算量を低減する。しかし、上記方式により画像を翻訳すると、翻訳された画像の明瞭度が低くなり、かつ画像翻訳の効果も大幅に低下してしまう。

本出願は、画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置、電子機器及び記憶媒体を提供する。

第１の態様による画像翻訳方法は、元の画像を含む画像翻訳リクエストを取得するステップと、前記元の画像をダウンサンプリングして前記元の画像に対応する縮小画像を生成するステップと、前記縮小画像に基づき、前記元の前記画像に対応する前記元の画像と同じサイズの予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップと、前記変形パラメータに基づいて前記元の画像を変形処理して変形画像を生成するステップと、前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するステップと、を含む。

第２の態様による画像翻訳モデルトレーニング方法は、第１のドメインに属する第１の画像セットと、第２のドメインに属する第２の画像セットとを含むトレーニングセットを取得するステップと、前記第１の画像セット内の画像をそれぞれダウンサンプリングして、第１の縮小画像セットを生成するステップと、第１の初期ジェネレータによって前記第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成するステップであって、前記第１の変形パラメータセット内の各パラメータがそれぞれ前記第１の画像セット内の画像の各ピクセルポイントに対応するステップと、前記第１の変形パラメータセットに基づいて前記第１の画像セット内の画像をそれぞれ変形処理し、第１の変形画像セットを取得するステップと、前記第１の変形画像セット、前記第１の予め翻訳された画像セット及び前記第１のマスク画像セット内の対応する画像をそれぞれ融合させて、第３の画像セットを取得するステップと、前記第３の画像セット内の画像及び前記第２の画像セット内の画像をそれぞれ第１の初期弁別器に入力して、前記第１の初期弁別器によって出力された、前記第３の画像セット内の画像がそれぞれ真の画像に属する第１の確率セットと、前記第２の画像セット内の画像がそれぞれ真の画像に属する第２の確率セットとを取得するステップと、前記第１の確率セット及び前記第２の確率セットに基づき、前記第１の初期ジェネレータと前記第１の初期弁別器とを修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータを生成するステップと、を含む。

第３の態様による画像翻訳装置は、元の画像を含む画像翻訳リクエストを取得するように構成される第１の取得モジュールと、前記元の画像をダウンサンプリングして前記元の画像に対応する縮小画像を生成するように構成される第一のサンプリングモジュールと、前記縮小画像に基づき、前記元の前記画像に対応する前記元の画像と同じサイズの予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される第一の生成モジュールと、前記変形パラメータに基づいて前記元の画像を変形処理して変形画像を取得するように構成される第１の処理モジュールと、前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するように構成される第１の融合モジュールと、を含む。

第４の態様による画像翻訳モデルトレーニング装置は、第１のドメインに属する第１の画像セットと、第２のドメインに属する第２の画像セットとを含むトレーニングセットを取得するように構成される第２の取得モジュールと、前記第１の画像セット内の画像をそれぞれダウンサンプリングして、第１の縮小画像セットを生成するように構成される第２のサンプリングモジュールと、第１の初期ジェネレータによって前記第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成するように構成される第２の処理モジュールであって、前記第１の変形パラメータセット内の各パラメータがそれぞれ前記第１の画像セット内の画像の各ピクセルポイントに対応する第２の処理モジュールと、前記第１の変形パラメータセットに基づいて前記第１の画像セット内の画像をそれぞれ変形処理し、第１の変形画像セットを取得するように構成される第３の処理モジュールと、前記第１の変形画像セット、前記第１の予め翻訳された画像セット及び前記第１のマスク画像セット内の対応する画像をそれぞれ融合させて、第３の画像セットを取得するように構成される第２の融合モジュールと、前記第３の画像セット内の画像及び前記第２の画像セット内の画像をそれぞれ第１の初期弁別器に入力して、前記第１の初期弁別器によって出力された、前記第３の画像セット内の画像がそれぞれ真の画像に属する第１の確率セットと、前記第２の画像セット内の画像がそれぞれ真の画像に属する第２の確率セットとを取得するように構成される第３の取得モジュールと、前記第１の確率セット及び前記第２の確率セットに基づき、前記第１の初期弁別器及び前記第２の初期弁別器を修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータを生成するように構成される第１の修正モジュールと、を含む。

第５の態様による電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、前記メモリには前記少なくとも１つのプロセッサで実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが上記の画像翻訳方法又は画像翻訳モデルトレーニング方法を実行するように、前記少なくとも１つのプロセッサによって実行される。

第６の態様によるコンピュータ命令を記憶している非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに上記の画像翻訳方法又は画像翻訳モデルトレーニング方法を実行させる。
第７の態様によるコンピュータプログラムであって、前記コンピュータプログラムにおける命令が実行された場合に、本出願の実施例の上記画像翻訳方法又は上記画像翻訳モデルトレーニング方法が実行される。

本出願の技術によれば、翻訳モデルの構造を連続的にカットしたり、入力された画像の解像度を直接下げたりするなどの方式により、画像翻訳の演算量を低減すると、翻訳された画像の明瞭度が低くなり、かつ画像翻訳の効果も大幅に低下するという技術的問題が解決され、画像翻訳の演算量を低減するとともに、画像翻訳の効果を確保し、翻訳されたターゲット翻訳画像の明瞭度を向上させることができる。

本部分に記載される内容が本開示の実施例の主要な特徴又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定するために使用されないことを理解すべきである。本開示の他の特徴は、以下の説明により理解されやすくなる。

図面は、本技術的解決手段をよりよく理解するためのものであり、本出願を限定するものではない。
本出願の実施例による画像翻訳方法のフローチャートである。本出願の実施例による別の画像翻訳方法のフローチャートである。本出願の実施例による別の画像翻訳方法のフローチャートである。本出願の実施例による画像翻訳装置の構造図である。本出願の実施例による別の画像翻訳装置の構造図である。本出願の実施例による別の画像翻訳装置の構造図である。本出願の実施例による画像翻訳モデルトレーニング方法のフローチャートである。本出願の実施例による別の画像翻訳モデルトレーニング方法のフローチャートである。本出願の実施例による画像翻訳モデルトレーニング装置の構造図である。本出願の実施例による別の画像翻訳モデルトレーニング装置の構造図である。本出願の実施例による別の画像翻訳モデルトレーニング装置の構造図である。本出願の実施例による画像翻訳方法又は画像翻訳モデルトレーニング方法を実現するための電子機器のブロック図である。

以下、理解を容易にするための本出願の実施例の様々な詳細を含む添付の図面を参照して本出願の例示的な実施例を説明し、それらを単なる例示と見なすべきである。したがって、当業者は、本出願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構造の説明を省略する。

以下、本出願の実施例による画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置、並びに電子機器と記憶媒体を、図面を参照して説明する。

関連技術における、翻訳モデルの構造を連続的にカットしたり、入力された画像の解像度を直接下げたりするなどの方式により、画像翻訳の演算量を低減すると、翻訳された画像の明瞭度が低くなり、かつ画像翻訳の効果も大幅に低下するという問題に対して、本出願は、画像翻訳方法を提供する。

本出願によって提供される画像翻訳方法では、まず元の画像を含む画像翻訳リクエストを取得し、次に画像翻訳リクエストにおける元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成し、さらに縮小画像に基づき、元の画像に対応する予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成し、予め翻訳された画像及びマスク画像のサイズを元の画像と同じサイズにし、次に変形パラメータに基づいて元の画像を変形処理して変形画像を生成し、最後に変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成する。これにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減し、同時に元の画像と同じサイズのターゲット翻訳画像を出力し、また、生成されるターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を減らしながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度を大幅に向上させる。

図１は、本出願の実施例による画像翻訳方法のフローチャートである。

本出願の実施例による画像翻訳方法の実行本体が画像翻訳装置であり、画像翻訳装置は、変形パラメータに基づいて元の画像を変形処理し、変形画像を取得した後、変形画像、予め翻訳された画像及びマスク画像を融合あせてターゲット翻訳画像を生成するように電子機器に配置されてもよい。ここで、電子機器は、データ処理を実行できる任意の端末装置又はサーバーなどであってもよく、本出願ではこれに限定されない。

図１に示すように、画像翻訳方法は、次のステップを含むことができる。

ステップ１０１において、画像翻訳リクエストを取得し、翻訳リクエストに元の画像が含まれてもよい。

実際の応用中、異なるシーンにおいて異なる実現形態により画像翻訳リクエストを取得することができる。１つの可能な実現形態として、ユーザは、入力ボックスを介して画像翻訳リクエスト命令を入力することができる。

別の可能な実現形態として、画像翻訳プログラムに対するユーザのトリガ操作が取得されると、画像翻訳リクエストが取得されると考えられ、例えば、ユーザがタッチディスプレイスクリーン上の画像翻訳開始用のボタンをクリックすると、画像翻訳リクエストが取得されると考えられる。

別の可能な実現形態として、画像翻訳プログラムのメッセージ制御クラスにフック関数を予め設定し、それによって当該フック関数に基づいて画像翻訳リクエストメッセージを検出することができる。具体的には、ユーザが画像翻訳リクエストを送信すると、トリガメッセージが送信され、この時、メッセージ制御クラス関数が呼び出され、したがって、メッセージ制御クラス関数に設定されているフック関数によって当該メッセージ制御クラス関数の呼び出しを検出することができ、メッセージ制御クラス関数をトリガする現在のメッセージタイプに応じて画像翻訳リクエストメッセージを識別することができる。

ステップ１０２において、元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成する。

ここで、元の画像へのダウンサンプリング（ｄｏｗｎｓａｍｐｌｉｎｇ）は、画像を表示領域のサイズに合わせるか、又は対応する縮小画像を生成するために、元の画像を縮小することを指す。例えば、１枚の画像のサイズがＭ＊Ｎであると、当該画像をｓ倍ダウンサンプリングした後、サイズ（Ｍ／ｓ）＊（Ｎ／ｓ）の縮小画像を取得することができる。

即ち、翻訳リクエストから元の画像を取得した後、元の画像を縮小して縮小画像を生成し、縮小画像を入力として使用することで、演算量を大幅に低減する。例えば、男性と女性の顔の性別変換の応用シーンにおいて、元の画像が男性の顔の画像（２５６＊２５６の解像度）である場合、元の画像を２倍ダウンサンプリングした後、１２８＊１２８の縮小画像を取得することができ、この時、特徴画像のサイズは、元の特徴画像のサイズの半分に縮小され、それに応じて、理論上の演算量も元の演算量の０．２５倍に低減される。

ステップ１０３において、縮小画像に基づき、元の画像に対応する予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成する。ここで、予め翻訳された画像及びマスク画像のサイズは元の画像のサイズと同じである。

具体的には、縮小画像が入力された後、縮小画像に対してデコンボリューション操作を実行し、縮小画像のサイズを元の画像サービスに拡大し、次に拡大された画像を処理し、元の画像に対応する予め翻訳された画像を生成し、同時にマスク画像及び元の画像の各ピクセルポイントに対応する変形パラメータを取得することができる。

ここで、変形パラメータには各ピクセルポイントに対応するｘ軸方向の並進量とｙ軸方向の並進量とが含まれ、マスク画像は、画像フィルタ処理のためのテンプレートであり、ここで、マスク画像は、画像上のいくつかの領域をマスクでシールドし、それらを処理又は処理パラメータの計算に関与させなく、又は、類似性変数又は画像マッチング方法を使用して画像内のマスクに類似した構造的特徴を検出及び抽出するように主に機能する。

例えば、依然として男性と女性の顔の性別変換を例とし、元の画像が男性の顔の画像（２５６＊２５６の解像度）である場合、対応する縮小画像の解像度は１２８＊１２８であり、まず縮小画像に対してデコンボリューション操作を行い、縮小画像の解像度を２５６＊２５６に上げ、解像度２５６＊２５６の画像を取得し、次に当該解像度２５６＊２５６の画像内の男性の顔を女性の顔に直接変換し、融合されていない女性の顔、即ち元の画像に対応する予め翻訳された画像を生成し、同時に対応するマスク画像と変形パラメータを取得し、ここで、予め翻訳された画像の解像度が２５６＊２５６であり、マスク画像の解像度も２５６＊２５６であり、変形パラメータが２５６＊２５６グループであり、各変形パラメータグループにはｘ軸方向パラメータとｙ軸方向パラメータが含まれる。

ステップ１０４において、変形パラメータに基づて元の画像を変形処理して変形画像を取得する。

ここで、画像変換ツールにより、変形パラメータに基づいて元の画像に対応する変更を行い、変形画像を生成することができる。

例えば、元の画像が元の男性の顔の画像であると、変形パラメータが、男性の眉の領域がｙ軸方向に沿って狭くなっているように変形されることを示すために使用される場合、変形パラメータに基づいて画像変換ツールによって元の画像を変形させて得られた変形画像のうち、元の男性の顔の眉毛は、狭くなり、女性の眉毛の特徴に近づいている。

ステップ１０５において、変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成する。

具体的には、実際の操作中、入力された画像の解像度を直接下げて画像翻訳の演算量を低減するだけである場合、その出力された画像の解像度は、入力された画像の解像度と同じになり、したがって、翻訳された画像の明瞭度が低く、かつ画像翻訳の効果が大幅に低下する。

したがって、本出願では、まず、元の画像を縮小してから入力として使用し、画像翻訳の演算量を低減し、次に、縮小された画像を処理して元の画像と同じサイズの予め翻訳された画像を生成し、同時に対応するマスク画像と変形パラメータを生成し、次に、変形パラメータに基づいて元の画像を変形処理して変形画像を取得し、最後に変形画像と予め翻訳された画像とをマスク画像の重みで融合させてターゲット翻訳画像を生成する。これにより、画像翻訳量を低減するとともに、出力されたターゲット翻訳画像のサイズを元の画像と同じサイズにすることを確保することができ、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用され、生成されたターゲット翻訳画像の明瞭度が大幅に向上し、かつ生成されたターゲット翻訳画像の背景部分も元の画像と一致し、これにより、画像のシームレスな融合を実現し、生成されたターゲット翻訳画像の自然度を大幅に向上させることができる。

上記実施例では、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成することができることを説明すべきである。ここで、異なる応用シーンにおいて、ターゲットジェネレータの取得方式も異なる。

１つの可能な実現形態として、先にターゲット翻訳画像の属する第１のドメインを取得し、ターゲット翻訳画像の属する第１のドメインに基づいてターゲットジェネレータを取得することができる。それに応じて、本出願の一つの実施例では、翻訳リクエストにはターゲット翻訳画像の属する第１のドメインも含まれ、したがって、上記ステップ１０１の後、ターゲット翻訳画像の属する第１のドメインに基づき、ターゲットジェネレータを取得するステップをさらに含む。

それに応じて、上記ステップ１０３は、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップを含むことができる。

ここで、画像翻訳領域では、異なるドメインを用いて元の画像とターゲット翻訳画像の違いを区分する。例えば、性別翻訳を行う場合、男性の顔の画像と女性の顔の画像は、それぞれ異なるドメインに位置する画像であり、又は、画像内のリンゴがオレンジに翻訳されると、リンゴを含む画像とオレンジを含む画像とは、それぞれ異なるドメインに属する。

それに応じて、本出願では、ターゲット翻訳画像の属する第１のドメインは、女性の顔の画像、又はリンゴを含む画像などの指定されたあるオブジェクトを含む画像である。

具体的には、異なるドメイン内の画像を翻訳する場合、異なるジェネレータが使用されるため、本開示では翻訳リクエストを受信し、翻訳リクエストからターゲット翻訳画像の属する第１のドメインを取得した後、ターゲット翻訳画像の属する第１のドメインに基づいてターゲット翻訳画像の属する第１のドメインに対応するジェネレータを確定することができる。ターゲット翻訳画像の属する第１のドメインに対応するジェネレータが１種類だけであるため、ターゲット翻訳画像の属する第１のドメインに基づいて対応するターゲットジェネレータを直接確定することができる。

例えば、ターゲット翻訳画像の属する第１のドメインが女性の顔である場合、当該ターゲット翻訳画像に対応するジェネレータが男性の顔から女性の顔へのジェネレータだけであることを確定することができ、したがって、ターゲットジェネレータが男性の顔から女性の顔へのジェネレータであることを確定することができ、ターゲット翻訳画像の属する第１のドメインが子の顔である場合、当該ターゲット翻訳画像に対応するジェネレータが老人の顔から子の顔へのジェネレータだけであることを確定することができ、したがって、ターゲットジェネレータが老人の顔から子の顔へのジェネレータであることを確定することができる。

さらに、ターゲットジェネレータが確定された後、ターゲットジェネレータによって縮小画像を直接処理し、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成することができる。

したがって、縮小画像を処理する前に、ターゲット翻訳画像の属する第１のドメインに基づいて専属のターゲットジェネレータを確定し、縮小画像に対して対応する処理を実行することができ、それによって画像処理の効率と精度が大幅に向上する。

実際の操作中、ターゲット翻訳画像の属する第１のドメインに対応するジェネレータが様々であってもよいことを説明すべきである。

それに応じて、ターゲット翻訳画像の属する第１のドメインに対応するジェネレータがＮ種類であり、Ｎが１よりも大きい整数である場合、上記ステップ１０１の後、
元の画像を識別して、元の画像の属する第２のドメインを確定し、元の画像の属する第２のドメイン及びターゲット翻訳画像の属する第１のドメインに基づき、Ｎ種類のジェネレータからターゲットジェネレータを選択するステップをさらに含む。

具体的には、ターゲット翻訳画像の属する第１のドメインに基づき、ターゲット翻訳画像の属する第１のドメインに対応するジェネレータが様々であることを確定する場合、元の画像を識別して、元の画像の属する第２のドメインを取得し、次にターゲット翻訳画像の属する第１ドメインと元の画像の属する第２ドメインに基づき、様々なジェネレータから１種類のジェネレータをターゲットジェネレータとして選択することができる。

例えば、ターゲット翻訳画像の属する第１のドメインがリンゴを含む画像である場合、当該ターゲット翻訳画像の属する第１のドメインに基づき、ターゲット翻訳画像の属する第１のドメインに対応するジェネレータがオレンジからリンゴへのジェネレータ、鴨梨からリンゴへのジェネレータ、ピーチからリンゴへのジェネレータなどの複数種類のジェネレータであることを確定することができる。このとき、元の画像の属する第２のドメインがオレンジを含む画像であることが確定された場合、上記の複数のジェネレータからオレンジからリンクへのジェネレータをターゲットジェネレータとして選択することができる。

さらに、ターゲットジェネレータが確定された後、ターゲットジェネレータによって縮小画像に対応する処理を直接行い、元の画像に対応する、予め翻訳された画像、マスク画像、及び変形パラメータを生成することができる。

これにより、ターゲット翻訳画像の属する第１のドメインに基づき、それに対応するジェネレータが複数種類であることが確定された場合、さらに元の画像の属する第２のドメインに基づいて複数種類のジェネレータから唯一のジェネレータをターゲットジェネレータとして選択し、縮小画像に対応する処理を実行し、それによって画像処理の効率と精度がさらに向上する。

別の可能な実現形態として、先に元の画像の属する第２のドメインを取得し、元の画像の属する第２のドメインに基づいてターゲットジェネレータを取得することができる。それに応じて、本出願の別の実施例では、上記ステップ１０１の後、
元の画像を識別して、元の画像の属する第２のドメインを確定し、元の画像の属する第２のドメインに基づいてターゲットジェネレータを取得するステップと、をさらに含む。

それに応じて、上記ステップ１０３は、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルに対応する変形パラメータを生成するステップを含むことができる。

具体的には、元の画像が取得された後、元の画像を識別して、元の画像の属する第２のドメインを取得することができる。元の画像の属する第２のドメインが確定された後、元の画像の属する第２のドメインに基づいて元の画像の属する第２のドメインに対応するターゲットジェネレータを確定することができる。元の画像の属する第２のドメインに対応するジェネレータが１種類だけであるため、元の属する第２のドメインに基づいて対応するターゲットジェネレータを直接確定することができる。

例えば、元の画像の属する第２のドメインが男性の顔である場合、元の画像の属する第２のドメインに対応するジェネレータが男性の顔から女性の顔へのジェネレータだけであることを確定することができ、したがって、ターゲットジェネレータが男性の顔から女性の顔へのジェネレータであることを確定することができ、元の画像の属する第２のドメインが老人の顔であることを確定する場合、元の画像の属する第２のドメインに対応するジェネレータが老人の顔から子の顔へのジェネレータだけであることを確定することができ、したがって、ターゲットジェネレータが老人の顔から子の顔へのジェネレータであることを確定することができる。

したがって、縮小画像を処理する前に、元の画像の属する第２のドメインに基づいて専属のターゲットジェネレータを確定し、縮小画像に対応する処理を実行することができ、それによって画像処理の効率と精度が大幅に向上する。

実際の操作中、元の画像の属する第２のドメインに対応するジェネレータが様々であってもよいことを説明すべきである。

それに応じて、元の画像の属する第２のドメインに対応するジェネレータがＮ種類であり、Ｎが１よりも大きい整数である場合、上記ステップ１０１の後、ターゲット翻訳画像の属する第１のドメインを取得し、ターゲット翻訳画像の属する第１のドメイン及び元の画像の属する第２のドメインに基づき、Ｎ種類のジェネレータからターゲットジェネレータを選択するステップをさらに含む。

具体的には、元の画像の属する第２のドメインに対応するジェネレータが複数種類であることが確定された場合、ターゲット翻訳画像の属する第１のドメインを取得することができる。ここで、翻訳リクエストにターゲット翻訳画像の属する第１のドメインが含まれると、翻訳リクエストからターゲット翻訳画像の属する第１のドメインを直接取得することができ、翻訳クエストにターゲット翻訳画像の属する第１のドメインが含まれていないと、元の画像の属する第２のドメインに対応するジェネレータが複数種類であることが確定された場合、ターゲット翻訳画像の属する第１のドメインの選択項目をポップアップ表示し、ユーザがターゲット翻訳画像の画像のタイプ又は特徴情報に応じて容易に選択するようにする。ターゲット翻訳画像の属する第１のドメインが確定された後、ターゲット翻訳画像の属する第１のドメイン及び元の画像の属する第２のドメインに基づき、複数種類のジェネレータから１種類のジェネレータをターゲットジェネレータとして選択することができる。

例えば、元の画像の属する第２のドメインがオレンジである場合、元の画像の属する第２のドメインに基づき、元の画像の第２のドメインに対応するジェネレータがオレンジからリンゴへのジェネレータ、オレンジから鴨梨へのジェネレータ、オレンジからピーチへのジェネレータなどの複数種類のジェネレータであることを確定することができる。このとき、ターゲット翻訳画像の属する第１のドメインが鴨梨であることが確定された場合、上記の複数のジェネレータからオレンジから鴨梨へのジェネレータをターゲットジェネレータとして選択することができる。

これにより、元の画像の属する第２のドメインに基づき、それに対応するジェネレータが複数種類であることが確定された場合、さらにターゲット翻訳画像の属する第１のドメインに基づいて複数種類のジェネレータから唯一のジェネレータをターゲットジェネレータとして選択し、縮小画像に対応する処理を実行し、それによって画像処理の効率と精度がさらに向上する。

なお、画像を処理する場合、一般的に当該画像内の特徴情報を抽出し、特徴情報に対応する処理を行うことにより、画像への処理を実現することを説明すべきである。

図２を参照しながら説明し、図２に示すように、上記ステップ１０３は、具体的には、次のステップを含む。

ステップ２０１において、縮小画像を処理し、縮小画像が第１のドメインに翻訳される時の対応する第１の特徴ベクトルを確定する。ここで、第１のドメインは、ターゲット翻訳画像の属するドメインである。

ここで、第１の特徴ベクトルは、縮小画像をターゲット翻訳画像に直接変換する時に変更する必要がある特徴ベクトルであり、当該第１の特徴ベクトルに対応するサイズが縮小画像のサイズと同じである。

ステップ２０２において、第１の特徴ベクトルをアップサンプリングして、第２の特徴ベクトルを生成する。

具体的には、第１の特徴ベクトルに対応するサイズが縮小画像のサイズと同じであるため、第１の特徴ベクトルに基づいて縮小画像を直接処理すると、取得された、予め翻訳された画像及びマスク画像のサイズが縮小画像のサイズと同じであり、最終的に生成されたターゲット翻訳画像の解像度が低い。したがって、第１の特徴ベクトルをアップサンプリングして、即ち第１の特徴ベクトルに対応するサイズを大きくし、第２の特徴ベクトルを生成する。

ステップ２０３において、第２の特徴ベクトルに基づき、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成する。

具体的には、ジェネレータは、第２の特徴ベクトルを取得した後、第２の特徴ベクトルを復号し、第２の特徴ベクトルに基づいて第２のドメイン内のターゲットオブジェクトの画像を再構成し、予め翻訳された画像を生成し、ターゲットオブジェクトの再構成中に、マスク画像と変形パラメータを生成することができる。

本開示において、元の画像を翻訳する時に、実際に処理される画像サイズは、縮小された画像であり、特徴ベクトルが予め翻訳された画像、マスク画像及び変形パラメータに復号される前にのみ、アップサンプリング処理が実行されるため、最終的に生成される、予め翻訳された画像、マスク画像などは、元の画像と同じサイズになり、また、画像翻訳中のデータ処理量が大幅に削減されることが理解できる。

さらに、明瞭度及び自然度が高いターゲット翻訳画像を生成するために、予め翻訳された画像、マスク画像及び変形パラメータを取得した後、変形パラメータに基づいて元の画像を変形処理して変形画像を取得し、変形画像と予め翻訳された画像をマスク画像の重みで融合させてターゲット翻訳画像を生成することができる。

以下、どのようにターゲット翻訳画像を生成するかについて画像３を参照して詳細に説明する。図３に示すように、上記ステップ１０４は、具体的には、次のステップを含む。

ステップ３０１において、マスク画像の各ピクセルポイントのピクセル値に基づき、予め翻訳された画像の第１の重み及び変形画像の第２の重みを確定する。

ステップ３０２において、第１の重み及び第２の重みに基づき、予め翻訳された画像の各ピクセルポイントのピクセル値と変形画像の各ピクセルポイントのピクセル値とを融合させて、ターゲット翻訳画像を生成する。

具体的には、マスク画像の各ピクセルポイントのピクセル値に基づき、予め翻訳された画像の第１の重みと変形画像の第２の重みを確定し、それによって第１の重みと第２の重みの重み比に従って、ターゲット翻訳画像の各ピクセルポイントのうち、予め翻訳されたピクセル値と変形画像のピクセル値との比を取得し、それによって当該比に基づき、予め翻訳された画像のピクセルポイントのピクセル値と変形画像の各ピクセルポイントのピクセル値とを融合させることができる。

実際に使用する際に、マスク画像のピクセルポイントのピクセル値は、予め翻訳された画像内の同じピクセルポイントの重みであってもよいし、変形画像の同じピクセルポイントの重みであってもよい。例えば、マスク画像内のｉ番目のピクセルポイントのピクセル値が０．７である場合、予め翻訳された画像のｉ番目のピクセルポイントの重みが０．７（又は０．３）であることを確定することができ、それに応じて、変形画像のｉ番目のピクセルポイントの重みが０．３（又は０．７）であり、予め翻訳された画像のｉ番目のピクセルポイントのピクセル値が１０であり、変形画像のｉ番目のピクセルポイントのピクセル値が３０であり、そのため、融合によって生成されたターゲット翻訳画像のｉ番目のピクセルポイントのピクセル値は２２又は２４である。

これにより、変形画像と予め翻訳された画像の各ピクセルポイントのピクセル値をマスク画像の重みに従ってそれぞれ融合させることにより、融合によって生成されたターゲット翻訳画像の各ピクセルポイントのピクセル値は、翻訳ニーズを満たすことができるだけでなく、元の画像の高精細かつ豊富な高周波詳細情報を十分に反映することもでき、それによって生成されたターゲット翻訳画像の明瞭度が向上するだけでなく、生成されたターゲット翻訳画像の背景部分も元の画像と一致し、画像のシームレスな融合を実現し、生成されたターゲット翻訳画像の自然度を大幅に向上させることができる。

上記実施例の画像翻訳方法を電子機器に応用させることを可能にし、電子機器によってリアルタイムな画像翻訳機能を実現するために、元の画像を縮小して縮小画像を生成する時に、調整された演算量が電子機器のニーズを満たすように、画像縮小の割合を確定する必要がある。

したがって、本出願の１つの実施例では、ステップＳ１０２の前に、現在の電子機器の属性パラメータを取得し、電子機器の属性パラメータに基づき、ダウンサンプリング係数を確定するステップをさらに含む。それに応じて、ステップＳ１０２は、ダウンサンプリング係数に基づき、元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成するステップを含む。

ここで、電子機器の属性パラメータは、電子機器のＣＰＵ周波数、コアネス数などを含むことができる。

具体的には、まず、電子機器の属性パラメータに基づいて電子機器が実行できる演算量を確定し、さらに当該演算量に基づいてダウンサンプリング係数を確定し、次にダウンサンプリング係数に基づいて元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成することができる。

例えば、元の画像が解像度２５６＊２５６の男性の顔の画像である場合、それに対応する演算量はＸであり、電子機器の属性パラメータに基づき、電気機器が実行できる演算量が０．２５Ｘであることを確定すると、元の画像を２倍ダウンサンプリングして、解像度１２８＊１２８の縮小画像を取得することができる。

これにより、電子機器の属性パラメータに基づいて画像の縮小割合を確定し、調整された後の演算量が電子機器のニューズを満たしていることを確保し、それによって電子機器は、リアルタイムな画像翻訳機能を実現することができ、かつ画像翻訳の効果を確保することができ、ターゲット翻訳画像の明瞭度が高い。

上述したように、本出願によって提供される画像翻訳方法では、まず元の画像を含む画像翻訳リクエストを取得し、次に画像翻訳リクエストにおける元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成し、さらに縮小画像に基づき、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成し、予め翻訳された画像及びマスク画像のサイズを元の画像と同じサイズにし、次に変形パラメータに基づいて元の画像を変形処理して変形画像を生成し、最後に変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成する。これにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減し、同時に元の画像と同じサイズのターゲット翻訳画像を出力し、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像入力の高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。

上記実施例を実現するために、本出願の実施例は画像翻訳装置をさらに提供する。当該画像翻訳装置は、電子機器に設けられてもよい。図４は本出願の実施例による画像翻訳装置の構造図である。

図４に示すように、当該画像翻訳装置４００は、第１の取得モジュール４１０、第１のサンプリングモジュール４２０、第１の生成モジュール４３０、第１の処理モジュール４４０と第１融合モジュール４５０を含むことができる。

ここで、第１の取得モジュール４１０は、元の画像を含む画像翻訳リクエストを取得するように構成され、第１のサンプリングモジュール４２０は、元の画像をダウンサンプリングして元の画像に対応する縮小画像を生成するように構成され、第１の生成モジュール４３０は、縮小画像に基づき、元の前記画像に対応する元の画像と同じサイズの予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成され、第１の処理モジュール４４０は、変形パラメータに基づいて元の画像を変形処理して変形画像を取得するように構成され、第１の融合モジュール４５０は、変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成するように構成される。

図５は本出願の実施例による別の画像翻訳装置の構造図である。本出願の実施例の１つの可能な実現形態では、図５に示すように、第１の生成モジュール４３０は、第１の処理ユニット４３１、第１のサンプリングユニット４３２と第１の生成ユニット４３３を含む。

ここで、第１の処理ユニット４３１は、縮小画像を処理し、縮小画像がターゲット翻訳画像の属するドメインである第１のドメインに翻訳される時の対応する第１の特徴ベクトルを確定するように構成され、第１のサンプリングユニット４３２は、第１の特徴ベクトルをアップサンプリングして、第２の特徴ベクトルを生成するように構成され、第１の生成ユニット４３３は、第２の特徴ベクトルに基づき、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される。

本出願の実施例の１つの可能な実現形態では、翻訳リクエストにはターゲット翻訳画像の属する第１のドメインも含まれ、第１の取得モジュール４１０は、画像翻訳リクエストを取得した後、さらにターゲット翻訳画像の属する第１のドメインに基づき、ターゲットジェネレータを取得するように構成され、第１の生成モジュール４３０は、具体的には、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される。

本出願の実施例の別の可能な実現形態では、ターゲット翻訳画像の属する第１のドメインに対応するジェネレータがＮ種類であり、Ｎが１よりも大きい整数である場合、第１の取得モジュール４１０は、画像翻訳リクエストを取得した後、さらに、元の画像を識別して、元の画像の属する第２のドメインを確定し、元の画像の属する第２のドメイン及びターゲット翻訳画像の属する第１のドメインに基づき、Ｎ種類のジェネレータからターゲットジェネレータを選択するように構成される。

本出願の実施例の別の可能な実現形態では、第１の取得モジュール４１０は、画像翻訳リクエストを取得した後、さらに元の画像を識別して、元の画像の属する第２のドメインを確定し、元の画像の属する第２のドメインに基づき、ターゲットジェネレータを取得するように構成され、第１の生成モジュール４３０は、具体的には、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される。

本出願の実施例の別の可能な実現形態では、元の画像の属する第２のドメインに対応するジェネレータがＮ種類であり、Ｎが１よりも大きい整数である場合、第１の取得モジュール４１０は、画像翻訳リクエストを取得した後、さらにターゲット翻訳画像の属する第１のドメインを取得し、ターゲット翻訳画像の属する第１のドメイン及び元の画像の属する第２のドメインに基づき、Ｎ種類のジェネレータからターゲットジェネレータを選択するように構成される。

図６は本出願の実施例による別の画像翻訳装置の構造図である。本出願の実施例の１つの可能な実現形態では、図６に示すように、第１の融合モジュール４５０は、第１の確定ユニット４５１と第１の融合ユニット４５２とを含む。

ここで、第１の確定ユニット４５１は、マスク画像の各ピクセルポイントのピクセル値に基づき、予め翻訳された画像の第１の重み及び変形画像の第２の重みを確定するように構成され、第１の融合ユニット４５２は、第１の重み及び第２の重みに基づき、予め翻訳された画像の各ピクセルポイントのピクセル値と変形画像の各ピクセルポイントのピクセル値を融合させて、ターゲット翻訳画像を生成するように構成される。

本出願の実施例の別の可能な実現形態では、元の画像をダウンサンプリングして元の画像に対応する縮小画像を生成する前に、第１のサンプリングモジュール４２０は、さらに現在の電子機器の属性パラメータを取得し、電子機器の属性パラメータに基づき、ダウンサンプリング係数を確定するように構成され、第１のサンプリングモジュール４２０は、具体的には、ダウンサンプリング係数に基づき、元の画像をダウンサンプリングして元の画像に対応する縮小画像を生成するように構成される。

本出願の実施例の画像翻訳装置に開示されていない詳細については、本出願の実施例の画像翻訳方法に開示されている詳細を参照し、具体的には、その説明を省略することを説明すべきである。

本出願の実施例による画像翻訳装置では、まず第１の取得モジュールは、画像翻訳リクエストを取得し、次に第１のサンプリングモジュールは、翻訳リクエストにおける元の画像をダウンサンプリングして元の画像に対応する縮小画像を生成し、次に第１の生成モジュールは、縮小画像に基づき、元の画像に対応する元の画像と同じサイズの予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成し、さらに第１の処理モジュールは、変形パラメータに基づいて元の画像を変形処理して変形画像を取得し、最後、第１の融合モジュールは、変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成する。これにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減し、同時に元の画像と同じサイズのターゲット翻訳画像を出力し、また、生成されるターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。

上記実施例を実現するために、本出願の実施例は、画像翻訳モデルによって上記画像翻訳方法を実現するように、画像翻訳モデルトレーニング方法をさらに提供する。図７は本出願の実施例による画像翻訳モデルトレーニング方法のフローチャートである。

本出願の実施例による画像翻訳モデルトレーニング方法の実行本体は、画像翻訳モデルトレーニング装置であり、画像翻訳トレーニング装置は、画像翻訳モデルをトレーニングして第一のジェネレータを取得するように、電気機器に配置されてもよい。ここで、電子機器は、データ処理を実行できる任意の端末装置又はサーバーなどであってもよく、本出願ではこれに限定されない。

図７に示すように、画像翻訳モデルトレーニング方法は、次のステップを含むことができる。

ステップ７０１において、トレーニングサンプルセットを取得する。

ここで、トレーニングサンプルセットには第１のドメインに属する第１の画像セットと、第２のドメインに属する第２画像セットとが含まれる。

ステップ７０２において、第１の画像セット内の画像をそれぞれダウンサンプリングして、第１の縮小画像セットを生成する。

ステップ７０３において、第１の初期ジェネレータによって第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成する。ここで、第１の変形パラメータセット内の各パラメータは、それぞれ第１の画像セット内の画像の各ピクセルポイントに対応する。

ステップ７０４において、第１の変形パラメータセットに基づき、第１の画像セット内の画像をそれぞれ変形処理し、第１の変形画像セットを取得する。

ステップ７０５において、第１の変形画像セット、第１の予め翻訳された画像セット及び第１のマスク画像セット内の対応する画像をそれぞれ融合させて、第３の画像セットを取得する。

ステップ７０６において、第３の画像セット内の画像及び第２の画像セット内の画像をそれぞれ第１の初期弁別器に入力して、第１の初期弁別器によって出力された、第３の画像セット内の画像がそれぞれ真の画像に属する第１の確率セットと、第２の画像セット内の画像がそれぞれ真の画像に属する第２の確率セットとを取得する。

ステップ７０７において、第１の確率セット及び第２の確率セットに基づき、第１の初期ジェネレータ及び第１の初期弁別器を修正して、第１のドメインに属するターゲットジェネレータを生成する。ここで、第１のドメインに属するターゲットジェネレータは、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳するために使用される。

ここで、第１の画像セット内の画像は、それぞれ第２の画像セット内の画像と逐一マッチングする。

具体的には、トレーニングサンプルセット内の第１の画像セットの画像が第２の画像セット内の画像と逐一マッチングする場合、第１の縮小画像セット内の画像を第１の初期ジェネレータの入力とし、第１の初期ジェネレータによって第１の縮小画像セット内の画像をそれぞれ翻訳し、第２のドメインに属する第３の画像セットを取得することができ、ここで、第１の縮小画像セット内の画像をそれぞれ翻訳するプロセスについて、上記実施例で提供される画像翻訳方法を参照することができ、冗長を回避するために、ここでは詳細に説明しない。

第３の画像セットが取得された後、第３の画像セット内の画像及び第２の画像セット内の画像をそれぞれ第１の初期弁別器に入力して、第３の画像セット内の画像がそれぞれ真の画像に属する第１の確率セットと、第２の画像セット内の画像がそれぞれ真の画像に属する第２の確率セットとを第１の初期弁別器によって出力することができる。この場合、第１の確率セットと第２の確率セットのサイズを比較することにより、第１の初期ジェネレータと第１の初期弁別器とを修正することができる。

ここで、第１の確率セットと第２の確率セットの間の偏差が大きい場合、それは、画像が第１の初期ジェネレータによって翻訳される時に誤差が大きいことを意味し、したがって、第１のドメインに属するターゲットジェネレータを取得するために、第１の初期ジェネレータと第１の初期弁別器に対応する修正を行う必要があり、第１の確率セットと第２の確率セットの間の偏差が小さい場合、それは、画像が第１の初期ジェネレータによって翻訳される時に、誤差が小さいことを意味し、したがって、第１の初期ジェネレータと第１の初期弁別器に対応する修正を行うことなく、第１の初期ジェネレータを第１のドメインに属するターゲットジェネレータとして直接使用することができる。ここで、第１のドメインに属するターゲットジェネレータは、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳するために画像翻訳モデルとして使用されてもよい。

これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルによって画像を翻訳することにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減するとともに、元の画像と同じサイズのターゲット翻訳画像を出力することができ、また、生成されるターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。

画像を処理する場合、一般的に当該画像内の特徴情報を抽出し、特徴情報に対応する処理を行うことにより、画像への処理を実現することを説明すべきである。

それに応じて、ステップ７０３は、第１の縮小画像セット内の画像をそれぞれ処理して、縮小画像セット内の画像が第２のドメインに翻訳される時の対応する第１の特徴ベクトルセットを確定するステップと、第１の特徴ベクトルセット内の第１の特徴ベクトルをそれぞれアップサンプリングして、第２の特徴ベクトルセットを生成するステップと、第２の特徴ベクトルセット内の第２の特徴ベクトルに基づき、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成するステップと、を含む。

ここで、第１の初期ジェネレータによって前記第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成するプロセスについては、上記実施例で提供される画像翻訳方法を参照することができ、冗長を回避するために、ここでは詳細に説明しない。

本開示において、元の画像を翻訳する時に、実際に処理される画像サイズは、縮小された画像であり、特徴ベクトルが予め翻訳された画像、マスク画像及び変形パラメータに復号される前にのみ、アップサンプリング処理が実行されるため、最終的に生成される予め翻訳された画像、マスク画像などは、元の画像と同じサイズになり、また、画像翻訳中のデータ処理量が大幅に削減されることが理解できる。

第１の画像セット内の画像が第２の画像セット内の画像とマッチングしていない場合、上記実施例で取得された第３の画像セット内の画像も第２の画像セット内の画像とマッチングしていなく、したがって、第１の確率セット及び第２の確率セットに基づいて第１の初期ジェネレータ及び第１の初期弁別器を正確に修正することができなく、その結果、生成された画像翻訳モデルの誤差が大きい。

したがって、本出願の１つの実施例では、第１の画像セット内の画像が第２の画像セット内の画像とマッチングしていない場合、図８に示すように、上記ステップ７０７の後に、当該方法は、第３の画像セット内の画像をそれぞれダウンサンプリングして、第２の縮小画像セットを生成するステップ８０１と、第２の初期ジェネレータによって第２の縮小画像セット内の画像をそれぞれ処理して、第２の予め翻訳された画像セット、第２のマスク画像セット及び第２の変形パラメータセットを生成するステップ８０２と、第２の変形パラメータセットに基づき、第３の画像セット内の画像をそれぞれ変形処理して、第２の変形画像セットを取得するステップ８０３と、第２の変形画像セット、第２の予め翻訳された画像セット及び第２のマスク画像セット内の対応する画像をそれぞれ融合させて、第４の画像セットを取得するステップ８０４と、第４の画像セット内の画像及び第１の画像セット内の画像をそれぞれ第２の初期弁別器に入力して、第２の初期弁別器によって出力された、第４の画像セット内の画像がそれぞれ真の画像に属する第３の確率セットと、第１の画像セット内の画像がそれぞれ真の画像に属する第４の確率セットとを取得するステップ８０５と、第３の確率セット及び第４の確率セットに基づき、第１の初期ジェネレータ、第２の初期ジェネレータ、第１の初期弁別器及び第２の初期弁別器を修正して、第１のドメインに属するターゲットジェネレータ及び第２のドメインに属するターゲットジェネレータを生成するステップ８０６と、をさらに含む。ここで、第１のドメインに属するターゲットジェネレータは、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳し、第２のドメインに属するターゲットジェネレータは、第２のドメインに位置する画像を第１のドメインに位置する画像に翻訳するために使用される。

具体的には、トレーニングサンプルセット内の第１の画像セットの画像が第２の画像セット内の画像とマッチングしていない場合、第２の縮小画像セット内の画像を第２の初期ジェネレータの入力とし、第２の初期ジェネレータによって第２の縮小画像セット内の画像をそれぞれ翻訳し、第１のドメインに属する第４の画像セットを取得することができ、ここで、第２の縮小画像セット内の画像をそれぞれ翻訳するプロセスについて、上記実施例で提供される画像翻訳方法を参照することができ、冗長を回避するために、ここでは詳細に説明しない。

第４の画像セットが取得された後、第４の画像セット内の画像及び第１の画像セット内の画像をそれぞれ第２の初期弁別器に入力して、第４の画像セット内の画像がそれぞれ真の画像に属する第３の確率セットと、第１の画像セット内の画像がそれぞれ真の画像に属する第４の確率セットとを第１の初期弁別器によって出力することができる。この場合、第３の確率セットと第４の確率セットのサイズを比較することにより、第１の初期ジェネレータ、第２の初期ジェネレータ、第１の初期弁別器と第２の初期弁別器を修正することができる。

ここで、第３の確率セットと第４の確率セットの間の偏差が大きい場合、それは、画像が第１の初期ジェネレータと第２の初期ジェネレータによって翻訳される時に、誤差が大きいことを意味し、したがって、第１のドメインに属するターゲットジェネレータと、第２のドメインに属するターゲットジェネレータとを取得するために、第１の初期ジェネレータ、第２の初期ジェネレータ、第１の初期弁別器及び第２の初期弁別器に対応する修正を行う必要があり、第３の確率セットと第４の確率セットの間の偏差が小さい場合、それは、画像が第１の初期ジェネレータと第２の初期ジェネレータによって翻訳される時に、誤差が小さいことを意味し、したがって、第１の初期ジェネレータ、第２の初期ジェネレータ、第１の初期弁別器及び第２の初期弁別器に対応する修正を行うことなく、第１の初期ジェネレータを第１のドメインに属するターゲットジェネレータとして直接使用し、第２の初期ジェネレータを第２のドメインに属するジェネレータとして直接使用することができる。ここで、第１のドメインに属するターゲットジェネレータは、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳するために画像翻訳モデルとして使用されてもよく、第２のドメインに属するターゲットジェネレータは、第２のドメインに位置する画像を第１のドメインに位置する画像に翻訳するために別の画像翻訳モデルとして使用されてもよく、ここで、当該実施例における第１のドメインに属するターゲットジェネレータは、上記実施例における第１のドメインのターゲットジェネレータと同じであっても異なっていてもよく、具体的には実際の状況に応じて選択されてもよい。

これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルによって画像を翻訳することにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減するとともに、元の画像と同じサイズのターゲット翻訳画像を出力することができ、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。

上述したように、本出願によって提供される画像翻訳モデルトレーニング方法は、第１のドメインに属する第１の画像セットと、第２のドメインに属する第２の画像セットとを含むトレーニングセットを取得し、第１の画像セット内の画像をそれぞれダウンサンプリングして、第１の縮小画像セットを生成し、第１の初期ジェネレータによって第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成し、ここで、第１の変形パラメータセット内の各パラメータがそれぞれ第１の画像セット内の画像の各ピクセルポイントに対応し、第１の変形パラメータセットに基づいて第１の画像セット内の画像をそれぞれ変形処理し、第１の変形画像セットを取得し、第１の変形画像セット、第１の予め翻訳された画像セット及び第１のマスク画像セット内の対応する画像をそれぞれ融合させて、第３の画像セットを取得し、第３の画像セット内の画像及び第２の画像セット内の画像をそれぞれ第１の初期弁別器に入力して、第１の初期弁別器によって出力された、第３の画像セット内の画像がそれぞれ真の画像に属する第１の確率セットと、第２の画像セット内の画像がそれぞれ真の画像に属する第２の確率セットとを取得し、第１の確率セット及び第２の確率セットに基づき、第１の初期ジェネレータ及び第１弁別器を修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータを生成する。これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルによって画像を翻訳することにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減するとともに、元の画像と同じサイズのターゲット翻訳画像を出力することができ、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。

上記実施例を実現するために、本出願の実施例は画像翻訳モデルトレーニング装置をさらに提供する。当該画像翻訳モデルトレーニング装置は、電子機器に設けられてもよい。図９は本出願の実施例による画像翻訳モデルトレーニング装置の構造図である。

図９に示すように、当該画像翻訳モデルトレーニング装置９００は、第２の取得モジュール９０１、第２のサンプリングモジュール９０２、第２の処理モジュール９０３、第３の処理モジュール９０４、第２の融合モジュール９０５、第３の取得モジュール９０６及び第１の修正モジュール９０７を含むことができる。

ここで、第２の取得モジュール９０１は、第１のドメインに属する第１の画像セットと、第２のドメインに属する第２の画像セットとを含むトレーニングセットを取得するように構成され、第２のサンプリングモジュール９０２は、第１の画像セット内の画像をそれぞれダウンサンプリングして、第１の縮小画像セットを生成するように構成され、第２の処理モジュール９０３は、第１の初期ジェネレータによって第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成するように構成され、ここで、第１の変形パラメータセット内の各パラメータがそれぞれ第１の画像セット内の画像の各ピクセルポイントに対応し、第３の処理モジュール９０４は、第１の変形パラメータセットに基づいて第１の画像セット内の画像をそれぞれ変形処理し、第１の変形画像セットを取得するように構成され、第２の融合モジュール９０５は、第１の変形画像セット、第１の予め翻訳された画像セット及び第１のマスク画像セット内の対応する画像をそれぞれ融合させて、第３の画像セットを取得するように構成され、第３の取得モジュール９０６は、第３の画像セット内の画像及び第２の画像セット内の画像をそれぞれ第１の初期弁別器に入力して、第１の初期弁別器によって出力された、第３の画像セット内の画像がそれぞれ真の画像に属する第１の確率セットと、第２の画像セット内の画像がそれぞれ真の画像に属する第２の確率セットとを取得するように構成され、第１の修正モジュール９０７は、第１の確率セット及び第２の確率セットに基づき、第１の初期ジェネレータ及び第１の初期弁別器を修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータを生成するように構成される。

図１０は、本出願の実施例による別の画像翻訳モデルトレーニング装置の構造図である。図１０に示すように、第２の処理モジュール９０３は、第２の処理ユニット９０３１、第２のサンプリングユニット９０３２と第２の生成ユニット９０３３を含む。

ここで、第２の処理ユニット９０３１は、第１の縮小画像セット内の画像をそれぞれ処理して、縮小画像セット内の画像が第２のドメインに翻訳される時の対応する第１の特徴ベクトルセットを確定するように構成され、第２のサンプリングユニット９０３２は、第１の特徴ベクトルセット内の第１の特徴ベクトルをそれぞれアップサンプリングして、第２の特徴ベクトルセットを生成するように構成され、第２の生成ユニット９０３３は、第２の特徴ベクトルセット内の第２の特徴ベクトルに基づき、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成するように構成される。

本出願の１つの実施例では、第１の画像セット内の画像は、それぞれ第２の画像セット内の画像と逐一マッチングする。

図１１は本出願の実施例による別の画像翻訳モデルトレーニング装置の構造図である。本出願の実施例の１つの可能な実施形態では、第１の画像セット内の画像が第２の画像セット内の画像とマッチングしていない場合、図１１に示すように、当該トレーニング装置は、第３のサンプリングモジュール９０８、第４の処理モジュール９０９、第５の処理モジュール９１０、第３の融合モジュール９１１、第４の取得モジュール９１２及び第２の修正モジュール９１３をさらに含む。

ここで、第３のサンプリングモジュール９０８は、第３の画像セット内の画像をそれぞれダウンサンプリングして、第２の縮小画像セットを生成するように構成され、第４の処理モジュール９０９は、第２の初期ジェネレータによって第２の縮小画像セット内の画像をそれぞれ処理して、第２の予め翻訳された画像セット、第２のマスク画像セット及び第２の変形パラメータセットを生成するように構成され、第５の処理モジュール９１０は、第２の変形パラメータセットに基づいて第３の画像セット内の画像をそれぞれ変形処理して、第２の変形画像セットを取得するように構成され、第３の融合モジュール９１１は、第２の変形画像セット、第２の予め翻訳された画像セット及び第２のマスク画像セット内の対応する画像をそれぞれ融合させて、第４の画像セットを取得するように構成され、第４の取得モジュール９１２は、第４の画像セット内の画像及び第１の画像セット内の画像をそれぞれ第２の初期弁別器に入力して、第２の初期弁別器によって出力された、第４の画像セット内の画像がそれぞれ真の画像に属する第３の確率セットと、第１の画像セット内の画像がそれぞれ真の画像に属する第４の確率セットとを取得するように構成され、第２の修正モジュール９１３は、第３の確率セット及び第４の確率セットに基づき、第１の初期ジェネレータ、第２の初期ジェネレータ、第１の初期弁別器及び第２の初期弁別器を修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータと、第２のドメインに位置する画像を第１のドメインに位置する画像に翻訳するための第２のドメインに属するターゲットジェネレータとを生成するように構成される。

本出願の実施例の画像翻訳モデルトレーニング装置に開示されていない詳細については、本出願の実施例の画像翻訳モデルトレーニング方法に開示されている詳細を参照し、具体的な説明を省略することを説明すべきである。

本出願の実施例の画像翻訳モデルトレーニング装置では、第２の取得モジュールは、第１のドメインに属する第１の画像セットと第２のドメインに属する第２の画像セットとを含むトレーニングセットを取得し、第２のサンプリングモジュールは、第１の画像セット内の画像をそれぞれダウンサンプリングして、第１の縮小画像セットを生成し、第２の処理モジュールは、第１の初期ジェネレータで第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成し、ここで、第１の変形パラメータセット内の各パラメータがそれぞれ第１の画像セット内の画像の各ピクセルポイントに対応し、第３の処理モジュールは、第１の変形パラメータセットに基づいて第１の画像セット内の画像をそれぞれ変形処理し、第１の変形画像セットを取得し、第２の融合モジュールは、第１の変形画像セット、第１の予め翻訳された画像セット及び第１のマスク画像セット内の対応する画像をそれぞれ融合させて、第３の画像セットを取得し、第３の取得モジュールは、第３の画像セット内の画像及び第２の画像セット内の画像をそれぞれ第１の初期弁別器に入力して、第１の初期弁別器によって出力された、第３の画像セット内の画像がそれぞれ真の画像に属する第１の確率セットと、第２の画像セット内の画像がそれぞれ真の画像に属する第２の確率セットとを取得し、第１の修正モジュールは、第１の確率セット及び第２の確率セットに基づき、第１の初期ジェネレータ及び第１の初期弁別器を修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータを生成する。これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルによって画像を翻訳することにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減するとともに、元の画像と同じサイズのターゲット翻訳画像を出力することができ、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。

本出願の実施例によれば、本出願は、電子機器と可読記憶媒体をさらに提供する。本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記画像翻訳方法又は上記画像翻訳モデルトレーニング方法が実行される。

図１２は、本出願の実施例による画像翻訳方法又は画像翻訳モデルトレーニング方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークテーブル、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大型コンピュータ及びその他の適切なコンピューターなどの様々な形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナルデジタル処理デバイス、セルラー電話、スマートフォン、ウェアラブルデバイス及び他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、かつ本明細書で説明及び／又は要求される本出願の実現を制限することを意図しない。

図１２に示すように、当該電子機器は、１つ又は複数のプロセッサ１２０１と、メモリ１２０２と、高速インタフェース及び低速インタフェースを含む、各コンポーネントを接続するためのインタフェースとを含む。各コンポーネントは、異なるバスによって相互に接続されており、共通のマザーボードにインストールされてもよく、又はニーズに応じて他の方式でインストールされてもよい。プロセッサは、メモリ内又はメモリ上に記憶されて外部入力／出力デバイス（インターフェースに結合された表示デバイスなど）にＧＵＩのグラフィック情報を表示するための命令を含む、電子機器で実行された命令を処理することができる。他の実施形態では、ニューズに応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のプロセッサとともに使用することができる。同様に、複数の電子機器を接続でき、各機器は、一部の必要な操作（例えば、サーバーアレイ、ブレードサーバーグループ、又はマルチプロセッサシステムとして機能する）を提供する。図１２では１つのプロセッサ１２０１は例として挙げられる。

メモリ１２０２は、本出願によって提供される非一時的コンピュータ可読記憶媒体である。ここで、前記メモリは、前記少なくとも１つのプロセッサに本出願で提供される画像翻訳方法又は画像翻訳モデルトレーニング方法を実行させるための、少なくとも１つのプロセッサで実行可能な命令を記憶している。本出願の非一時的コンピュータ可読記憶媒体は、コンピュータに本出願で提供される画像翻訳方法又は画像翻訳モデルトレーニング方法を実行させるためのコンピュータ命令を記憶している。

メモリ１２０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム及びモジュール、例えば本出願の実施例における画像翻訳方法又は画像翻訳モデルトレーニング方法に対応するプログラム命令／モジュール（例えば、図４に示す第１の取得モジュール４１０、第１のサンプリングモジュール４２０、第１の生成モジュール４３０、第１の処理モジュール４４０と第１の融合モジュール４５０、図９に示す第２の取得モジュール９０１、第２のサンプリングモジュール９０２、第２の処理モジュール９０３、第３の処理モジュール９０４、第２の融合モジュール９０５、第３の取得モジュール９０６及び第１の修正モジュール９０７）を記憶するために使用されてもよい。プロセッサ１２０１は、メモリ１２０２に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバーの様々な機能アプリケーション及びデータ処理を実行し、即ち上記方法の実施例における画像翻訳方法又は画像翻訳モデルトレーニング方法を実現する。

メモリ１２０２は、プログラム記憶領域とデータ記憶領域を含むことができ、ここで、プログラム記憶領域がオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域が画像翻訳のための電子機器の使用のために作成されたデータなどを記憶することができる。また、メモリ１２０２は、高速ランダムアクセスメモリを含むことができ、少なくとも一つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスをさらに含むことができる。いくつかの実施例では、メモリ１２０２は、プロセッサ１２０１に対して遠隔に設けられたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して画像翻訳のための電気機器に接続されてもよい。上記ネットワークの実施例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。

画像翻訳方法又は画像翻訳モデルトレーニング方法を実現するための電子機器は、入力装置１２０３と出力装置１２０４とをさらに含むことができる。プロセッサ１２０１、メモリ１２０２、入力装置１２０３及び出力装置１２０４は、バス又は他の方式によって接続されてもよく、図１２では、バスを介して接続することを例とする。

入力装置１２０３は、入力された数字又は文字情報を受信し、画像翻訳のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置１２０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイを含むことができる。いくつかの実施形態では、表示装置は、タッチスクリーンであってもよい。

本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現されてもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されてもよく、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、記憶ステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、かつ高レベルのプロセス及び／又はオブジェクト向けのプログラミング言語、及び／又はアセンブリ／機械言語で計算プログラムを実施することができる。本明細書に使用されるように、用語「機械可読媒体」及び「コンピュータ可読媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械可読信号である機械命令を受信する機械可読媒体を含む。用語「機械可読信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、情報をユーザに表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とのインタラクションを行うことができる）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施されてもよい。システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもい。通信ネットワークの例として、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットが含まれる。

コンピュータシステムは、クライアントとサーバーを含むことができる。クライアントとサーバーは、一般的に互いに遠く離れており、通常は通信ネットワークを介してインタラクションを行う。クライアントとサーバーの関係は、対応するコンピューターで実行されかつクライアント－サーバーの関係を持つコンピュータープログラムによって生成される。サーバーは、クラウドサーバーであってもよく、クラウドコンピューティングサーバー又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホストとＶＰＳサービスにおける、管理難度が大きく、サービスの拡張性が弱いという欠陥を解決する。

上記の様々な形態のプロセスを使用し、ステップを並べ替えたり、追加したり、削除したりすることができることを理解すべきである。例えば、本出願に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術的解決策の所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきでえある。

Claims

画像翻訳方法であって、
元の画像を含む画像翻訳リクエストを取得するステップと、
前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するステップと、
前記縮小画像に基づき、前記元の画像に対応する前記元の画像と同じサイズの予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップと、
前記変形パラメータに基づいて前記元の画像を変形処理して変形画像を生成するステップと、
前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するステップと、を含む、
ことを特徴とする画像翻訳方法。
前記縮小画像に基づき、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップは、
前記縮小画像を処理し、前記縮小画像が前記ターゲット翻訳画像の属するドメインである第１のドメインに翻訳される時の対応する第１の特徴ベクトルを確定するステップと、
前記第１の特徴ベクトルをアップサンプリングして、第２の特徴ベクトルを生成するステップと、
前記第２の特徴ベクトルに基づき、前記予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップと、を含む、
ことを特徴とする請求項１に記載の画像翻訳方法。
前記翻訳リクエストには前記ターゲット翻訳画像の属する第１のドメインも含まれ、画像翻訳リクエストが取得された後、
前記ターゲット翻訳画像の属する第１のドメインに基づき、ターゲットジェネレータを取得するステップをさらに含み、
前記縮小画像に基づき、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップは、
前記ターゲットジェネレータによって前記縮小画像を処理して、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップを含む、
ことを特徴とする請求項１に記載の画像翻訳方法。
前記ターゲット翻訳画像の属する第１のドメインに対応するジェネレータがＮ種類であり、Ｎが１よりも大きい整数である場合、画像翻訳リクエストが取得された後、
前記元の画像を識別して、前記元の画像の属する第２のドメインを確定するステップと、
前記元の画像の属する第２のドメイン及び前記ターゲット翻訳画像の属する第１のドメインに基づき、前記Ｎ種類のジェネレータから前記ターゲットジェネレータを選択するステップと、をさらに含む、
ことを特徴とする請求項３に記載の画像翻訳方法。
画像翻訳リクエストが取得された後、
前記元の画像を識別して、前記元の画像の属する第２のドメインを確定するステップと、
前記元の画像の属する第２のドメインに基づき、ターゲットジェネレータを取得するステップと、をさらに含み、
前記縮小画像に基づき、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップは、
前記ターゲットジェネレータによって前記縮小画像を処理して、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップを含む、
ことを特徴とする請求項１に記載の画像翻訳方法。
前記元の画像の属する第２のドメインに対応するジェネレータがＮ種類であり、Ｎが１よりも大きい整数である場合、画像翻訳リクエストが取得された後、
ターゲット翻訳画像の属する第１のドメインを取得するステップと、
前記ターゲット翻訳画像の属する第１のドメイン及び前記元の画像の属する第２のドメインに基づき、前記Ｎ種類のジェネレータから前記ターゲットジェネレータを選択するステップと、をさらに含む、
ことを特徴とする請求項５に記載の画像翻訳方法。
前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するステップは、
前記マスク画像の各ピクセルポイントのピクセル値に基づき、前記予め翻訳された画像の第１の重み及び前記変形画像の第２の重みを確定するステップと、
前記第１の重み及び前記第２の重みに基づき、前記予め翻訳された画像の各ピクセルポイントのピクセル値と前記変形画像の各ピクセルポイントのピクセル値とを融合させて、前記ターゲット翻訳画像を生成するステップと、を含む、
ことを特徴とする請求項１に記載の画像翻訳方法。
前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成する前に、
現在の電子機器の属性パラメータを取得するステップと、
前記電子機器の属性パラメータに基づき、ダウンサンプリング係数を確定するステップと、をさらに含み、
前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するステップは、
前記ダウンサンプリング係数に基づき、前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するステップを含む、
ことを特徴とする請求項１に記載の画像翻訳方法。
画像翻訳モデルトレーニング方法であって、
第１のドメインに属する第１の画像セットと、第２のドメインに属する第２の画像セットとを含むトレーニングセットを取得するステップと、
前記第１の画像セット内の画像をそれぞれダウンサンプリングして、第１の縮小画像セットを生成するステップと、
第１の初期ジェネレータによって前記第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成するステップであって、前記第１の変形パラメータセット内の各パラメータがそれぞれ前記第１の画像セット内の画像の各ピクセルポイントに対応するステップと、
前記第１の変形パラメータセットに基づいて前記第１の画像セット内の画像をそれぞれ変形処理し、第１の変形画像セットを取得するステップと、
前記第１の変形画像セット、前記第１の予め翻訳された画像セット及び前記第１のマスク画像セット内の対応する画像をそれぞれ融合させて、第３の画像セットを取得するステップと、
前記第３の画像セット内の画像及び第２の画像セット内の画像をそれぞれ第１の初期弁別器に入力して、前記第１の初期弁別器によって出力された、前記第３の画像セット内の画像がそれぞれ真の画像に属する第１の確率セットと、前記第２の画像セット内の画像がそれぞれ真の画像に属する第２の確率セットとを取得するステップと、
前記第１の確率セット及び前記第２の確率セットに基づき、前記第１の初期ジェネレータ及び前記第１の初期弁別器を修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータを生成するステップと、を含む、
ことを特徴とする画像翻訳モデルトレーニング方法。
第１の初期ジェネレータによって前記第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成するステップは、
前記第１の縮小画像セット内の画像をそれぞれ処理して、縮小画像セット内の画像が前記第２のドメインに翻訳される時の対応する第１の特徴ベクトルセットを確定するステップと、
前記第１の特徴ベクトルセット内の第１の特徴ベクトルをそれぞれアップサンプリングして、第２の特徴ベクトルセットを生成するステップと、
前記第２の特徴ベクトルセット内の第２の特徴ベクトルに基づき、前記第１の予め翻訳された画像セット、前記第１のマスク画像セット及び第１の変形パラメータセットを生成するステップと、を含む、
ことを特徴とする請求項９に記載の画像翻訳モデルトレーニング方法。
前記第１の画像セット内の画像は、それぞれ前記第２の画像セット内の画像と逐一マッチングする、
ことを特徴とする請求項９に記載の画像翻訳モデルトレーニング方法。
第１の画像セット内の画像が前記第２の画像セット内の画像とマッチングしていない場合、前記第１の確率セット及び前記第２の確率セットに基づき、前記第１の初期ジェネレータ及び前記第１の初期弁別器を修正した後、
前記第３の画像セット内の画像をそれぞれダウンサンプリングして、第２の縮小画像セットを生成するステップと、
第２の初期ジェネレータによって前記第２の縮小画像セット内の画像をそれぞれ処理して、第２の予め翻訳された画像セット、第２のマスク画像セット及び第２の変形パラメータセットを生成するステップと、
前記第２の変形パラメータセットに基づいて前記第３の画像セット内の画像をそれぞれ変形処理して、第２の変形画像セットを取得するステップと、
前記第２の変形画像セット、第２の予め翻訳された画像セット及び前記第２のマスク画像セット内の対応する画像をそれぞれ融合させて、第４の画像セットを取得するステップと、
前記第４の画像セット内の画像及び第１の画像セット内の画像をそれぞれ第２の初期弁別器に入力して、前記第２の初期弁別器によって出力された、前記第４の画像セット内の画像がそれぞれ真の画像に属する第３の確率セットと、前記第１の画像セット内の画像がそれぞれ真の画像に属する第４の確率セットとを取得するステップと、
前記第３の確率セット及び前記第４の確率セットに基づき、前記第１の初期ジェネレータ、前記第２の初期ジェネレータ、前記第１の初期弁別器及び前記第２の初期弁別器を修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータと、第２のドメインに位置する画像を第１のドメインに位置する画像に翻訳させるための第２のドメインに属するターゲットジェネレータとを生成するステップと、をさらに含む、
ことを特徴とする請求項９に記載の画像翻訳モデルトレーニング方法。
画像翻訳装置であって、
元の画像を含む画像翻訳リクエストを取得するように構成される第１の取得モジュールと、
前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するように構成される第１のサンプリングモジュールと、
前記縮小画像に基づき、前記元の画像に対応する前記元の画像と同じサイズの予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される第１の生成モジュールと、
前記変形パラメータに基づいて前記元の画像を変形処理して変形画像を取得するように構成される第１の処理モジュールと、
前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するように構成される第１の融合モジュールと、を含む、
ことを特徴とする画像翻訳装置。
前記第１の生成モジュールは、
前記縮小画像を処理し、前記縮小画像が前記ターゲット翻訳画像の属するドメインである第１のドメインに翻訳される時の対応する第１の特徴ベクトルを確定するように構成される第１の処理ユニットと、
前記第１の特徴ベクトルをアップサンプリングして、第２の特徴ベクトルを生成するように構成される第１のサンプリングユニットと、
前記第２の特徴ベクトルに基づき、前記予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成されるための第１の生成ユニットと、を含む、
ことを特徴とする請求項１３に記載の画像翻訳装置。
前記画像翻訳リクエストには前記ターゲット翻訳画像の属する第１のドメインも含まれ、前記第１の取得モジュールは、画像翻訳リクエストを取得した後、さらに、
前記ターゲット翻訳画像の属する第１のドメインに基づき、ターゲットジェネレータを取得するように構成され、
前記第１の生成モジュールは、具体的には、
前記ターゲットジェネレータによって前記縮小画像を処理して、前記元の画像に対応する予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される、
ことを特徴とする請求項１３に記載の画像翻訳装置。
前記ターゲット翻訳画像の属する第１のドメインに対応するジェネレータがＮ種類であり、Ｎが１よりも大きい整数である場合、前記第１の取得モジュールは、画像翻訳リクエストを取得した後、さらに、
前記元の画像を識別して、前記元の画像の属する第２のドメインを確定し、
前記元の画像の属する第２のドメイン及び前記ターゲット翻訳画像の属する第１のドメインに基づき、前記Ｎ種類のジェネレータから前記ターゲットジェネレータを選択するように構成される、
ことを特徴とする請求項１５に記載の画像翻訳装置。
前記第１の取得モジュールは、画像翻訳リクエストを取得した後、さらに、
前記元の画像を識別して、前記元の画像の属する第２のドメインを確定し、
前記元の画像の属する第２のドメインに基づき、ターゲットジェネレータを取得するように構成され、
前記第１の生成モジュールは、具体的には、
前記ターゲットジェネレータによって前記縮小画像を処理して、前記元の画像に対応する予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される、
ことを特徴とする請求項１３に記載の画像翻訳装置。
前記元の画像の属する第２のドメインに対応するジェネレータがＮ種類であり、Ｎが１よりも大きい整数である場合、前記第１の取得モジュールは、画像翻訳リクエストを取得した後、さらに、
ターゲット翻訳画像の属する第１のドメインを取得し、
前記ターゲット翻訳画像の属する第１のドメイン及び前記元の画像の属する第２のドメインに基づき、前記Ｎ種類のジェネレータから前記ターゲットジェネレータを選択するように構成される、
ことを特徴とする請求項１７に記載の画像翻訳装置。
前記第１の融合モジュールは、
前記マスク画像の各ピクセルポイントのピクセル値に基づき、予め翻訳された画像の第１の重み及び前記変形画像の第２の重みを確定するように構成される第１の確定ユニットと、
前記第１の重み及び前記第２の重みに基づき、前記予め翻訳された画像の各ピクセルポイントのピクセル値と前記変形画像の各ピクセルポイントのピクセル値とを融合させて、前記ターゲット翻訳画像を生成するように構成される第２の融合ユニットと、を含む、
ことを特徴とする請求項１３～１８のいずれかに記載の画像翻訳装置。
前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成する前に、前記第１のサンプリングモジュールは、さらに、
現在の電子機器の属性パラメータを取得し、
前記電子機器の属性パラメータに基づき、ダウンサンプリング係数を確定するように構成され、
前記第１のサンプリングモジュールは、具体的には、
前記ダウンサンプリング係数に基づき、前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するように構成される、
ことを特徴とする請求項１３～１８のいずれかに記載の画像翻訳装置。
画像翻訳モデルトレーニング装置であって、
第１のドメインに属する第１の画像セットと、第２のドメインに属する第２の画像セットとを含むトレーニングセットを取得するように構成される第２の取得モジュールと、
前記第１の画像セット内の画像をそれぞれダウンサンプリングして、第１の縮小画像セットを生成するように構成される第２のサンプリングモジュールと、
第１の初期ジェネレータによって前記第１の縮小画像セット内の画像をそれぞれ処理して、第１の予め翻訳された画像セット、第１のマスク画像セット及び第１の変形パラメータセットを生成するように構成される第２の処理モジュールであって、前記第１の変形パラメータセット内の各パラメータがそれぞれ前記第１の画像セット内の画像の各ピクセルポイントに対応する第２の処理モジュールと、
前記第１の変形パラメータセットに基づいて前記第１の画像セット内の画像をそれぞれ変形処理し、第１の変形画像セットを取得するように構成される第３の処理モジュールと、
前記第１の変形画像セット、前記第１の予め翻訳された画像セット及び前記第１のマスク画像セット内の対応する画像をそれぞれ融合させて、第３の画像セットを取得するように構成される第２の融合モジュールと、
前記第３の画像セット内の画像及び前記第２の画像セット内の画像をそれぞれ第１の初期弁別器に入力して、前記第１の初期弁別器によって出力された、前記第３の画像セット内の画像がそれぞれ真の画像に属する第１の確率セットと、前記第２の画像セット内の画像がそれぞれ真の画像に属する第２の確率セットとを取得するように構成される第３の取得モジュールと、
前記第１の確率セット及び前記第２の確率セットに基づき、前記第１の初期ジェネレータ及び前記第１の初期弁別器を修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータを生成するように構成される第１の修正モジュールと、を含む、
ことを特徴とする画像翻訳モデルトレーニング装置。
前記第２の処理モジュールは、
前記第１の縮小画像セット内の画像をそれぞれ処理して、縮小画像セット内の画像が前記第２のドメインに翻訳される時の対応する第１の特徴ベクトルセットを確定するように構成される第２の処理ユニットと、
前記第１の特徴ベクトルセット内の第１の特徴ベクトルをそれぞれアップサンプリングして、第２の特徴ベクトルセットを生成するように構成される第２のサンプリングユニットと、
前記第２の特徴ベクトルセット内の第２の特徴ベクトルに基づき、前記第１の予め翻訳された画像セット、前記第１のマスク画像セット及び前記第１の変形パラメータセットを生成するように構成される第２の生成ユニットと、を含む、
ことを特徴とする請求項２１に記載の画像翻訳モデルトレーニング装置。
前記第１の画像セット内の画像は、それぞれ前記第２の画像セット内の画像と逐一マッチングする、
ことを特徴とする請求項２１に記載の画像翻訳モデルトレーニング装置。
第１の画像セット内の画像が前記第２の画像セット内の画像とマッチングしていない場合、前記画像翻訳モデルトレーニング装置は、
前記第３の画像セット内の画像をそれぞれダウンサンプリングして、第２の縮小画像セットを生成するように構成される第３のサンプリングモジュールと、
第２の初期ジェネレータによって前記第２の縮小画像セット内の画像をそれぞれ処理して、第２の予め翻訳された画像セット、第２のマスク画像セット及び第２の変形パラメータセットを生成するように構成される第４の処理モジュールと、
前記第２の変形パラメータセットに基づいて前記第３の画像セット内の画像をそれぞれ変形処理して、第２の変形画像セットを取得するように構成される第５の処理モジュールと、
前記第２の変形画像セット、第２の予め翻訳された画像セット及び前記第２のマスク画像セット内の対応する画像をそれぞれ融合させて、第４の画像セットを取得するように構成される第３の融合モジュールと、
前記第４の画像セット内の画像及び前記第１の画像セット内の画像をそれぞれ第２の初期弁別器に入力して、前記第２の初期弁別器によって出力された、前記第４の画像セット内の画像がそれぞれ真の画像に属する第３の確率セットと、前記第１の画像セット内の画像がそれぞれ真の画像に属する第４の確率セットとを取得するように構成される第４のモジュールと、
前記第３の確率セット及び前記第４の確率セットに基づき、前記第１の初期ジェネレータ、前記第２の初期ジェネレータ、前記第１の初期弁別器及び前記第２の初期弁別器を修正して、第１のドメインに位置する画像を第２のドメインに位置する画像に翻訳させるための第１のドメインに属するターゲットジェネレータと、第２のドメインに位置する画像を第１のドメインに位置する画像に翻訳させるための第２のドメインに属するターゲットジェネレータとを生成するように構成される第２の修正モジュールと、をさらに含む、
ことを特徴とする請求項２１に記載の画像翻訳モデルトレーニング装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、ここで、
前記メモリには前記少なくとも１つのプロセッサで実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～８のいずれかに記載の方法又は請求項９～１２のいずれかに記載の方法を実行するように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令を記憶している非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～８のいずれかに記載の方法又は請求項９～１２のいずれかに記載のトレーニング方法を実行させる、
ことを特徴とする非一時的コンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項１～８のいずれかに記載の方法又は請求項９～１２のいずれかに記載のトレーニング方法が実行される、
ことを特徴とするコンピュータプログラム。