Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7133003B2 - 画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置 - Google Patents
[go: Go Back, main page]

JP7133003B2 - 画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置 - Google Patents

画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置 Download PDF

Info

Publication number
JP7133003B2
JP7133003B2 JP2020215551A JP2020215551A JP7133003B2 JP 7133003 B2 JP7133003 B2 JP 7133003B2 JP 2020215551 A JP2020215551 A JP 2020215551A JP 2020215551 A JP2020215551 A JP 2020215551A JP 7133003 B2 JP7133003 B2 JP 7133003B2
Authority
JP
Japan
Prior art keywords
image
images
domain
translation
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020215551A
Other languages
English (en)
Other versions
JP2021190085A (ja
Inventor
ヤン,シャオジョン
チョウ,チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021190085A publication Critical patent/JP2021190085A/ja
Application granted granted Critical
Publication of JP7133003B2 publication Critical patent/JP7133003B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/149Segmentation; Edge detection involving deformable models, e.g. active contour models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)
  • Geometry (AREA)

Description

本出願は、画像処理技術分野に関し、具体的には、深層学習及び画像処理技術分野に関し、特に画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置に関する。
画像翻訳ネットワークは、画像の内容を変更することなく、1つのタイプの画像を別のタイプの画像に直接変換することができ、画像生成、シーン分割、画像様式化などの分野で広く応用されている。しかしながら、画像を翻訳するプロセスでは、その演算量が大きい。
関連技術において、一般的に翻訳モデルの構造を連続的にカットしたり、入力された画像の解像度を直接下げたりするなどの方式により、画像翻訳の演算量を低減する。しかし、上記方式により画像を翻訳すると、翻訳された画像の明瞭度が低くなり、かつ画像翻訳の効果も大幅に低下してしまう。
本出願は、画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置、電子機器及び記憶媒体を提供する。
第1の態様による画像翻訳方法は、元の画像を含む画像翻訳リクエストを取得するステップと、前記元の画像をダウンサンプリングして前記元の画像に対応する縮小画像を生成するステップと、前記縮小画像に基づき、前記元の前記画像に対応する前記元の画像と同じサイズの予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップと、前記変形パラメータに基づいて前記元の画像を変形処理して変形画像を生成するステップと、前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するステップと、を含む。
第2の態様による画像翻訳モデルトレーニング方法は、第1のドメインに属する第1の画像セットと、第2のドメインに属する第2の画像セットとを含むトレーニングセットを取得するステップと、前記第1の画像セット内の画像をそれぞれダウンサンプリングして、第1の縮小画像セットを生成するステップと、第1の初期ジェネレータによって前記第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成するステップであって、前記第1の変形パラメータセット内の各パラメータがそれぞれ前記第1の画像セット内の画像の各ピクセルポイントに対応するステップと、前記第1の変形パラメータセットに基づいて前記第1の画像セット内の画像をそれぞれ変形処理し、第1の変形画像セットを取得するステップと、前記第1の変形画像セット、前記第1の予め翻訳された画像セット及び前記第1のマスク画像セット内の対応する画像をそれぞれ融合させて、第3の画像セットを取得するステップと、前記第3の画像セット内の画像及び前記第2の画像セット内の画像をそれぞれ第1の初期弁別器に入力して、前記第1の初期弁別器によって出力された、前記第3の画像セット内の画像がそれぞれ真の画像に属する第1の確率セットと、前記第2の画像セット内の画像がそれぞれ真の画像に属する第2の確率セットとを取得するステップと、前記第1の確率セット及び前記第2の確率セットに基づき、前記第1の初期ジェネレータと前記第1の初期弁別器とを修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータを生成するステップと、を含む。
第3の態様による画像翻訳装置は、元の画像を含む画像翻訳リクエストを取得するように構成される第1の取得モジュールと、前記元の画像をダウンサンプリングして前記元の画像に対応する縮小画像を生成するように構成される第一のサンプリングモジュールと、前記縮小画像に基づき、前記元の前記画像に対応する前記元の画像と同じサイズの予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される第一の生成モジュールと、前記変形パラメータに基づいて前記元の画像を変形処理して変形画像を取得するように構成される第1の処理モジュールと、前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するように構成される第1の融合モジュールと、を含む。
第4の態様による画像翻訳モデルトレーニング装置は、第1のドメインに属する第1の画像セットと、第2のドメインに属する第2の画像セットとを含むトレーニングセットを取得するように構成される第2の取得モジュールと、前記第1の画像セット内の画像をそれぞれダウンサンプリングして、第1の縮小画像セットを生成するように構成される第2のサンプリングモジュールと、第1の初期ジェネレータによって前記第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成するように構成される第2の処理モジュールであって、前記第1の変形パラメータセット内の各パラメータがそれぞれ前記第1の画像セット内の画像の各ピクセルポイントに対応する第2の処理モジュールと、前記第1の変形パラメータセットに基づいて前記第1の画像セット内の画像をそれぞれ変形処理し、第1の変形画像セットを取得するように構成される第3の処理モジュールと、前記第1の変形画像セット、前記第1の予め翻訳された画像セット及び前記第1のマスク画像セット内の対応する画像をそれぞれ融合させて、第3の画像セットを取得するように構成される第2の融合モジュールと、前記第3の画像セット内の画像及び前記第2の画像セット内の画像をそれぞれ第1の初期弁別器に入力して、前記第1の初期弁別器によって出力された、前記第3の画像セット内の画像がそれぞれ真の画像に属する第1の確率セットと、前記第2の画像セット内の画像がそれぞれ真の画像に属する第2の確率セットとを取得するように構成される第3の取得モジュールと、前記第1の確率セット及び前記第2の確率セットに基づき、前記第1の初期弁別器及び前記第2の初期弁別器を修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータを生成するように構成される第1の修正モジュールと、を含む。
第5の態様による電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、前記メモリには前記少なくとも1つのプロセッサで実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが上記の画像翻訳方法又は画像翻訳モデルトレーニング方法を実行するように、前記少なくとも1つのプロセッサによって実行される。
第6の態様によるコンピュータ命令を記憶している非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに上記の画像翻訳方法又は画像翻訳モデルトレーニング方法を実行させる。
第7の態様によるコンピュータプログラムであって、前記コンピュータプログラムにおける命令が実行された場合に、本出願の実施例の上記画像翻訳方法又は上記画像翻訳モデルトレーニング方法が実行される。
本出願の技術によれば、翻訳モデルの構造を連続的にカットしたり、入力された画像の解像度を直接下げたりするなどの方式により、画像翻訳の演算量を低減すると、翻訳された画像の明瞭度が低くなり、かつ画像翻訳の効果も大幅に低下するという技術的問題が解決され、画像翻訳の演算量を低減するとともに、画像翻訳の効果を確保し、翻訳されたターゲット翻訳画像の明瞭度を向上させることができる。
本部分に記載される内容が本開示の実施例の主要な特徴又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定するために使用されないことを理解すべきである。本開示の他の特徴は、以下の説明により理解されやすくなる。
図面は、本技術的解決手段をよりよく理解するためのものであり、本出願を限定するものではない。
本出願の実施例による画像翻訳方法のフローチャートである。 本出願の実施例による別の画像翻訳方法のフローチャートである。 本出願の実施例による別の画像翻訳方法のフローチャートである。 本出願の実施例による画像翻訳装置の構造図である。 本出願の実施例による別の画像翻訳装置の構造図である。 本出願の実施例による別の画像翻訳装置の構造図である。 本出願の実施例による画像翻訳モデルトレーニング方法のフローチャートである。 本出願の実施例による別の画像翻訳モデルトレーニング方法のフローチャートである。 本出願の実施例による画像翻訳モデルトレーニング装置の構造図である。 本出願の実施例による別の画像翻訳モデルトレーニング装置の構造図である。 本出願の実施例による別の画像翻訳モデルトレーニング装置の構造図である。 本出願の実施例による画像翻訳方法又は画像翻訳モデルトレーニング方法を実現するための電子機器のブロック図である。
以下、理解を容易にするための本出願の実施例の様々な詳細を含む添付の図面を参照して本出願の例示的な実施例を説明し、それらを単なる例示と見なすべきである。したがって、当業者は、本出願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、本出願の実施例による画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置、並びに電子機器と記憶媒体を、図面を参照して説明する。
関連技術における、翻訳モデルの構造を連続的にカットしたり、入力された画像の解像度を直接下げたりするなどの方式により、画像翻訳の演算量を低減すると、翻訳された画像の明瞭度が低くなり、かつ画像翻訳の効果も大幅に低下するという問題に対して、本出願は、画像翻訳方法を提供する。
本出願によって提供される画像翻訳方法では、まず元の画像を含む画像翻訳リクエストを取得し、次に画像翻訳リクエストにおける元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成し、さらに縮小画像に基づき、元の画像に対応する予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成し、予め翻訳された画像及びマスク画像のサイズを元の画像と同じサイズにし、次に変形パラメータに基づいて元の画像を変形処理して変形画像を生成し、最後に変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成する。これにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減し、同時に元の画像と同じサイズのターゲット翻訳画像を出力し、また、生成されるターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を減らしながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度を大幅に向上させる。
図1は、本出願の実施例による画像翻訳方法のフローチャートである。
本出願の実施例による画像翻訳方法の実行本体が画像翻訳装置であり、画像翻訳装置は、変形パラメータに基づいて元の画像を変形処理し、変形画像を取得した後、変形画像、予め翻訳された画像及びマスク画像を融合あせてターゲット翻訳画像を生成するように電子機器に配置されてもよい。ここで、電子機器は、データ処理を実行できる任意の端末装置又はサーバーなどであってもよく、本出願ではこれに限定されない。
図1に示すように、画像翻訳方法は、次のステップを含むことができる。
ステップ101において、画像翻訳リクエストを取得し、翻訳リクエストに元の画像が含まれてもよい。
実際の応用中、異なるシーンにおいて異なる実現形態により画像翻訳リクエストを取得することができる。1つの可能な実現形態として、ユーザは、入力ボックスを介して画像翻訳リクエスト命令を入力することができる。
別の可能な実現形態として、画像翻訳プログラムに対するユーザのトリガ操作が取得されると、画像翻訳リクエストが取得されると考えられ、例えば、ユーザがタッチディスプレイスクリーン上の画像翻訳開始用のボタンをクリックすると、画像翻訳リクエストが取得されると考えられる。
別の可能な実現形態として、画像翻訳プログラムのメッセージ制御クラスにフック関数を予め設定し、それによって当該フック関数に基づいて画像翻訳リクエストメッセージを検出することができる。具体的には、ユーザが画像翻訳リクエストを送信すると、トリガメッセージが送信され、この時、メッセージ制御クラス関数が呼び出され、したがって、メッセージ制御クラス関数に設定されているフック関数によって当該メッセージ制御クラス関数の呼び出しを検出することができ、メッセージ制御クラス関数をトリガする現在のメッセージタイプに応じて画像翻訳リクエストメッセージを識別することができる。
ステップ102において、元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成する。
ここで、元の画像へのダウンサンプリング(down sampling)は、画像を表示領域のサイズに合わせるか、又は対応する縮小画像を生成するために、元の画像を縮小することを指す。例えば、1枚の画像のサイズがM*Nであると、当該画像をs倍ダウンサンプリングした後、サイズ(M/s)*(N/s)の縮小画像を取得することができる。
即ち、翻訳リクエストから元の画像を取得した後、元の画像を縮小して縮小画像を生成し、縮小画像を入力として使用することで、演算量を大幅に低減する。例えば、男性と女性の顔の性別変換の応用シーンにおいて、元の画像が男性の顔の画像(256*256の解像度)である場合、元の画像を2倍ダウンサンプリングした後、128*128の縮小画像を取得することができ、この時、特徴画像のサイズは、元の特徴画像のサイズの半分に縮小され、それに応じて、理論上の演算量も元の演算量の0.25倍に低減される。
ステップ103において、縮小画像に基づき、元の画像に対応する予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成する。ここで、予め翻訳された画像及びマスク画像のサイズは元の画像のサイズと同じである。
具体的には、縮小画像が入力された後、縮小画像に対してデコンボリューション操作を実行し、縮小画像のサイズを元の画像サービスに拡大し、次に拡大された画像を処理し、元の画像に対応する予め翻訳された画像を生成し、同時にマスク画像及び元の画像の各ピクセルポイントに対応する変形パラメータを取得することができる。
ここで、変形パラメータには各ピクセルポイントに対応するx軸方向の並進量とy軸方向の並進量とが含まれ、マスク画像は、画像フィルタ処理のためのテンプレートであり、ここで、マスク画像は、画像上のいくつかの領域をマスクでシールドし、それらを処理又は処理パラメータの計算に関与させなく、又は、類似性変数又は画像マッチング方法を使用して画像内のマスクに類似した構造的特徴を検出及び抽出するように主に機能する。
例えば、依然として男性と女性の顔の性別変換を例とし、元の画像が男性の顔の画像(256*256の解像度)である場合、対応する縮小画像の解像度は128*128であり、まず縮小画像に対してデコンボリューション操作を行い、縮小画像の解像度を256*256に上げ、解像度256*256の画像を取得し、次に当該解像度256*256の画像内の男性の顔を女性の顔に直接変換し、融合されていない女性の顔、即ち元の画像に対応する予め翻訳された画像を生成し、同時に対応するマスク画像と変形パラメータを取得し、ここで、予め翻訳された画像の解像度が256*256であり、マスク画像の解像度も256*256であり、変形パラメータが256*256グループであり、各変形パラメータグループにはx軸方向パラメータとy軸方向パラメータが含まれる。
ステップ104において、変形パラメータに基づて元の画像を変形処理して変形画像を取得する。
ここで、画像変換ツールにより、変形パラメータに基づいて元の画像に対応する変更を行い、変形画像を生成することができる。
例えば、元の画像が元の男性の顔の画像であると、変形パラメータが、男性の眉の領域がy軸方向に沿って狭くなっているように変形されることを示すために使用される場合、変形パラメータに基づいて画像変換ツールによって元の画像を変形させて得られた変形画像のうち、元の男性の顔の眉毛は、狭くなり、女性の眉毛の特徴に近づいている。
ステップ105において、変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成する。
具体的には、実際の操作中、入力された画像の解像度を直接下げて画像翻訳の演算量を低減するだけである場合、その出力された画像の解像度は、入力された画像の解像度と同じになり、したがって、翻訳された画像の明瞭度が低く、かつ画像翻訳の効果が大幅に低下する。
したがって、本出願では、まず、元の画像を縮小してから入力として使用し、画像翻訳の演算量を低減し、次に、縮小された画像を処理して元の画像と同じサイズの予め翻訳された画像を生成し、同時に対応するマスク画像と変形パラメータを生成し、次に、変形パラメータに基づいて元の画像を変形処理して変形画像を取得し、最後に変形画像と予め翻訳された画像とをマスク画像の重みで融合させてターゲット翻訳画像を生成する。これにより、画像翻訳量を低減するとともに、出力されたターゲット翻訳画像のサイズを元の画像と同じサイズにすることを確保することができ、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用され、生成されたターゲット翻訳画像の明瞭度が大幅に向上し、かつ生成されたターゲット翻訳画像の背景部分も元の画像と一致し、これにより、画像のシームレスな融合を実現し、生成されたターゲット翻訳画像の自然度を大幅に向上させることができる。
上記実施例では、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成することができることを説明すべきである。ここで、異なる応用シーンにおいて、ターゲットジェネレータの取得方式も異なる。
1つの可能な実現形態として、先にターゲット翻訳画像の属する第1のドメインを取得し、ターゲット翻訳画像の属する第1のドメインに基づいてターゲットジェネレータを取得することができる。それに応じて、本出願の一つの実施例では、翻訳リクエストにはターゲット翻訳画像の属する第1のドメインも含まれ、したがって、上記ステップ101の後、ターゲット翻訳画像の属する第1のドメインに基づき、ターゲットジェネレータを取得するステップをさらに含む。
それに応じて、上記ステップ103は、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップを含むことができる。
ここで、画像翻訳領域では、異なるドメインを用いて元の画像とターゲット翻訳画像の違いを区分する。例えば、性別翻訳を行う場合、男性の顔の画像と女性の顔の画像は、それぞれ異なるドメインに位置する画像であり、又は、画像内のリンゴがオレンジに翻訳されると、リンゴを含む画像とオレンジを含む画像とは、それぞれ異なるドメインに属する。
それに応じて、本出願では、ターゲット翻訳画像の属する第1のドメインは、女性の顔の画像、又はリンゴを含む画像などの指定されたあるオブジェクトを含む画像である。
具体的には、異なるドメイン内の画像を翻訳する場合、異なるジェネレータが使用されるため、本開示では翻訳リクエストを受信し、翻訳リクエストからターゲット翻訳画像の属する第1のドメインを取得した後、ターゲット翻訳画像の属する第1のドメインに基づいてターゲット翻訳画像の属する第1のドメインに対応するジェネレータを確定することができる。ターゲット翻訳画像の属する第1のドメインに対応するジェネレータが1種類だけであるため、ターゲット翻訳画像の属する第1のドメインに基づいて対応するターゲットジェネレータを直接確定することができる。
例えば、ターゲット翻訳画像の属する第1のドメインが女性の顔である場合、当該ターゲット翻訳画像に対応するジェネレータが男性の顔から女性の顔へのジェネレータだけであることを確定することができ、したがって、ターゲットジェネレータが男性の顔から女性の顔へのジェネレータであることを確定することができ、ターゲット翻訳画像の属する第1のドメインが子の顔である場合、当該ターゲット翻訳画像に対応するジェネレータが老人の顔から子の顔へのジェネレータだけであることを確定することができ、したがって、ターゲットジェネレータが老人の顔から子の顔へのジェネレータであることを確定することができる。
さらに、ターゲットジェネレータが確定された後、ターゲットジェネレータによって縮小画像を直接処理し、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成することができる。
したがって、縮小画像を処理する前に、ターゲット翻訳画像の属する第1のドメインに基づいて専属のターゲットジェネレータを確定し、縮小画像に対して対応する処理を実行することができ、それによって画像処理の効率と精度が大幅に向上する。
実際の操作中、ターゲット翻訳画像の属する第1のドメインに対応するジェネレータが様々であってもよいことを説明すべきである。
それに応じて、ターゲット翻訳画像の属する第1のドメインに対応するジェネレータがN種類であり、Nが1よりも大きい整数である場合、上記ステップ101の後、
元の画像を識別して、元の画像の属する第2のドメインを確定し、元の画像の属する第2のドメイン及びターゲット翻訳画像の属する第1のドメインに基づき、N種類のジェネレータからターゲットジェネレータを選択するステップをさらに含む。
具体的には、ターゲット翻訳画像の属する第1のドメインに基づき、ターゲット翻訳画像の属する第1のドメインに対応するジェネレータが様々であることを確定する場合、元の画像を識別して、元の画像の属する第2のドメインを取得し、次にターゲット翻訳画像の属する第1ドメインと元の画像の属する第2ドメインに基づき、様々なジェネレータから1種類のジェネレータをターゲットジェネレータとして選択することができる。
例えば、ターゲット翻訳画像の属する第1のドメインがリンゴを含む画像である場合、当該ターゲット翻訳画像の属する第1のドメインに基づき、ターゲット翻訳画像の属する第1のドメインに対応するジェネレータがオレンジからリンゴへのジェネレータ、鴨梨からリンゴへのジェネレータ、ピーチからリンゴへのジェネレータなどの複数種類のジェネレータであることを確定することができる。このとき、元の画像の属する第2のドメインがオレンジを含む画像であることが確定された場合、上記の複数のジェネレータからオレンジからリンクへのジェネレータをターゲットジェネレータとして選択することができる。
さらに、ターゲットジェネレータが確定された後、ターゲットジェネレータによって縮小画像に対応する処理を直接行い、元の画像に対応する、予め翻訳された画像、マスク画像、及び変形パラメータを生成することができる。
これにより、ターゲット翻訳画像の属する第1のドメインに基づき、それに対応するジェネレータが複数種類であることが確定された場合、さらに元の画像の属する第2のドメインに基づいて複数種類のジェネレータから唯一のジェネレータをターゲットジェネレータとして選択し、縮小画像に対応する処理を実行し、それによって画像処理の効率と精度がさらに向上する。
別の可能な実現形態として、先に元の画像の属する第2のドメインを取得し、元の画像の属する第2のドメインに基づいてターゲットジェネレータを取得することができる。それに応じて、本出願の別の実施例では、上記ステップ101の後、
元の画像を識別して、元の画像の属する第2のドメインを確定し、元の画像の属する第2のドメインに基づいてターゲットジェネレータを取得するステップと、をさらに含む。
それに応じて、上記ステップ103は、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルに対応する変形パラメータを生成するステップを含むことができる。
具体的には、元の画像が取得された後、元の画像を識別して、元の画像の属する第2のドメインを取得することができる。元の画像の属する第2のドメインが確定された後、元の画像の属する第2のドメインに基づいて元の画像の属する第2のドメインに対応するターゲットジェネレータを確定することができる。元の画像の属する第2のドメインに対応するジェネレータが1種類だけであるため、元の属する第2のドメインに基づいて対応するターゲットジェネレータを直接確定することができる。
例えば、元の画像の属する第2のドメインが男性の顔である場合、元の画像の属する第2のドメインに対応するジェネレータが男性の顔から女性の顔へのジェネレータだけであることを確定することができ、したがって、ターゲットジェネレータが男性の顔から女性の顔へのジェネレータであることを確定することができ、元の画像の属する第2のドメインが老人の顔であることを確定する場合、元の画像の属する第2のドメインに対応するジェネレータが老人の顔から子の顔へのジェネレータだけであることを確定することができ、したがって、ターゲットジェネレータが老人の顔から子の顔へのジェネレータであることを確定することができる。
さらに、ターゲットジェネレータが確定された後、ターゲットジェネレータによって縮小画像に対応する処理を直接行い、元の画像に対応する、予め翻訳された画像、マスク画像、及び変形パラメータを生成することができる。
したがって、縮小画像を処理する前に、元の画像の属する第2のドメインに基づいて専属のターゲットジェネレータを確定し、縮小画像に対応する処理を実行することができ、それによって画像処理の効率と精度が大幅に向上する。
実際の操作中、元の画像の属する第2のドメインに対応するジェネレータが様々であってもよいことを説明すべきである。
それに応じて、元の画像の属する第2のドメインに対応するジェネレータがN種類であり、Nが1よりも大きい整数である場合、上記ステップ101の後、ターゲット翻訳画像の属する第1のドメインを取得し、ターゲット翻訳画像の属する第1のドメイン及び元の画像の属する第2のドメインに基づき、N種類のジェネレータからターゲットジェネレータを選択するステップをさらに含む。
具体的には、元の画像の属する第2のドメインに対応するジェネレータが複数種類であることが確定された場合、ターゲット翻訳画像の属する第1のドメインを取得することができる。ここで、翻訳リクエストにターゲット翻訳画像の属する第1のドメインが含まれると、翻訳リクエストからターゲット翻訳画像の属する第1のドメインを直接取得することができ、翻訳クエストにターゲット翻訳画像の属する第1のドメインが含まれていないと、元の画像の属する第2のドメインに対応するジェネレータが複数種類であることが確定された場合、ターゲット翻訳画像の属する第1のドメインの選択項目をポップアップ表示し、ユーザがターゲット翻訳画像の画像のタイプ又は特徴情報に応じて容易に選択するようにする。ターゲット翻訳画像の属する第1のドメインが確定された後、ターゲット翻訳画像の属する第1のドメイン及び元の画像の属する第2のドメインに基づき、複数種類のジェネレータから1種類のジェネレータをターゲットジェネレータとして選択することができる。
例えば、元の画像の属する第2のドメインがオレンジである場合、元の画像の属する第2のドメインに基づき、元の画像の第2のドメインに対応するジェネレータがオレンジからリンゴへのジェネレータ、オレンジから鴨梨へのジェネレータ、オレンジからピーチへのジェネレータなどの複数種類のジェネレータであることを確定することができる。このとき、ターゲット翻訳画像の属する第1のドメインが鴨梨であることが確定された場合、上記の複数のジェネレータからオレンジから鴨梨へのジェネレータをターゲットジェネレータとして選択することができる。
さらに、ターゲットジェネレータが確定された後、ターゲットジェネレータによって縮小画像に対応する処理を直接行い、元の画像に対応する、予め翻訳された画像、マスク画像、及び変形パラメータを生成することができる。
これにより、元の画像の属する第2のドメインに基づき、それに対応するジェネレータが複数種類であることが確定された場合、さらにターゲット翻訳画像の属する第1のドメインに基づいて複数種類のジェネレータから唯一のジェネレータをターゲットジェネレータとして選択し、縮小画像に対応する処理を実行し、それによって画像処理の効率と精度がさらに向上する。
なお、画像を処理する場合、一般的に当該画像内の特徴情報を抽出し、特徴情報に対応する処理を行うことにより、画像への処理を実現することを説明すべきである。
図2を参照しながら説明し、図2に示すように、上記ステップ103は、具体的には、次のステップを含む。
ステップ201において、縮小画像を処理し、縮小画像が第1のドメインに翻訳される時の対応する第1の特徴ベクトルを確定する。ここで、第1のドメインは、ターゲット翻訳画像の属するドメインである。
ここで、第1の特徴ベクトルは、縮小画像をターゲット翻訳画像に直接変換する時に変更する必要がある特徴ベクトルであり、当該第1の特徴ベクトルに対応するサイズが縮小画像のサイズと同じである。
ステップ202において、第1の特徴ベクトルをアップサンプリングして、第2の特徴ベクトルを生成する。
具体的には、第1の特徴ベクトルに対応するサイズが縮小画像のサイズと同じであるため、第1の特徴ベクトルに基づいて縮小画像を直接処理すると、取得された、予め翻訳された画像及びマスク画像のサイズが縮小画像のサイズと同じであり、最終的に生成されたターゲット翻訳画像の解像度が低い。したがって、第1の特徴ベクトルをアップサンプリングして、即ち第1の特徴ベクトルに対応するサイズを大きくし、第2の特徴ベクトルを生成する。
ステップ203において、第2の特徴ベクトルに基づき、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成する。
具体的には、ジェネレータは、第2の特徴ベクトルを取得した後、第2の特徴ベクトルを復号し、第2の特徴ベクトルに基づいて第2のドメイン内のターゲットオブジェクトの画像を再構成し、予め翻訳された画像を生成し、ターゲットオブジェクトの再構成中に、マスク画像と変形パラメータを生成することができる。
本開示において、元の画像を翻訳する時に、実際に処理される画像サイズは、縮小された画像であり、特徴ベクトルが予め翻訳された画像、マスク画像及び変形パラメータに復号される前にのみ、アップサンプリング処理が実行されるため、最終的に生成される、予め翻訳された画像、マスク画像などは、元の画像と同じサイズになり、また、画像翻訳中のデータ処理量が大幅に削減されることが理解できる。
さらに、明瞭度及び自然度が高いターゲット翻訳画像を生成するために、予め翻訳された画像、マスク画像及び変形パラメータを取得した後、変形パラメータに基づいて元の画像を変形処理して変形画像を取得し、変形画像と予め翻訳された画像をマスク画像の重みで融合させてターゲット翻訳画像を生成することができる。
以下、どのようにターゲット翻訳画像を生成するかについて画像3を参照して詳細に説明する。図3に示すように、上記ステップ104は、具体的には、次のステップを含む。
ステップ301において、マスク画像の各ピクセルポイントのピクセル値に基づき、予め翻訳された画像の第1の重み及び変形画像の第2の重みを確定する。
ステップ302において、第1の重み及び第2の重みに基づき、予め翻訳された画像の各ピクセルポイントのピクセル値と変形画像の各ピクセルポイントのピクセル値とを融合させて、ターゲット翻訳画像を生成する。
具体的には、マスク画像の各ピクセルポイントのピクセル値に基づき、予め翻訳された画像の第1の重みと変形画像の第2の重みを確定し、それによって第1の重みと第2の重みの重み比に従って、ターゲット翻訳画像の各ピクセルポイントのうち、予め翻訳されたピクセル値と変形画像のピクセル値との比を取得し、それによって当該比に基づき、予め翻訳された画像のピクセルポイントのピクセル値と変形画像の各ピクセルポイントのピクセル値とを融合させることができる。
実際に使用する際に、マスク画像のピクセルポイントのピクセル値は、予め翻訳された画像内の同じピクセルポイントの重みであってもよいし、変形画像の同じピクセルポイントの重みであってもよい。例えば、マスク画像内のi番目のピクセルポイントのピクセル値が0.7である場合、予め翻訳された画像のi番目のピクセルポイントの重みが0.7(又は0.3)であることを確定することができ、それに応じて、変形画像のi番目のピクセルポイントの重みが0.3(又は0.7)であり、予め翻訳された画像のi番目のピクセルポイントのピクセル値が10であり、変形画像のi番目のピクセルポイントのピクセル値が30であり、そのため、融合によって生成されたターゲット翻訳画像のi番目のピクセルポイントのピクセル値は22又は24である。
これにより、変形画像と予め翻訳された画像の各ピクセルポイントのピクセル値をマスク画像の重みに従ってそれぞれ融合させることにより、融合によって生成されたターゲット翻訳画像の各ピクセルポイントのピクセル値は、翻訳ニーズを満たすことができるだけでなく、元の画像の高精細かつ豊富な高周波詳細情報を十分に反映することもでき、それによって生成されたターゲット翻訳画像の明瞭度が向上するだけでなく、生成されたターゲット翻訳画像の背景部分も元の画像と一致し、画像のシームレスな融合を実現し、生成されたターゲット翻訳画像の自然度を大幅に向上させることができる。
上記実施例の画像翻訳方法を電子機器に応用させることを可能にし、電子機器によってリアルタイムな画像翻訳機能を実現するために、元の画像を縮小して縮小画像を生成する時に、調整された演算量が電子機器のニーズを満たすように、画像縮小の割合を確定する必要がある。
したがって、本出願の1つの実施例では、ステップS102の前に、現在の電子機器の属性パラメータを取得し、電子機器の属性パラメータに基づき、ダウンサンプリング係数を確定するステップをさらに含む。それに応じて、ステップS102は、ダウンサンプリング係数に基づき、元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成するステップを含む。
ここで、電子機器の属性パラメータは、電子機器のCPU周波数、コアネス数などを含むことができる。
具体的には、まず、電子機器の属性パラメータに基づいて電子機器が実行できる演算量を確定し、さらに当該演算量に基づいてダウンサンプリング係数を確定し、次にダウンサンプリング係数に基づいて元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成することができる。
例えば、元の画像が解像度256*256の男性の顔の画像である場合、それに対応する演算量はXであり、電子機器の属性パラメータに基づき、電気機器が実行できる演算量が0.25Xであることを確定すると、元の画像を2倍ダウンサンプリングして、解像度128*128の縮小画像を取得することができる。
これにより、電子機器の属性パラメータに基づいて画像の縮小割合を確定し、調整された後の演算量が電子機器のニューズを満たしていることを確保し、それによって電子機器は、リアルタイムな画像翻訳機能を実現することができ、かつ画像翻訳の効果を確保することができ、ターゲット翻訳画像の明瞭度が高い。
上述したように、本出願によって提供される画像翻訳方法では、まず元の画像を含む画像翻訳リクエストを取得し、次に画像翻訳リクエストにおける元の画像をダウンサンプリングして、元の画像に対応する縮小画像を生成し、さらに縮小画像に基づき、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成し、予め翻訳された画像及びマスク画像のサイズを元の画像と同じサイズにし、次に変形パラメータに基づいて元の画像を変形処理して変形画像を生成し、最後に変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成する。これにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減し、同時に元の画像と同じサイズのターゲット翻訳画像を出力し、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像入力の高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。
上記実施例を実現するために、本出願の実施例は画像翻訳装置をさらに提供する。当該画像翻訳装置は、電子機器に設けられてもよい。図4は本出願の実施例による画像翻訳装置の構造図である。
図4に示すように、当該画像翻訳装置400は、第1の取得モジュール410、第1のサンプリングモジュール420、第1の生成モジュール430、第1の処理モジュール440と第1融合モジュール450を含むことができる。
ここで、第1の取得モジュール410は、元の画像を含む画像翻訳リクエストを取得するように構成され、第1のサンプリングモジュール420は、元の画像をダウンサンプリングして元の画像に対応する縮小画像を生成するように構成され、第1の生成モジュール430は、縮小画像に基づき、元の前記画像に対応する元の画像と同じサイズの予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成され、第1の処理モジュール440は、変形パラメータに基づいて元の画像を変形処理して変形画像を取得するように構成され、第1の融合モジュール450は、変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成するように構成される。
図5は本出願の実施例による別の画像翻訳装置の構造図である。本出願の実施例の1つの可能な実現形態では、図5に示すように、第1の生成モジュール430は、第1の処理ユニット431、第1のサンプリングユニット432と第1の生成ユニット433を含む。
ここで、第1の処理ユニット431は、縮小画像を処理し、縮小画像がターゲット翻訳画像の属するドメインである第1のドメインに翻訳される時の対応する第1の特徴ベクトルを確定するように構成され、第1のサンプリングユニット432は、第1の特徴ベクトルをアップサンプリングして、第2の特徴ベクトルを生成するように構成され、第1の生成ユニット433は、第2の特徴ベクトルに基づき、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される。
本出願の実施例の1つの可能な実現形態では、翻訳リクエストにはターゲット翻訳画像の属する第1のドメインも含まれ、第1の取得モジュール410は、画像翻訳リクエストを取得した後、さらにターゲット翻訳画像の属する第1のドメインに基づき、ターゲットジェネレータを取得するように構成され、第1の生成モジュール430は、具体的には、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する、予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される。
本出願の実施例の別の可能な実現形態では、ターゲット翻訳画像の属する第1のドメインに対応するジェネレータがN種類であり、Nが1よりも大きい整数である場合、第1の取得モジュール410は、画像翻訳リクエストを取得した後、さらに、元の画像を識別して、元の画像の属する第2のドメインを確定し、元の画像の属する第2のドメイン及びターゲット翻訳画像の属する第1のドメインに基づき、N種類のジェネレータからターゲットジェネレータを選択するように構成される。
本出願の実施例の別の可能な実現形態では、第1の取得モジュール410は、画像翻訳リクエストを取得した後、さらに元の画像を識別して、元の画像の属する第2のドメインを確定し、元の画像の属する第2のドメインに基づき、ターゲットジェネレータを取得するように構成され、第1の生成モジュール430は、具体的には、ターゲットジェネレータによって縮小画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される。
本出願の実施例の別の可能な実現形態では、元の画像の属する第2のドメインに対応するジェネレータがN種類であり、Nが1よりも大きい整数である場合、第1の取得モジュール410は、画像翻訳リクエストを取得した後、さらにターゲット翻訳画像の属する第1のドメインを取得し、ターゲット翻訳画像の属する第1のドメイン及び元の画像の属する第2のドメインに基づき、N種類のジェネレータからターゲットジェネレータを選択するように構成される。
図6は本出願の実施例による別の画像翻訳装置の構造図である。本出願の実施例の1つの可能な実現形態では、図6に示すように、第1の融合モジュール450は、第1の確定ユニット451と第1の融合ユニット452とを含む。
ここで、第1の確定ユニット451は、マスク画像の各ピクセルポイントのピクセル値に基づき、予め翻訳された画像の第1の重み及び変形画像の第2の重みを確定するように構成され、第1の融合ユニット452は、第1の重み及び第2の重みに基づき、予め翻訳された画像の各ピクセルポイントのピクセル値と変形画像の各ピクセルポイントのピクセル値を融合させて、ターゲット翻訳画像を生成するように構成される。
本出願の実施例の別の可能な実現形態では、元の画像をダウンサンプリングして元の画像に対応する縮小画像を生成する前に、第1のサンプリングモジュール420は、さらに現在の電子機器の属性パラメータを取得し、電子機器の属性パラメータに基づき、ダウンサンプリング係数を確定するように構成され、第1のサンプリングモジュール420は、具体的には、ダウンサンプリング係数に基づき、元の画像をダウンサンプリングして元の画像に対応する縮小画像を生成するように構成される。
本出願の実施例の画像翻訳装置に開示されていない詳細については、本出願の実施例の画像翻訳方法に開示されている詳細を参照し、具体的には、その説明を省略することを説明すべきである。
本出願の実施例による画像翻訳装置では、まず第1の取得モジュールは、画像翻訳リクエストを取得し、次に第1のサンプリングモジュールは、翻訳リクエストにおける元の画像をダウンサンプリングして元の画像に対応する縮小画像を生成し、次に第1の生成モジュールは、縮小画像に基づき、元の画像に対応する元の画像と同じサイズの予め翻訳された画像、マスク画像、及び元の画像の各ピクセルポイントに対応する変形パラメータを生成し、さらに第1の処理モジュールは、変形パラメータに基づいて元の画像を変形処理して変形画像を取得し、最後、第1の融合モジュールは、変形画像、予め翻訳された画像及びマスク画像を融合させてターゲット翻訳画像を生成する。これにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減し、同時に元の画像と同じサイズのターゲット翻訳画像を出力し、また、生成されるターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。
上記実施例を実現するために、本出願の実施例は、画像翻訳モデルによって上記画像翻訳方法を実現するように、画像翻訳モデルトレーニング方法をさらに提供する。図7は本出願の実施例による画像翻訳モデルトレーニング方法のフローチャートである。
本出願の実施例による画像翻訳モデルトレーニング方法の実行本体は、画像翻訳モデルトレーニング装置であり、画像翻訳トレーニング装置は、画像翻訳モデルをトレーニングして第一のジェネレータを取得するように、電気機器に配置されてもよい。ここで、電子機器は、データ処理を実行できる任意の端末装置又はサーバーなどであってもよく、本出願ではこれに限定されない。
図7に示すように、画像翻訳モデルトレーニング方法は、次のステップを含むことができる。
ステップ701において、トレーニングサンプルセットを取得する。
ここで、トレーニングサンプルセットには第1のドメインに属する第1の画像セットと、第2のドメインに属する第2画像セットとが含まれる。
ステップ702において、第1の画像セット内の画像をそれぞれダウンサンプリングして、第1の縮小画像セットを生成する。
ステップ703において、第1の初期ジェネレータによって第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成する。ここで、第1の変形パラメータセット内の各パラメータは、それぞれ第1の画像セット内の画像の各ピクセルポイントに対応する。
ステップ704において、第1の変形パラメータセットに基づき、第1の画像セット内の画像をそれぞれ変形処理し、第1の変形画像セットを取得する。
ステップ705において、第1の変形画像セット、第1の予め翻訳された画像セット及び第1のマスク画像セット内の対応する画像をそれぞれ融合させて、第3の画像セットを取得する。
ステップ706において、第3の画像セット内の画像及び第2の画像セット内の画像をそれぞれ第1の初期弁別器に入力して、第1の初期弁別器によって出力された、第3の画像セット内の画像がそれぞれ真の画像に属する第1の確率セットと、第2の画像セット内の画像がそれぞれ真の画像に属する第2の確率セットとを取得する。
ステップ707において、第1の確率セット及び第2の確率セットに基づき、第1の初期ジェネレータ及び第1の初期弁別器を修正して、第1のドメインに属するターゲットジェネレータを生成する。ここで、第1のドメインに属するターゲットジェネレータは、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳するために使用される。
ここで、第1の画像セット内の画像は、それぞれ第2の画像セット内の画像と逐一マッチングする。
具体的には、トレーニングサンプルセット内の第1の画像セットの画像が第2の画像セット内の画像と逐一マッチングする場合、第1の縮小画像セット内の画像を第1の初期ジェネレータの入力とし、第1の初期ジェネレータによって第1の縮小画像セット内の画像をそれぞれ翻訳し、第2のドメインに属する第3の画像セットを取得することができ、ここで、第1の縮小画像セット内の画像をそれぞれ翻訳するプロセスについて、上記実施例で提供される画像翻訳方法を参照することができ、冗長を回避するために、ここでは詳細に説明しない。
第3の画像セットが取得された後、第3の画像セット内の画像及び第2の画像セット内の画像をそれぞれ第1の初期弁別器に入力して、第3の画像セット内の画像がそれぞれ真の画像に属する第1の確率セットと、第2の画像セット内の画像がそれぞれ真の画像に属する第2の確率セットとを第1の初期弁別器によって出力することができる。この場合、第1の確率セットと第2の確率セットのサイズを比較することにより、第1の初期ジェネレータと第1の初期弁別器とを修正することができる。
ここで、第1の確率セットと第2の確率セットの間の偏差が大きい場合、それは、画像が第1の初期ジェネレータによって翻訳される時に誤差が大きいことを意味し、したがって、第1のドメインに属するターゲットジェネレータを取得するために、第1の初期ジェネレータと第1の初期弁別器に対応する修正を行う必要があり、第1の確率セットと第2の確率セットの間の偏差が小さい場合、それは、画像が第1の初期ジェネレータによって翻訳される時に、誤差が小さいことを意味し、したがって、第1の初期ジェネレータと第1の初期弁別器に対応する修正を行うことなく、第1の初期ジェネレータを第1のドメインに属するターゲットジェネレータとして直接使用することができる。ここで、第1のドメインに属するターゲットジェネレータは、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳するために画像翻訳モデルとして使用されてもよい。
これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルによって画像を翻訳することにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減するとともに、元の画像と同じサイズのターゲット翻訳画像を出力することができ、また、生成されるターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。
画像を処理する場合、一般的に当該画像内の特徴情報を抽出し、特徴情報に対応する処理を行うことにより、画像への処理を実現することを説明すべきである。
それに応じて、ステップ703は、第1の縮小画像セット内の画像をそれぞれ処理して、縮小画像セット内の画像が第2のドメインに翻訳される時の対応する第1の特徴ベクトルセットを確定するステップと、第1の特徴ベクトルセット内の第1の特徴ベクトルをそれぞれアップサンプリングして、第2の特徴ベクトルセットを生成するステップと、第2の特徴ベクトルセット内の第2の特徴ベクトルに基づき、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成するステップと、を含む。
ここで、第1の初期ジェネレータによって前記第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成するプロセスについては、上記実施例で提供される画像翻訳方法を参照することができ、冗長を回避するために、ここでは詳細に説明しない。
本開示において、元の画像を翻訳する時に、実際に処理される画像サイズは、縮小された画像であり、特徴ベクトルが予め翻訳された画像、マスク画像及び変形パラメータに復号される前にのみ、アップサンプリング処理が実行されるため、最終的に生成される予め翻訳された画像、マスク画像などは、元の画像と同じサイズになり、また、画像翻訳中のデータ処理量が大幅に削減されることが理解できる。
第1の画像セット内の画像が第2の画像セット内の画像とマッチングしていない場合、上記実施例で取得された第3の画像セット内の画像も第2の画像セット内の画像とマッチングしていなく、したがって、第1の確率セット及び第2の確率セットに基づいて第1の初期ジェネレータ及び第1の初期弁別器を正確に修正することができなく、その結果、生成された画像翻訳モデルの誤差が大きい。
したがって、本出願の1つの実施例では、第1の画像セット内の画像が第2の画像セット内の画像とマッチングしていない場合、図8に示すように、上記ステップ707の後に、当該方法は、第3の画像セット内の画像をそれぞれダウンサンプリングして、第2の縮小画像セットを生成するステップ801と、第2の初期ジェネレータによって第2の縮小画像セット内の画像をそれぞれ処理して、第2の予め翻訳された画像セット、第2のマスク画像セット及び第2の変形パラメータセットを生成するステップ802と、第2の変形パラメータセットに基づき、第3の画像セット内の画像をそれぞれ変形処理して、第2の変形画像セットを取得するステップ803と、第2の変形画像セット、第2の予め翻訳された画像セット及び第2のマスク画像セット内の対応する画像をそれぞれ融合させて、第4の画像セットを取得するステップ804と、第4の画像セット内の画像及び第1の画像セット内の画像をそれぞれ第2の初期弁別器に入力して、第2の初期弁別器によって出力された、第4の画像セット内の画像がそれぞれ真の画像に属する第3の確率セットと、第1の画像セット内の画像がそれぞれ真の画像に属する第4の確率セットとを取得するステップ805と、第3の確率セット及び第4の確率セットに基づき、第1の初期ジェネレータ、第2の初期ジェネレータ、第1の初期弁別器及び第2の初期弁別器を修正して、第1のドメインに属するターゲットジェネレータ及び第2のドメインに属するターゲットジェネレータを生成するステップ806と、をさらに含む。ここで、第1のドメインに属するターゲットジェネレータは、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳し、第2のドメインに属するターゲットジェネレータは、第2のドメインに位置する画像を第1のドメインに位置する画像に翻訳するために使用される。
具体的には、トレーニングサンプルセット内の第1の画像セットの画像が第2の画像セット内の画像とマッチングしていない場合、第2の縮小画像セット内の画像を第2の初期ジェネレータの入力とし、第2の初期ジェネレータによって第2の縮小画像セット内の画像をそれぞれ翻訳し、第1のドメインに属する第4の画像セットを取得することができ、ここで、第2の縮小画像セット内の画像をそれぞれ翻訳するプロセスについて、上記実施例で提供される画像翻訳方法を参照することができ、冗長を回避するために、ここでは詳細に説明しない。
第4の画像セットが取得された後、第4の画像セット内の画像及び第1の画像セット内の画像をそれぞれ第2の初期弁別器に入力して、第4の画像セット内の画像がそれぞれ真の画像に属する第3の確率セットと、第1の画像セット内の画像がそれぞれ真の画像に属する第4の確率セットとを第1の初期弁別器によって出力することができる。この場合、第3の確率セットと第4の確率セットのサイズを比較することにより、第1の初期ジェネレータ、第2の初期ジェネレータ、第1の初期弁別器と第2の初期弁別器を修正することができる。
ここで、第3の確率セットと第4の確率セットの間の偏差が大きい場合、それは、画像が第1の初期ジェネレータと第2の初期ジェネレータによって翻訳される時に、誤差が大きいことを意味し、したがって、第1のドメインに属するターゲットジェネレータと、第2のドメインに属するターゲットジェネレータとを取得するために、第1の初期ジェネレータ、第2の初期ジェネレータ、第1の初期弁別器及び第2の初期弁別器に対応する修正を行う必要があり、第3の確率セットと第4の確率セットの間の偏差が小さい場合、それは、画像が第1の初期ジェネレータと第2の初期ジェネレータによって翻訳される時に、誤差が小さいことを意味し、したがって、第1の初期ジェネレータ、第2の初期ジェネレータ、第1の初期弁別器及び第2の初期弁別器に対応する修正を行うことなく、第1の初期ジェネレータを第1のドメインに属するターゲットジェネレータとして直接使用し、第2の初期ジェネレータを第2のドメインに属するジェネレータとして直接使用することができる。ここで、第1のドメインに属するターゲットジェネレータは、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳するために画像翻訳モデルとして使用されてもよく、第2のドメインに属するターゲットジェネレータは、第2のドメインに位置する画像を第1のドメインに位置する画像に翻訳するために別の画像翻訳モデルとして使用されてもよく、ここで、当該実施例における第1のドメインに属するターゲットジェネレータは、上記実施例における第1のドメインのターゲットジェネレータと同じであっても異なっていてもよく、具体的には実際の状況に応じて選択されてもよい。
これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルによって画像を翻訳することにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減するとともに、元の画像と同じサイズのターゲット翻訳画像を出力することができ、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。
上述したように、本出願によって提供される画像翻訳モデルトレーニング方法は、第1のドメインに属する第1の画像セットと、第2のドメインに属する第2の画像セットとを含むトレーニングセットを取得し、第1の画像セット内の画像をそれぞれダウンサンプリングして、第1の縮小画像セットを生成し、第1の初期ジェネレータによって第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成し、ここで、第1の変形パラメータセット内の各パラメータがそれぞれ第1の画像セット内の画像の各ピクセルポイントに対応し、第1の変形パラメータセットに基づいて第1の画像セット内の画像をそれぞれ変形処理し、第1の変形画像セットを取得し、第1の変形画像セット、第1の予め翻訳された画像セット及び第1のマスク画像セット内の対応する画像をそれぞれ融合させて、第3の画像セットを取得し、第3の画像セット内の画像及び第2の画像セット内の画像をそれぞれ第1の初期弁別器に入力して、第1の初期弁別器によって出力された、第3の画像セット内の画像がそれぞれ真の画像に属する第1の確率セットと、第2の画像セット内の画像がそれぞれ真の画像に属する第2の確率セットとを取得し、第1の確率セット及び第2の確率セットに基づき、第1の初期ジェネレータ及び第1弁別器を修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータを生成する。これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルによって画像を翻訳することにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減するとともに、元の画像と同じサイズのターゲット翻訳画像を出力することができ、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。
上記実施例を実現するために、本出願の実施例は画像翻訳モデルトレーニング装置をさらに提供する。当該画像翻訳モデルトレーニング装置は、電子機器に設けられてもよい。図9は本出願の実施例による画像翻訳モデルトレーニング装置の構造図である。
図9に示すように、当該画像翻訳モデルトレーニング装置900は、第2の取得モジュール901、第2のサンプリングモジュール902、第2の処理モジュール903、第3の処理モジュール904、第2の融合モジュール905、第3の取得モジュール906及び第1の修正モジュール907を含むことができる。
ここで、第2の取得モジュール901は、第1のドメインに属する第1の画像セットと、第2のドメインに属する第2の画像セットとを含むトレーニングセットを取得するように構成され、第2のサンプリングモジュール902は、第1の画像セット内の画像をそれぞれダウンサンプリングして、第1の縮小画像セットを生成するように構成され、第2の処理モジュール903は、第1の初期ジェネレータによって第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成するように構成され、ここで、第1の変形パラメータセット内の各パラメータがそれぞれ第1の画像セット内の画像の各ピクセルポイントに対応し、第3の処理モジュール904は、第1の変形パラメータセットに基づいて第1の画像セット内の画像をそれぞれ変形処理し、第1の変形画像セットを取得するように構成され、第2の融合モジュール905は、第1の変形画像セット、第1の予め翻訳された画像セット及び第1のマスク画像セット内の対応する画像をそれぞれ融合させて、第3の画像セットを取得するように構成され、第3の取得モジュール906は、第3の画像セット内の画像及び第2の画像セット内の画像をそれぞれ第1の初期弁別器に入力して、第1の初期弁別器によって出力された、第3の画像セット内の画像がそれぞれ真の画像に属する第1の確率セットと、第2の画像セット内の画像がそれぞれ真の画像に属する第2の確率セットとを取得するように構成され、第1の修正モジュール907は、第1の確率セット及び第2の確率セットに基づき、第1の初期ジェネレータ及び第1の初期弁別器を修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータを生成するように構成される。
図10は、本出願の実施例による別の画像翻訳モデルトレーニング装置の構造図である。図10に示すように、第2の処理モジュール903は、第2の処理ユニット9031、第2のサンプリングユニット9032と第2の生成ユニット9033を含む。
ここで、第2の処理ユニット9031は、第1の縮小画像セット内の画像をそれぞれ処理して、縮小画像セット内の画像が第2のドメインに翻訳される時の対応する第1の特徴ベクトルセットを確定するように構成され、第2のサンプリングユニット9032は、第1の特徴ベクトルセット内の第1の特徴ベクトルをそれぞれアップサンプリングして、第2の特徴ベクトルセットを生成するように構成され、第2の生成ユニット9033は、第2の特徴ベクトルセット内の第2の特徴ベクトルに基づき、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成するように構成される。
本出願の1つの実施例では、第1の画像セット内の画像は、それぞれ第2の画像セット内の画像と逐一マッチングする。
図11は本出願の実施例による別の画像翻訳モデルトレーニング装置の構造図である。本出願の実施例の1つの可能な実施形態では、第1の画像セット内の画像が第2の画像セット内の画像とマッチングしていない場合、図11に示すように、当該トレーニング装置は、第3のサンプリングモジュール908、第4の処理モジュール909、第5の処理モジュール910、第3の融合モジュール911、第4の取得モジュール912及び第2の修正モジュール913をさらに含む。
ここで、第3のサンプリングモジュール908は、第3の画像セット内の画像をそれぞれダウンサンプリングして、第2の縮小画像セットを生成するように構成され、第4の処理モジュール909は、第2の初期ジェネレータによって第2の縮小画像セット内の画像をそれぞれ処理して、第2の予め翻訳された画像セット、第2のマスク画像セット及び第2の変形パラメータセットを生成するように構成され、第5の処理モジュール910は、第2の変形パラメータセットに基づいて第3の画像セット内の画像をそれぞれ変形処理して、第2の変形画像セットを取得するように構成され、第3の融合モジュール911は、第2の変形画像セット、第2の予め翻訳された画像セット及び第2のマスク画像セット内の対応する画像をそれぞれ融合させて、第4の画像セットを取得するように構成され、第4の取得モジュール912は、第4の画像セット内の画像及び第1の画像セット内の画像をそれぞれ第2の初期弁別器に入力して、第2の初期弁別器によって出力された、第4の画像セット内の画像がそれぞれ真の画像に属する第3の確率セットと、第1の画像セット内の画像がそれぞれ真の画像に属する第4の確率セットとを取得するように構成され、第2の修正モジュール913は、第3の確率セット及び第4の確率セットに基づき、第1の初期ジェネレータ、第2の初期ジェネレータ、第1の初期弁別器及び第2の初期弁別器を修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータと、第2のドメインに位置する画像を第1のドメインに位置する画像に翻訳するための第2のドメインに属するターゲットジェネレータとを生成するように構成される。
本出願の実施例の画像翻訳モデルトレーニング装置に開示されていない詳細については、本出願の実施例の画像翻訳モデルトレーニング方法に開示されている詳細を参照し、具体的な説明を省略することを説明すべきである。
本出願の実施例の画像翻訳モデルトレーニング装置では、第2の取得モジュールは、第1のドメインに属する第1の画像セットと第2のドメインに属する第2の画像セットとを含むトレーニングセットを取得し、第2のサンプリングモジュールは、第1の画像セット内の画像をそれぞれダウンサンプリングして、第1の縮小画像セットを生成し、第2の処理モジュールは、第1の初期ジェネレータで第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成し、ここで、第1の変形パラメータセット内の各パラメータがそれぞれ第1の画像セット内の画像の各ピクセルポイントに対応し、第3の処理モジュールは、第1の変形パラメータセットに基づいて第1の画像セット内の画像をそれぞれ変形処理し、第1の変形画像セットを取得し、第2の融合モジュールは、第1の変形画像セット、第1の予め翻訳された画像セット及び第1のマスク画像セット内の対応する画像をそれぞれ融合させて、第3の画像セットを取得し、第3の取得モジュールは、第3の画像セット内の画像及び第2の画像セット内の画像をそれぞれ第1の初期弁別器に入力して、第1の初期弁別器によって出力された、第3の画像セット内の画像がそれぞれ真の画像に属する第1の確率セットと、第2の画像セット内の画像がそれぞれ真の画像に属する第2の確率セットとを取得し、第1の修正モジュールは、第1の確率セット及び第2の確率セットに基づき、第1の初期ジェネレータ及び第1の初期弁別器を修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータを生成する。これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルによって画像を翻訳することにより、元の画像を縮小処理して入力として使用し、画像翻訳の演算量を低減するとともに、元の画像と同じサイズのターゲット翻訳画像を出力することができ、また、生成されたターゲット翻訳画像に、元の画像の変形によって生成された変形画像が含まれるため、画像翻訳の演算量を低減しながら画像翻訳の効果も確保することができ、また、ターゲット翻訳画像に元の画像から入力された高解像度かつ豊富な高周波詳細情報が十分に利用されるため、生成されたターゲット翻訳画像の明瞭度が大幅に向上する。
本出願の実施例によれば、本出願は、電子機器と可読記憶媒体をさらに提供する。本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記画像翻訳方法又は上記画像翻訳モデルトレーニング方法が実行される。
図12は、本出願の実施例による画像翻訳方法又は画像翻訳モデルトレーニング方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークテーブル、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大型コンピュータ及びその他の適切なコンピューターなどの様々な形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナルデジタル処理デバイス、セルラー電話、スマートフォン、ウェアラブルデバイス及び他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、かつ本明細書で説明及び/又は要求される本出願の実現を制限することを意図しない。
図12に示すように、当該電子機器は、1つ又は複数のプロセッサ1201と、メモリ1202と、高速インタフェース及び低速インタフェースを含む、各コンポーネントを接続するためのインタフェースとを含む。各コンポーネントは、異なるバスによって相互に接続されており、共通のマザーボードにインストールされてもよく、又はニーズに応じて他の方式でインストールされてもよい。プロセッサは、メモリ内又はメモリ上に記憶されて外部入力/出力デバイス(インターフェースに結合された表示デバイスなど)にGUIのグラフィック情報を表示するための命令を含む、電子機器で実行された命令を処理することができる。他の実施形態では、ニューズに応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のプロセッサとともに使用することができる。同様に、複数の電子機器を接続でき、各機器は、一部の必要な操作(例えば、サーバーアレイ、ブレードサーバーグループ、又はマルチプロセッサシステムとして機能する)を提供する。図12では1つのプロセッサ1201は例として挙げられる。
メモリ1202は、本出願によって提供される非一時的コンピュータ可読記憶媒体である。ここで、前記メモリは、前記少なくとも1つのプロセッサに本出願で提供される画像翻訳方法又は画像翻訳モデルトレーニング方法を実行させるための、少なくとも1つのプロセッサで実行可能な命令を記憶している。本出願の非一時的コンピュータ可読記憶媒体は、コンピュータに本出願で提供される画像翻訳方法又は画像翻訳モデルトレーニング方法を実行させるためのコンピュータ命令を記憶している。
メモリ1202は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム及びモジュール、例えば本出願の実施例における画像翻訳方法又は画像翻訳モデルトレーニング方法に対応するプログラム命令/モジュール(例えば、図4に示す第1の取得モジュール410、第1のサンプリングモジュール420、第1の生成モジュール430、第1の処理モジュール440と第1の融合モジュール450、図9に示す第2の取得モジュール901、第2のサンプリングモジュール902、第2の処理モジュール903、第3の処理モジュール904、第2の融合モジュール905、第3の取得モジュール906及び第1の修正モジュール907)を記憶するために使用されてもよい。プロセッサ1201は、メモリ1202に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバーの様々な機能アプリケーション及びデータ処理を実行し、即ち上記方法の実施例における画像翻訳方法又は画像翻訳モデルトレーニング方法を実現する。
メモリ1202は、プログラム記憶領域とデータ記憶領域を含むことができ、ここで、プログラム記憶領域がオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域が画像翻訳のための電子機器の使用のために作成されたデータなどを記憶することができる。また、メモリ1202は、高速ランダムアクセスメモリを含むことができ、少なくとも一つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスをさらに含むことができる。いくつかの実施例では、メモリ1202は、プロセッサ1201に対して遠隔に設けられたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して画像翻訳のための電気機器に接続されてもよい。上記ネットワークの実施例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。
画像翻訳方法又は画像翻訳モデルトレーニング方法を実現するための電子機器は、入力装置1203と出力装置1204とをさらに含むことができる。プロセッサ1201、メモリ1202、入力装置1203及び出力装置1204は、バス又は他の方式によって接続されてもよく、図12では、バスを介して接続することを例とする。
入力装置1203は、入力された数字又は文字情報を受信し、画像翻訳のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置1204は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、プラズマディスプレイを含むことができる。いくつかの実施形態では、表示装置は、タッチスクリーンであってもよい。
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現されてもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されてもよく、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、記憶ステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ高レベルのプロセス及び/又はオブジェクト向けのプログラミング言語、及び/又はアセンブリ/機械言語で計算プログラムを実施することができる。本明細書に使用されるように、用語「機械可読媒体」及び「コンピュータ可読媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械可読信号である機械命令を受信する機械可読媒体を含む。用語「機械可読信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、情報をユーザに表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とのインタラクションを行うことができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施されてもよい。システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもい。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットが含まれる。
コンピュータシステムは、クライアントとサーバーを含むことができる。クライアントとサーバーは、一般的に互いに遠く離れており、通常は通信ネットワークを介してインタラクションを行う。クライアントとサーバーの関係は、対応するコンピューターで実行されかつクライアント-サーバーの関係を持つコンピュータープログラムによって生成される。サーバーは、クラウドサーバーであってもよく、クラウドコンピューティングサーバー又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホストとVPSサービスにおける、管理難度が大きく、サービスの拡張性が弱いという欠陥を解決する。
上記の様々な形態のプロセスを使用し、ステップを並べ替えたり、追加したり、削除したりすることができることを理解すべきである。例えば、本出願に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術的解決策の所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきでえある。

Claims (27)

  1. 画像翻訳方法であって、
    元の画像を含む画像翻訳リクエストを取得するステップと、
    前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するステップと、
    前記縮小画像に基づき、前記元の画像に対応する前記元の画像と同じサイズの予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップと、
    前記変形パラメータに基づいて前記元の画像を変形処理して変形画像を生成するステップと、
    前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するステップと、を含む、
    ことを特徴とする画像翻訳方法。
  2. 前記縮小画像に基づき、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップは、
    前記縮小画像を処理し、前記縮小画像が前記ターゲット翻訳画像の属するドメインである第1のドメインに翻訳される時の対応する第1の特徴ベクトルを確定するステップと、
    前記第1の特徴ベクトルをアップサンプリングして、第2の特徴ベクトルを生成するステップと、
    前記第2の特徴ベクトルに基づき、前記予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップと、を含む、
    ことを特徴とする請求項1に記載の画像翻訳方法。
  3. 前記翻訳リクエストには前記ターゲット翻訳画像の属する第1のドメインも含まれ、画像翻訳リクエストが取得された後、
    前記ターゲット翻訳画像の属する第1のドメインに基づき、ターゲットジェネレータを取得するステップをさらに含み、
    前記縮小画像に基づき、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップは、
    前記ターゲットジェネレータによって前記縮小画像を処理して、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップを含む、
    ことを特徴とする請求項1に記載の画像翻訳方法。
  4. 前記ターゲット翻訳画像の属する第1のドメインに対応するジェネレータがN種類であり、Nが1よりも大きい整数である場合、画像翻訳リクエストが取得された後、
    前記元の画像を識別して、前記元の画像の属する第2のドメインを確定するステップと、
    前記元の画像の属する第2のドメイン及び前記ターゲット翻訳画像の属する第1のドメインに基づき、前記N種類のジェネレータから前記ターゲットジェネレータを選択するステップと、をさらに含む、
    ことを特徴とする請求項3に記載の画像翻訳方法。
  5. 画像翻訳リクエストが取得された後、
    前記元の画像を識別して、前記元の画像の属する第2のドメインを確定するステップと、
    前記元の画像の属する第2のドメインに基づき、ターゲットジェネレータを取得するステップと、をさらに含み、
    前記縮小画像に基づき、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップは、
    前記ターゲットジェネレータによって前記縮小画像を処理して、前記元の画像に対応する、予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するステップを含む、
    ことを特徴とする請求項1に記載の画像翻訳方法。
  6. 前記元の画像の属する第2のドメインに対応するジェネレータがN種類であり、Nが1よりも大きい整数である場合、画像翻訳リクエストが取得された後、
    ターゲット翻訳画像の属する第1のドメインを取得するステップと、
    前記ターゲット翻訳画像の属する第1のドメイン及び前記元の画像の属する第2のドメインに基づき、前記N種類のジェネレータから前記ターゲットジェネレータを選択するステップと、をさらに含む、
    ことを特徴とする請求項5に記載の画像翻訳方法。
  7. 前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するステップは、
    前記マスク画像の各ピクセルポイントのピクセル値に基づき、前記予め翻訳された画像の第1の重み及び前記変形画像の第2の重みを確定するステップと、
    前記第1の重み及び前記第2の重みに基づき、前記予め翻訳された画像の各ピクセルポイントのピクセル値と前記変形画像の各ピクセルポイントのピクセル値とを融合させて、前記ターゲット翻訳画像を生成するステップと、を含む、
    ことを特徴とする請求項1に記載の画像翻訳方法。
  8. 前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成する前に、
    現在の電子機器の属性パラメータを取得するステップと、
    前記電子機器の属性パラメータに基づき、ダウンサンプリング係数を確定するステップと、をさらに含み、
    前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するステップは、
    前記ダウンサンプリング係数に基づき、前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するステップを含む、
    ことを特徴とする請求項1に記載の画像翻訳方法。
  9. 画像翻訳モデルトレーニング方法であって、
    第1のドメインに属する第1の画像セットと、第2のドメインに属する第2の画像セットとを含むトレーニングセットを取得するステップと、
    前記第1の画像セット内の画像をそれぞれダウンサンプリングして、第1の縮小画像セットを生成するステップと、
    第1の初期ジェネレータによって前記第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成するステップであって、前記第1の変形パラメータセット内の各パラメータがそれぞれ前記第1の画像セット内の画像の各ピクセルポイントに対応するステップと、
    前記第1の変形パラメータセットに基づいて前記第1の画像セット内の画像をそれぞれ変形処理し、第1の変形画像セットを取得するステップと、
    前記第1の変形画像セット、前記第1の予め翻訳された画像セット及び前記第1のマスク画像セット内の対応する画像をそれぞれ融合させて、第3の画像セットを取得するステップと、
    前記第3の画像セット内の画像及び第2の画像セット内の画像をそれぞれ第1の初期弁別器に入力して、前記第1の初期弁別器によって出力された、前記第3の画像セット内の画像がそれぞれ真の画像に属する第1の確率セットと、前記第2の画像セット内の画像がそれぞれ真の画像に属する第2の確率セットとを取得するステップと、
    前記第1の確率セット及び前記第2の確率セットに基づき、前記第1の初期ジェネレータ及び前記第1の初期弁別器を修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータを生成するステップと、を含む、
    ことを特徴とする画像翻訳モデルトレーニング方法。
  10. 第1の初期ジェネレータによって前記第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成するステップは、
    前記第1の縮小画像セット内の画像をそれぞれ処理して、縮小画像セット内の画像が前記第2のドメインに翻訳される時の対応する第1の特徴ベクトルセットを確定するステップと、
    前記第1の特徴ベクトルセット内の第1の特徴ベクトルをそれぞれアップサンプリングして、第2の特徴ベクトルセットを生成するステップと、
    前記第2の特徴ベクトルセット内の第2の特徴ベクトルに基づき、前記第1の予め翻訳された画像セット、前記第1のマスク画像セット及び第1の変形パラメータセットを生成するステップと、を含む、
    ことを特徴とする請求項9に記載の画像翻訳モデルトレーニング方法。
  11. 前記第1の画像セット内の画像は、それぞれ前記第2の画像セット内の画像と逐一マッチングする、
    ことを特徴とする請求項9に記載の画像翻訳モデルトレーニング方法。
  12. 第1の画像セット内の画像が前記第2の画像セット内の画像とマッチングしていない場合、前記第1の確率セット及び前記第2の確率セットに基づき、前記第1の初期ジェネレータ及び前記第1の初期弁別器を修正した後、
    前記第3の画像セット内の画像をそれぞれダウンサンプリングして、第2の縮小画像セットを生成するステップと、
    第2の初期ジェネレータによって前記第2の縮小画像セット内の画像をそれぞれ処理して、第2の予め翻訳された画像セット、第2のマスク画像セット及び第2の変形パラメータセットを生成するステップと、
    前記第2の変形パラメータセットに基づいて前記第3の画像セット内の画像をそれぞれ変形処理して、第2の変形画像セットを取得するステップと、
    前記第2の変形画像セット、第2の予め翻訳された画像セット及び前記第2のマスク画像セット内の対応する画像をそれぞれ融合させて、第4の画像セットを取得するステップと、
    前記第4の画像セット内の画像及び第1の画像セット内の画像をそれぞれ第2の初期弁別器に入力して、前記第2の初期弁別器によって出力された、前記第4の画像セット内の画像がそれぞれ真の画像に属する第3の確率セットと、前記第1の画像セット内の画像がそれぞれ真の画像に属する第4の確率セットとを取得するステップと、
    前記第3の確率セット及び前記第4の確率セットに基づき、前記第1の初期ジェネレータ、前記第2の初期ジェネレータ、前記第1の初期弁別器及び前記第2の初期弁別器を修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータと、第2のドメインに位置する画像を第1のドメインに位置する画像に翻訳させるための第2のドメインに属するターゲットジェネレータとを生成するステップと、をさらに含む、
    ことを特徴とする請求項9に記載の画像翻訳モデルトレーニング方法。
  13. 画像翻訳装置であって、
    元の画像を含む画像翻訳リクエストを取得するように構成される第1の取得モジュールと、
    前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するように構成される第1のサンプリングモジュールと、
    前記縮小画像に基づき、前記元の画像に対応する前記元の画像と同じサイズの予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される第1の生成モジュールと、
    前記変形パラメータに基づいて前記元の画像を変形処理して変形画像を取得するように構成される第1の処理モジュールと、
    前記変形画像、前記予め翻訳された画像及び前記マスク画像を融合させてターゲット翻訳画像を生成するように構成される第1の融合モジュールと、を含む、
    ことを特徴とする画像翻訳装置。
  14. 前記第1の生成モジュールは、
    前記縮小画像を処理し、前記縮小画像が前記ターゲット翻訳画像の属するドメインである第1のドメインに翻訳される時の対応する第1の特徴ベクトルを確定するように構成される第1の処理ユニットと、
    前記第1の特徴ベクトルをアップサンプリングして、第2の特徴ベクトルを生成するように構成される第1のサンプリングユニットと、
    前記第2の特徴ベクトルに基づき、前記予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成されるための第1の生成ユニットと、を含む、
    ことを特徴とする請求項13に記載の画像翻訳装置。
  15. 前記画像翻訳リクエストには前記ターゲット翻訳画像の属する第1のドメインも含まれ、前記第1の取得モジュールは、画像翻訳リクエストを取得した後、さらに、
    前記ターゲット翻訳画像の属する第1のドメインに基づき、ターゲットジェネレータを取得するように構成され、
    前記第1の生成モジュールは、具体的には、
    前記ターゲットジェネレータによって前記縮小画像を処理して、前記元の画像に対応する予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される、
    ことを特徴とする請求項1に記載の画像翻訳装置。
  16. 前記ターゲット翻訳画像の属する第1のドメインに対応するジェネレータがN種類であり、Nが1よりも大きい整数である場合、前記第1の取得モジュールは、画像翻訳リクエストを取得した後、さらに、
    前記元の画像を識別して、前記元の画像の属する第2のドメインを確定し、
    前記元の画像の属する第2のドメイン及び前記ターゲット翻訳画像の属する第1のドメインに基づき、前記N種類のジェネレータから前記ターゲットジェネレータを選択するように構成される、
    ことを特徴とする請求項15に記載の画像翻訳装置。
  17. 前記第1の取得モジュールは、画像翻訳リクエストを取得した後、さらに、
    前記元の画像を識別して、前記元の画像の属する第2のドメインを確定し、
    前記元の画像の属する第2のドメインに基づき、ターゲットジェネレータを取得するように構成され、
    前記第1の生成モジュールは、具体的には、
    前記ターゲットジェネレータによって前記縮小画像を処理して、前記元の画像に対応する予め翻訳された画像、マスク画像、及び前記元の画像の各ピクセルポイントに対応する変形パラメータを生成するように構成される、
    ことを特徴とする請求項13に記載の画像翻訳装置。
  18. 前記元の画像の属する第2のドメインに対応するジェネレータがN種類であり、Nが1よりも大きい整数である場合、前記第1の取得モジュールは、画像翻訳リクエストを取得した後、さらに、
    ターゲット翻訳画像の属する第1のドメインを取得し、
    前記ターゲット翻訳画像の属する第1のドメイン及び前記元の画像の属する第2のドメインに基づき、前記N種類のジェネレータから前記ターゲットジェネレータを選択するように構成される、
    ことを特徴とする請求項17に記載の画像翻訳装置。
  19. 前記第1の融合モジュールは、
    前記マスク画像の各ピクセルポイントのピクセル値に基づき、予め翻訳された画像の第1の重み及び前記変形画像の第2の重みを確定するように構成される第1の確定ユニットと、
    前記第1の重み及び前記第2の重みに基づき、前記予め翻訳された画像の各ピクセルポイントのピクセル値と前記変形画像の各ピクセルポイントのピクセル値とを融合させて、前記ターゲット翻訳画像を生成するように構成される第2の融合ユニットと、を含む、
    ことを特徴とする請求項13~18のいずれかに記載の画像翻訳装置。
  20. 前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成する前に、前記第1のサンプリングモジュールは、さらに、
    現在の電子機器の属性パラメータを取得し、
    前記電子機器の属性パラメータに基づき、ダウンサンプリング係数を確定するように構成され、
    前記第1のサンプリングモジュールは、具体的には、
    前記ダウンサンプリング係数に基づき、前記元の画像をダウンサンプリングして、前記元の画像に対応する縮小画像を生成するように構成される、
    ことを特徴とする請求項13~18のいずれかに記載の画像翻訳装置。
  21. 画像翻訳モデルトレーニング装置であって、
    第1のドメインに属する第1の画像セットと、第2のドメインに属する第2の画像セットとを含むトレーニングセットを取得するように構成される第2の取得モジュールと、
    前記第1の画像セット内の画像をそれぞれダウンサンプリングして、第1の縮小画像セットを生成するように構成される第2のサンプリングモジュールと、
    第1の初期ジェネレータによって前記第1の縮小画像セット内の画像をそれぞれ処理して、第1の予め翻訳された画像セット、第1のマスク画像セット及び第1の変形パラメータセットを生成するように構成される第2の処理モジュールであって、前記第1の変形パラメータセット内の各パラメータがそれぞれ前記第1の画像セット内の画像の各ピクセルポイントに対応する第2の処理モジュールと、
    前記第1の変形パラメータセットに基づいて前記第1の画像セット内の画像をそれぞれ変形処理し、第1の変形画像セットを取得するように構成される第3の処理モジュールと、
    前記第1の変形画像セット、前記第1の予め翻訳された画像セット及び前記第1のマスク画像セット内の対応する画像をそれぞれ融合させて、第3の画像セットを取得するように構成される第2の融合モジュールと、
    前記第3の画像セット内の画像及び前記第2の画像セット内の画像をそれぞれ第1の初期弁別器に入力して、前記第1の初期弁別器によって出力された、前記第3の画像セット内の画像がそれぞれ真の画像に属する第1の確率セットと、前記第2の画像セット内の画像がそれぞれ真の画像に属する第2の確率セットとを取得するように構成される第3の取得モジュールと、
    前記第1の確率セット及び前記第2の確率セットに基づき、前記第1の初期ジェネレータ及び前記第1の初期弁別器を修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータを生成するように構成される第1の修正モジュールと、を含む、
    ことを特徴とする画像翻訳モデルトレーニング装置。
  22. 前記第2の処理モジュールは、
    前記第1の縮小画像セット内の画像をそれぞれ処理して、縮小画像セット内の画像が前記第2のドメインに翻訳される時の対応する第1の特徴ベクトルセットを確定するように構成される第2の処理ユニットと、
    前記第1の特徴ベクトルセット内の第1の特徴ベクトルをそれぞれアップサンプリングして、第2の特徴ベクトルセットを生成するように構成される第2のサンプリングユニットと、
    前記第2の特徴ベクトルセット内の第2の特徴ベクトルに基づき、前記第1の予め翻訳された画像セット、前記第1のマスク画像セット及び前記第1の変形パラメータセットを生成するように構成される第2の生成ユニットと、を含む、
    ことを特徴とする請求項21に記載の画像翻訳モデルトレーニング装置。
  23. 前記第1の画像セット内の画像は、それぞれ前記第2の画像セット内の画像と逐一マッチングする、
    ことを特徴とする請求項21に記載の画像翻訳モデルトレーニング装置。
  24. 第1の画像セット内の画像が前記第2の画像セット内の画像とマッチングしていない場合、前記画像翻訳モデルトレーニング装置は、
    前記第3の画像セット内の画像をそれぞれダウンサンプリングして、第2の縮小画像セットを生成するように構成される第3のサンプリングモジュールと、
    第2の初期ジェネレータによって前記第2の縮小画像セット内の画像をそれぞれ処理して、第2の予め翻訳された画像セット、第2のマスク画像セット及び第2の変形パラメータセットを生成するように構成される第4の処理モジュールと、
    前記第2の変形パラメータセットに基づいて前記第3の画像セット内の画像をそれぞれ変形処理して、第2の変形画像セットを取得するように構成される第5の処理モジュールと、
    前記第2の変形画像セット、第2の予め翻訳された画像セット及び前記第2のマスク画像セット内の対応する画像をそれぞれ融合させて、第4の画像セットを取得するように構成される第3の融合モジュールと、
    前記第4の画像セット内の画像及び前記第1の画像セット内の画像をそれぞれ第2の初期弁別器に入力して、前記第2の初期弁別器によって出力された、前記第4の画像セット内の画像がそれぞれ真の画像に属する第3の確率セットと、前記第1の画像セット内の画像がそれぞれ真の画像に属する第4の確率セットとを取得するように構成される第4のモジュールと、
    前記第3の確率セット及び前記第4の確率セットに基づき、前記第1の初期ジェネレータ、前記第2の初期ジェネレータ、前記第1の初期弁別器及び前記第2の初期弁別器を修正して、第1のドメインに位置する画像を第2のドメインに位置する画像に翻訳させるための第1のドメインに属するターゲットジェネレータと、第2のドメインに位置する画像を第1のドメインに位置する画像に翻訳させるための第2のドメインに属するターゲットジェネレータとを生成するように構成される第2の修正モジュールと、をさらに含む、
    ことを特徴とする請求項21に記載の画像翻訳モデルトレーニング装置。
  25. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、ここで、
    前記メモリには前記少なくとも1つのプロセッサで実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~8のいずれかに記載の方法又は請求項9~12のいずれかに記載の方法を実行するように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  26. コンピュータ命令を記憶している非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~8のいずれかに記載の方法又は請求項9~12のいずれかに記載のトレーニング方法を実行させる、
    ことを特徴とする非一時的コンピュータ可読記憶媒体。
  27. コンピュータプログラムであって、
    前記コンピュータプログラムにおける命令が実行された場合に、請求項1~8のいずれかに記載の方法又は請求項9~12のいずれかに記載のトレーニング方法が実行される、
    ことを特徴とするコンピュータプログラム。
JP2020215551A 2020-06-01 2020-12-24 画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置 Active JP7133003B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010484916.4 2020-06-01
CN202010484916.4A CN111833239B (zh) 2020-06-01 2020-06-01 图像的翻译方法和装置、图像翻译模型的训练方法和装置

Publications (2)

Publication Number Publication Date
JP2021190085A JP2021190085A (ja) 2021-12-13
JP7133003B2 true JP7133003B2 (ja) 2022-09-07

Family

ID=72897504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020215551A Active JP7133003B2 (ja) 2020-06-01 2020-12-24 画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置

Country Status (5)

Country Link
US (1) US11508044B2 (ja)
EP (1) EP3920129A1 (ja)
JP (1) JP7133003B2 (ja)
KR (1) KR102461043B1 (ja)
CN (1) CN111833239B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11461559B2 (en) * 2020-01-28 2022-10-04 Salesforce.Com, Inc. Mechanism to facilitate image translation
CN114596241A (zh) * 2020-12-02 2022-06-07 阿里巴巴集团控股有限公司 图像、视频处理方法、装置、设备和存储介质
KR20230084967A (ko) * 2021-12-06 2023-06-13 삼성전자주식회사 반도체 공정 이미지 생성기를 훈련시키는 방법
CN119691370B (zh) * 2025-02-21 2025-05-02 四川川核地质工程有限公司 一种基于大数据的地质灾害隐患数据分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180247281A1 (en) 2017-02-24 2018-08-30 Mastercard International Incorporated Systems and Methods for Managing Receipts for Payment Account Transactions
US20190295302A1 (en) 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6807290B2 (en) * 2000-03-09 2004-10-19 Microsoft Corporation Rapid computer modeling of faces for animation
EP2059899A4 (en) * 2005-12-30 2012-07-04 Steven Kays MODEL OF ADAPTATION TO ENGINEERING
US20150086127A1 (en) * 2013-09-20 2015-03-26 Samsung Electronics Co., Ltd Method and image capturing device for generating artificially defocused blurred image
US9183616B2 (en) * 2014-01-13 2015-11-10 Arecont Vision, Llc. System and method for obtaining super image resolution through optical image translation
AU2015202937A1 (en) * 2015-05-29 2016-12-15 Canon Kabushiki Kaisha Systems and methods for registration of images
US9443316B1 (en) 2015-07-21 2016-09-13 Sony Corporation Semi-automatic image segmentation
US20180247201A1 (en) 2017-02-28 2018-08-30 Nvidia Corporation Systems and methods for image-to-image translation using variational autoencoders
US10339642B2 (en) * 2017-03-30 2019-07-02 Adobe Inc. Digital image processing through use of an image repository
CN109711457A (zh) * 2018-12-20 2019-05-03 江南大学 一种基于改进hu不变矩的快速图像匹配方法及其应用
CN109978893B (zh) * 2019-03-26 2023-06-20 腾讯科技(深圳)有限公司 图像语义分割网络的训练方法、装置、设备及存储介质
CN110322416B (zh) * 2019-07-09 2022-11-18 腾讯科技(深圳)有限公司 图像数据处理方法、装置以及计算机可读存储介质
GB2586245B (en) * 2019-08-13 2021-09-22 Univ Of Hertfordshire Higher Education Corporation Method and apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180247281A1 (en) 2017-02-24 2018-08-30 Mastercard International Incorporated Systems and Methods for Managing Receipts for Payment Account Transactions
US20190295302A1 (en) 2018-03-22 2019-09-26 Northeastern University Segmentation Guided Image Generation With Adversarial Networks

Also Published As

Publication number Publication date
KR102461043B1 (ko) 2022-10-28
US20210374920A1 (en) 2021-12-02
JP2021190085A (ja) 2021-12-13
CN111833239A (zh) 2020-10-27
EP3920129A1 (en) 2021-12-08
CN111833239B (zh) 2023-08-01
KR20210148836A (ko) 2021-12-08
US11508044B2 (en) 2022-11-22

Similar Documents

Publication Publication Date Title
JP7133003B2 (ja) 画像翻訳方法及び装置、画像翻訳モデルトレーニング方法及び装置
JP7317070B2 (ja) 人顔の超解像度の実現方法、装置、電子設備、記憶媒体、及びプログラム
JP7342062B2 (ja) 画像処理方法、装置、電子機器及び記憶媒体
US11847164B2 (en) Method, electronic device and storage medium for generating information
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
US20210304438A1 (en) Object pose obtaining method, and electronic device
US11893708B2 (en) Image processing method and apparatus, device, and storage medium
KR102487260B1 (ko) 이미지 처리 방법, 장치, 전자 기기 및 저장 매체
US11641446B2 (en) Method for video frame interpolation, and electronic device
CN116843833B (zh) 三维模型生成方法、装置和电子设备
US11836836B2 (en) Methods and apparatuses for generating model and generating 3D animation, devices and storage mediums
CN111832745A (zh) 数据增广的方法、装置及电子设备
JP7124153B2 (ja) テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品
KR102521013B1 (ko) 이미지 번역 방법 및 장치, 이미지 번역 모델의 트레이닝 방법 및 장치
CN112529154B (zh) 图像生成模型训练方法和装置、图像生成方法和装置
CN111339344B (zh) 室内图像检索方法、装置及电子设备
CN111639655B (zh) 图像局部信息生成方法、装置、电子设备和存储介质
CN117648419B (zh) 图文对话方法、模型训练方法、装置和电子设备
CN119863535A (zh) 基于大模型的图像生成及模型训练方法、装置和设备
KR20240117509A (ko) 얼굴 비디오 생성 방법, 장치 및 전자 기기

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220826

R150 Certificate of patent or registration of utility model

Ref document number: 7133003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250