Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5483526B2 - Machine translation system and machine translation method - Google Patents
[go: Go Back, main page]

JP5483526B2 - Machine translation system and machine translation method - Google Patents

Machine translation system and machine translation method Download PDF

Info

Publication number
JP5483526B2
JP5483526B2 JP2008334468A JP2008334468A JP5483526B2 JP 5483526 B2 JP5483526 B2 JP 5483526B2 JP 2008334468 A JP2008334468 A JP 2008334468A JP 2008334468 A JP2008334468 A JP 2008334468A JP 5483526 B2 JP5483526 B2 JP 5483526B2
Authority
JP
Japan
Prior art keywords
translation
text
data
image
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008334468A
Other languages
Japanese (ja)
Other versions
JP2010157066A (en
Inventor
宗 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to JP2008334468A priority Critical patent/JP5483526B2/en
Publication of JP2010157066A publication Critical patent/JP2010157066A/en
Application granted granted Critical
Publication of JP5483526B2 publication Critical patent/JP5483526B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文書を機械的に翻訳する仕組みに関し、特に、Webページ内に表示されるテキストをリアルタイムで翻訳するシステム及び方法に関するものである。   The present invention relates to a mechanism for mechanically translating a document, and more particularly to a system and method for translating text displayed in a web page in real time.

<従来例1>
Webページ中のテキストを機械的に翻訳するサービスがインターネット上で提供されている(例えば、非特許文献1参照)。
同サービスでは、WebページのURLを入力として受け取ると、当該URLに対応するWebページ中のテキストをユーザが指定した言語に翻訳し、元のHTMLデータを変換して出力する。ただし、同サービスは、当該Webページ内の画像に含まれる文字を翻訳する機能を備えていない。
<Conventional example 1>
A service for mechanically translating text in a Web page is provided on the Internet (see, for example, Non-Patent Document 1).
In the service, when the URL of the Web page is received as input, the text in the Web page corresponding to the URL is translated into the language specified by the user, and the original HTML data is converted and output. However, this service does not have a function for translating characters included in images in the Web page.

<従来例2>
画像と文字とが混在する画像データの文字部分のみを翻訳した画像を作成する手法が知られている(例えば、特許文献1参照)。
同手法では、画像と文字とが混在する画像データのうち文字データの存在する部分(文字領域)を特定し、文字領域から文字データを抽出し、抽出した文字データをテキストデータに変換し、テキストデータを翻訳し、翻訳データを調整して文字領域に貼り付け、翻訳データが貼り付けられた文字領域を元の画像データと合成する(同文献図2のフローチャート,図3〜図10の説明図等参照)。
<Conventional example 2>
A method for creating an image obtained by translating only a character portion of image data in which an image and a character are mixed is known (for example, see Patent Document 1).
In this method, the part (character area) where character data exists is identified from the image data in which images and characters are mixed, character data is extracted from the character area, the extracted character data is converted to text data, and text The data is translated, the translation data is adjusted and pasted to the character area, and the character area pasted with the translation data is synthesized with the original image data (the flowchart in FIG. 2 and the explanatory diagram in FIGS. 3 to 10). Etc.).

<従来例3>
文書の背景となる色や模様などの体裁を維持しつつ、文字の部分だけを別の言語に翻訳された新たな文字に差し替える手法が知られている(例えば、特許文献2)。
同手法では、単一色の用紙に文字が印字された文書をスキャンして得たビットマップ画像から文字を認識した後、その文字を描画していた画素を用紙と同じ属性の画素で埋め戻した上で、認識した文字を翻訳して得た新たな文字を画像に書き込むことにより新たなビットマップ画像を生成する(同文献図1のフローチャート,図2の遷移図等参照)。
<Conventional example 3>
A technique is known in which only the character portion is replaced with a new character translated into another language while maintaining the appearance of the color and pattern as the background of the document (for example, Patent Document 2).
In this method, after recognizing a character from a bitmap image obtained by scanning a document in which the character is printed on a single color paper, the pixel on which the character was drawn is backfilled with a pixel having the same attribute as the paper. Then, a new bitmap image is generated by writing a new character obtained by translating the recognized character into the image (see the flowchart of FIG. 1, the transition diagram of FIG. 2, etc.).

<従来例4>
原文と翻訳文とを対応付けて閲覧性の向上を図る手法が知られている(例えば、特許文献3参照)。
同手法では、文字データを所定の言語に翻訳し、翻訳文の文字列長を原文の文字列長と同一長さに補正した上で、原文と翻訳文を対応付けた画像を生成する(同文献図3のフローチャート,図4・図5の説明図等参照)。
<Conventional Example 4>
There is known a technique for improving the readability by associating an original sentence with a translated sentence (see, for example, Patent Document 3).
In this method, character data is translated into a predetermined language, the character string length of the translated sentence is corrected to the same length as the character string length of the original sentence, and an image in which the original sentence is associated with the translated sentence is generated (same as above). (Refer to the flow chart in FIG. 3 and the explanatory diagrams in FIGS. 4 and 5).

なお、文字列長を比較する手法として、ドット数の累計を判定する点,キャラクタ数を判定する点,印刷時の長さを判定する点が記載又は示唆されている(同文献段落0029,0035等参照)。
また、文字列長を補正する手法として、文字のフォントを変更する点,文字のポイントを変更する点,文字列全体を均等割付とする点,文字をルビ文字とする点が記載又は示唆されている(同文献段落0030,0034等参照)。
As a method for comparing character string lengths, there are described or suggested a point for determining the cumulative number of dots, a point for determining the number of characters, and a point for determining the length during printing (paragraphs 0029 and 0035 in the same document). Etc.).
Also, as a method of correcting the character string length, the point of changing the font of the character, the point of changing the point of the character, the point of evenly allocating the entire character string, the point of making the character a ruby character are described or suggested. (See paragraphs 0030 and 0034 of the same document).

<従来例5>
ある言語で作成された文書を異なる言語の文書に翻訳する際に、翻訳文のレイアウトを原文と同一にする手法が知られている(例えば、特許文献4参照)。
同手法では、原文の文字列から翻訳文を生成し、翻訳文中の省略対象語句(長い単語又は長いフレーズ)を省略語に置換し、省略対象語句が省略語に置換された翻訳文の画像を原文と同一のレイアウトで生成した上で、省略対象語句と省略語との対応リストを余白部分に配置した翻訳文を出力する(同文献図3のフローチャート,図4〜図7の説明図等参照)。
<Conventional Example 5>
When translating a document created in a language into a document in a different language, a method is known in which the layout of the translated sentence is the same as that of the original sentence (see, for example, Patent Document 4).
In this method, a translation sentence is generated from a character string of the original sentence, an abbreviation target phrase (long word or long phrase) in the translation sentence is replaced with an abbreviation, and a translation sentence image in which the abbreviation target phrase is replaced with an abbreviation is obtained. After generating the same layout as the original sentence, a translation sentence in which the correspondence list of abbreviation target phrases and abbreviations is arranged in the margin is output (refer to the flowchart of FIG. 3 and the explanatory diagrams of FIGS. 4 to 7). ).

なお、省略対象語句を省略語に置換するのは、例えば単位領域において翻訳文の行数が対応する原文の行数を上回るときである(同文献段落0032等参照)。
また、省略対象語句とするのは、例えば単位領域において構成文字数及び出現回数がいずれも所定の閾値を超える語句である(同文献段落0033等参照)。
The abbreviation word / phrase is replaced with an abbreviation when, for example, the number of lines in the translated sentence exceeds the number of lines in the corresponding original sentence in the unit area (see paragraph 0032 of the same document).
In addition, the abbreviation target phrase is, for example, a phrase in which the number of constituent characters and the number of appearances both exceed a predetermined threshold in the unit area (see paragraph 0033 of the same document).

特開2003−122751号公報JP 2003-122751 A 特開2006−251902号公報JP 2006-251902 A 特開2006−276905号公報JP 2006-276905 A 特開2007−034430号公報JP 2007-034430 A Google, Inc.、“Google 翻訳”、インターネット<URL: http://translate.google.co.jp/>Google, Inc., “Google Translate”, Internet <URL: http://translate.google.co.jp/>

インターネット上で外国人向けのサービスを提供する場合、外国語のWebページがあると便利である。ただし、全てのWebページについて各国語のパターンを予め用意しておくのは、手間がかかり過ぎるため事実上不可能である。
このとき、例えば上記<従来例1>の翻訳サービスと同様の仕組みを利用すれば、各Webページをいずれか1つの言語で作成しておくだけで、各国語のWebページをリアルタイムで作成して提供することがとりあえずは可能である。
When providing services for foreigners on the Internet, it is convenient to have a Web page in a foreign language. However, it is practically impossible to prepare patterns in each language for all Web pages in advance because it takes too much time.
At this time, for example, if the same mechanism as the translation service of <Conventional Example 1> is used, a Web page in each language can be generated in real time just by creating each Web page in any one language. It can be provided for the time being.

一方、サービスを提供するWebページには画像が配置されることが多く、当該画像にはしばしば文字が含まれている(図1(a)の110a)。
このとき、例えば上記<従来例1>の翻訳サービスでは、画像中の文字が翻訳されない(図1(b)の110b)。また、例えば上記<従来例2>や<従来例3>のように画像内の文字を適宜抽出して翻訳するという手法は、処理に時間がかかるためリアルタイム処理を前提とする翻訳サービスにおいては採用し難い。
On the other hand, images are often arranged on Web pages that provide services, and the images often include characters (110a in FIG. 1A).
At this time, for example, in the translation service of <Conventional Example 1>, characters in the image are not translated (110b in FIG. 1B). In addition, for example, the technique of extracting characters in an image as appropriate and translating them as in <Conventional Example 2> and <Conventional Example 3> takes time to process, and is used in a translation service that assumes real-time processing. It is hard to do.

本発明が解決しようとする課題は、Webページ全体を機械翻訳にかけたときに画像内の文字が翻訳されずにそのまま表示されてしまう不具合を解消する、という点である。   The problem to be solved by the present invention is to solve the problem that when an entire Web page is subjected to machine translation, characters in the image are displayed as they are without being translated.

上記課題を解決するため、本発明は、ある言語で表現されたWebページを提供するとともに、該Webページを他の言語に翻訳する機械翻訳システムであって、Webページを閲覧するユーザの端末と通信ネットワークを介して接続しており、ある言語で表現されたWebページの構造を記述するHTMLデータと、HTMLデータが参照する画像データとを少なくとも記憶するWebデータ記憶手段と、テキストの翻訳処理に利用される辞書データを少なくとも記憶する翻訳データ記憶手段とを有し、前記Webデータ記憶手段に記憶するHTMLデータは、文字を含み可視化されている画像を示す文字画像と、該文字画像に重なる所定位置の前面に表示位置が設定され、かつ不可視化されている前記ある言語のテキストを示す予備テキストとの組を少なくとも1組含み、翻訳対象のWebページに対応するURLと、翻訳先言語の指定データとを少なくとも含む翻訳要求を前記端末から受信する翻訳要求受信手段と、前記受信したURLに対応するWebページの構造を記述するHTMLデータを前記Webデータ記憶手段より取得するHTMLデータ取得手段と、前記翻訳データ記憶手段に記憶している辞書データを参照して、前記取得したHTMLデータ中の前記予備テキストを含む所定の翻訳対象テキストを前記受信した指定データに対応する翻訳先言語に翻訳するテキスト翻訳手段と、前記取得したHTMLデータ中の不可視化されており且つ前記テキスト翻訳手段により翻訳された前記予備テキストを可視化するとともに、該HTMLデータ中の可視化されている前記文字画像を不可視化する可視化要素切替手段と、前記可視化要素切替手段により処理された前記HTMLデータを前記端末に送信する翻訳済HTMLデータ送信手段と、前記端末からの画像データを指定した送信要求に応じて、該指定された画像データを前記Webデータ記憶手段より読み出して該端末に送信する画像データ送信手段とを備えることを特徴とする。 In order to solve the above-described problems, the present invention provides a machine translation system that provides a web page expressed in a certain language and translates the web page into another language. Web data storage means connected through a communication network and storing at least HTML data describing the structure of a Web page expressed in a certain language and image data referred to by the HTML data, and text translation processing Translation data storage means for storing at least dictionary data to be used, and the HTML data stored in the Web data storage means includes a character image indicating an image including characters and a predetermined image overlapping the character image. Preliminary text showing the text of the certain language whose display position is set in front of the position and is invisible A translation request receiving means for receiving from the terminal a translation request including at least one URL pair, a URL corresponding to the Web page to be translated, and at least translation destination language designation data, and the received URL With reference to the HTML data acquisition means for acquiring HTML data describing the structure of the corresponding Web page from the Web data storage means, and the dictionary data stored in the translation data storage means, the HTML data in the acquired HTML data A text translation means for translating a predetermined text to be translated including the preliminary text into a translation destination language corresponding to the received designated data; and invisible in the acquired HTML data and translated by the text translation means. with visualizing the preliminary text has been visualized in the HTML data A visualization element switching means for invisible the serial character image, and translated HTML data transmitting means for transmitting the HTML data processed by the visualization element switching means prior SL terminal, transmits the specified image data from the terminal In response to a request, the image data transmitting means reads out the designated image data from the Web data storage means and transmits it to the terminal.

前記可視化要素切替手段は、テキストの文字色属性を透明から有色に変更し、テキストを含む領域の表示属性を非表示から表示に変更し又はテキストを含む領域のタグを挟むコメントタグを削除する、ことにより不可視化されている予備テキストを可視化するとよい。
前記可視化要素切替手段は、画像の表示属性を表示から非表示に変更し、画像に対応するタグを削除し、画像に対応するタグをコメントタグで挟み、画像を含む領域の表示属性を表示から非表示に変更し又は画像を含む領域に対応するタグをコメントタグで挟む、ことにより可視化されている文字画像を不可視化するとよい。
前記翻訳済HTMLデータ送信手段は、前記取得したHTMLデータの基準URLを、前記受信した翻訳要求に含まれる翻訳対象のWebページのURLに変更してもよい。
前記翻訳済HTMLデータ送信手段は、翻訳後の予備テキストの長さが前記取得したHTML中の翻訳前予備テキストの長さと比較して一定以上長いとき、該翻訳後の予備テキストの長さを短く補正してもよい。
The visualization element switching unit changes the text color attribute of the text from transparent to colored, changes the display attribute of the area including the text from non-display to display, or deletes the comment tag sandwiching the tag of the area including the text. It is good to visualize the preliminary text that has been made invisible.
The visualization element switching means changes the display attribute of the image from display to non-display, deletes the tag corresponding to the image, sandwiches the tag corresponding to the image with a comment tag, and displays the display attribute of the region including the image It is good to make the character image visualized by changing to non-display or inserting a tag corresponding to a region including an image with a comment tag.
The translated HTML data transmission means may change the reference URL of the acquired HTML data to the URL of the Web page to be translated included in the received translation request.
The translated HTML data transmitting means, when the length of the pre-text of the post-translational constant or longer than the length of the pre-text of the previous translation in HTML that the acquired, the length of the pre-text after the translation You may correct | amend shortly.

また、上記課題を解決するため、本発明は、ある言語で表現されたWebページを提供するとともに、該Webページを他の言語に翻訳する機械翻訳システムによる機械翻訳方法であって、前記機械翻訳システムは、Webページを閲覧するユーザの端末と通信ネットワークを介して接続しており、ある言語で表現されたWebページの構造を記述するHTMLデータと、HTMLデータが参照する画像データとを少なくとも記憶するWebデータ記憶手段と、テキストの翻訳処理に利用される辞書データを少なくとも記憶する翻訳データ記憶手段とを有し、前記Webデータ記憶手段に記憶するHTMLデータは、可視化されている画像を示す文字画像と、該文字画像に重なる所定位置の前面に表示位置が設定され、かつ不可視化されている前記ある言語のテキストを示す予備テキストとの組を少なくとも1組含み、翻訳対象のWebページに対応するURLと、翻訳先言語の指定データとを少なくとも含む翻訳要求を前記端末から受信する翻訳要求受信ステップと、前記受信したURLに対応するWebページの構造を記述するHTMLデータを前記Webデータ記憶手段より取得するHTMLデータ取得ステップと、前記翻訳データ記憶手段に記憶している辞書データを参照して、前記取得したHTMLデータ中の前記予備テキストを含む所定の翻訳対象テキストを前記受信した指定データに対応する翻訳先言語に翻訳するテキスト翻訳ステップと、前記取得したHTMLデータ中の不可視化されており且つ前記テキスト翻訳ステップにおいて翻訳された前記予備テキストを可視化するとともに、該HTMLデータ中の可視化されている前記文字画像を不可視化する可視化要素切替ステップと、前記可視化要素切替ステップにおいて処理された前記HTMLデータを前記端末に送信する翻訳済HTMLデータ送信ステップと、前記端末からの画像データを指定した送信要求に応じて、該指定された画像データを前記Webデータ記憶手段より読み出して該端末に送信する画像データ送信ステップとを備えることを特徴とする。 In order to solve the above problems, the present invention provides a machine translation method by a machine translation system that provides a web page expressed in a certain language and translates the web page into another language. The system is connected to a terminal of a user who browses a web page via a communication network, and stores at least HTML data describing the structure of the web page expressed in a certain language and image data referred to by the HTML data. Web data storage means and translation data storage means for storing at least dictionary data used for text translation processing. The HTML data stored in the Web data storage means is a character indicating a visualized image. The display position is set in front of the image and the predetermined position that overlaps the character image, and is invisible Translation request reception including at least one set of preliminary text indicating a text of a certain language, and receiving a translation request including at least a URL corresponding to a Web page to be translated and designation data of a translation destination language from the terminal The HTML data acquisition step of acquiring HTML data describing the structure of the Web page corresponding to the received URL from the Web data storage means, and the dictionary data stored in the translation data storage means , text translation step of translating the predetermined translated text containing the preliminary text of the acquired in HTML data in the target language corresponding to the specified the received data are invisible in the acquired in HTML data and the preliminary translated text in the text translation step As well as visualization, the visualization element switching step of invisible the character image that has been visualized in the HTML data, translated HTML data for transmitting the HTML data processed in the visualization element switching step prior SL terminal A transmission step; and an image data transmission step of reading the designated image data from the Web data storage means and transmitting it to the terminal in response to a transmission request designating the image data from the terminal. To do.

上記いずれかの機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるためのプログラムも本発明である。
さらに、上記課題を解決するため、本発明の情報処理装置は、文字を含み可視化されている文字画像と、該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得手段と、Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替手段と、前記可視化要素切替処理が実行されたソースを出力する出力手段と、を備える。
さらに、上記課題を解決するため、本発明は、コンピュータにより実行される情報処理方法であって、文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得ステップと、Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替ステップと、前記可視化要素切替処理が実行されたソースを出力する出力ステップと、を含む。
文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得機能と、Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替機能と、前記可視化要素切替処理が実行されたソースを出力する出力機能と、をコンピュータに実行させるプログラムも本発明である。
A program for causing each of the above-described machine translation systems to realize one or a plurality of computers as functions is also the present invention.
Furthermore, in order to solve the above-described problem, the information processing apparatus according to the present invention includes a character image that includes characters and is visualized, and a preliminary text in which a display position is set and invisible so as to overlap the character image. acquisition means for acquiring a source that describes the structure of the translated Web page including at least one pair of sets, a more translated the preliminary text translation means for translating the translated text in the source describing a structure of a Web page the visualization element switching process to invisible pre Symbol character images together when visualized, and visualization element switching means for performing relative to the acquired source, and output means for outputting the source the visualization element switching process is executed .
Furthermore, in order to solve the above problems, the present invention is an information processing method executed by a computer, wherein a character image including characters and a character image that are visualized and a display position are set so as to overlap the character image and are not valid. An acquisition step for acquiring a source describing a structure of a Web page to be translated including at least one pair of visualized preliminary texts, and a translation means for translating the text to be translated in the source describing the structure of the Web page the visualization element switching process to invisible pre Symbol character image more translated the preliminary text together when visualized, and visualization element switching step to be performed on the obtained source, wherein the visualization element switching process is executed And outputting an output source.
A source that describes the structure of a Web page to be translated including at least one set of a character image that includes characters and is visualized and a preliminary text whose display position is set so as to overlap the character image and is made invisible an acquiring function of acquiring, a visualization element switching process to invisible pre Symbol character images together when visualizing the more translated the preliminary text translation means for translating the translated text in the source describing a structure of a Web page A program for causing a computer to execute a visualization element switching function to be executed on the acquired source and an output function to output a source on which the visualization element switching process has been executed is also the present invention.

本発明の機械翻訳システムは、文字を含み可視化されている文字画像の参照データ(URL)と、当該文字画像に重なる領域に表示位置が設定され、かつ不可視化されている予備テキストデータとを少なくとも1組含むHTMLデータをWebデータ記憶手段に記憶しておき、翻訳処理において当該不可視化されている予備テキストデータを可視化するとともに、当該可視化されている文字画像の参照データを不可視化する。 このように、Webページを部分的に2層構成(文字を含む画像のレイヤ及び不可視化されたテキストのレイヤ)にしておき、翻訳処理において表示される要素を切り替えることにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
また、本発明の情報処理装置は、文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースに対して、翻訳手段による翻訳の対象である予備テキストを可視化するとともに該翻訳手段による翻訳の対象でない文字を含む文字画像を不可視化する可視化要素切替処理を実行する。
このように、翻訳対象のWebページを部分的に2層構成(文字画像のレイヤ及び予備テキストのレイヤ)にしておき、表示される要素を切り替えることにより、当該翻訳対象Webページのソース(例えば、HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
Machine translation system of the present invention, the reference data of the character image being visualized include characters (URL), the display position in an area overlapping on the character image is set, and the pre-text data that is invisible at least One set of HTML data is stored in the Web data storage means, the preliminary text data made invisible in the translation process is visualized, and the reference data of the visualized character image is made invisible. In this way, the Web page is partially configured in two layers (an image layer including characters and an invisible text layer), and by switching the elements displayed in the translation process, the Web page (HTML When the data is subjected to machine translation, the translated text is displayed in an area where an image including characters is displayed. In this respect, the problem that the characters in the image are displayed as they are without being translated is solved.
In addition, the information processing apparatus of the present invention includes at least one set of a set of a character image that includes characters and is visualized, and a preliminary text that is set in a display position and is made invisible so as to overlap the character image. A visualization element switching process is performed for the source describing the structure of the target Web page, and the preliminary text that is the object of translation by the translation means is visualized and the character image that includes characters that are not the object of translation by the translation means is invisible. To do.
In this way, the translation target Web page is partially made into a two-layer configuration (a character image layer and a preliminary text layer), and by switching the displayed elements, the source of the translation target Web page (for example, When the HTML data is subjected to machine translation, the translated text is displayed in a region where an image including characters is displayed. In this respect, the problem that the characters in the image are displayed as they are without being translated is solved.

<定義>
以下の説明中で使用される用語の意義は、それぞれ次の定義の通りとする。
・機械翻訳…コンピュータ等を利用して人手を介さず自動的に行う翻訳。
・可視化…ユーザが視認できるようにする処理を包含する概念。
・不可視化…ユーザが視認できないようにする処理を包含する概念。例えば、非表示に設定する,透明に設定する,要素を削除する,要素をコメントアウトする等の処理形態が考えられる。
<Definition>
The meanings of the terms used in the following description are as defined below.
・ Machine translation: Translation performed automatically without human intervention using a computer.
Visualization: a concept that includes a process for enabling the user to visually recognize the image.
Invisibility: A concept that includes a process of making the user invisible. For example, processing forms such as setting to non-display, setting to transparency, deleting an element, and commenting out an element are conceivable.

<実施形態>
[1.実施形態の概要]
本実施形態の概要を、図2〜図5を参照して説明する。
本実施形態のシステムは、Webページを閲覧するユーザに対し、Webページ内に第1の言語で表示されている部分を、各ユーザが指定(選択)した第2の言語に翻訳するサービス(機械翻訳サービス)を提供するシステムである。
なお、以下の説明では、Webページ内の日本語の部分を英語に翻訳する例を用いている。
<Embodiment>
[1. Outline of Embodiment]
The outline of the present embodiment will be described with reference to FIGS.
The system according to the present embodiment is a service (machine) that translates a portion displayed in a first language in a web page into a second language designated (selected) by each user for a user browsing the web page. This system provides a translation service.
In the following description, an example in which a Japanese part in a Web page is translated into English is used.

[1−1.システムの構成]
図2に示すように、本実施形態のシステムは、全体として、Webページを提供するWebサーバ11,翻訳処理を行う翻訳サーバ12及びWebブラウザを有するユーザ端末20により構成される。
Webサーバ11は、Webページの構造を記述するHTMLデータ及び当該HTMLデータが参照するデータ(例えば、画像データ)を少なくとも記憶するWebDB13を有している。一方、翻訳サーバ12は、Webページの機械翻訳処理において参照する辞書データを少なくとも記憶する翻訳DB14を有している。
[1-1. System configuration]
As shown in FIG. 2, the system according to the present embodiment as a whole includes a web server 11 that provides web pages, a translation server 12 that performs translation processing, and a user terminal 20 that includes a web browser.
The Web server 11 has a WebDB 13 that stores at least HTML data describing the structure of a Web page and data (for example, image data) referred to by the HTML data. On the other hand, the translation server 12 has a translation DB 14 that stores at least dictionary data to be referred to in the machine translation process of a Web page.

なお、翻訳DB14に記憶する辞書データは、語彙や文法を定義したデータや、統計的学習手法により構築したモデルを含んでいるものとする。また、特定の語句に対する特定の訳語を定めたデータを記憶していてもよい。
本実施形態においては、WebDB13,翻訳DB14をWebサーバ11,翻訳サーバ12にそれぞれ接続された外部の記憶装置に構築しているが、記憶している情報の読出しが可能であればWebサーバ11,翻訳サーバ12に内蔵された記憶装置に構築してもよい。
Note that the dictionary data stored in the translation DB 14 includes data defining vocabulary and grammar, and a model constructed by a statistical learning method. Further, data defining a specific translation for a specific phrase may be stored.
In this embodiment, the Web DB 13 and the translation DB 14 are constructed in external storage devices connected to the Web server 11 and the translation server 12, respectively. If the stored information can be read, the Web server 11, You may build in the memory | storage device incorporated in the translation server 12. FIG.

Webサーバ11と翻訳サーバ12は、通信ネットワーク(本実施形態ではLAN等のプライベートネットワーク)により互いに接続し、機械翻訳システム10を形成している。また、ユーザ端末20は、通信ネットワーク(本実施形態ではインターネット30)を介してWebサーバ11及び翻訳サーバ12とそれぞれ接続可能である。
なお、Webサーバ11,翻訳サーバ12,ユーザ端末20の間の通信は、ルータ40により制御される。
The Web server 11 and the translation server 12 are connected to each other by a communication network (in this embodiment, a private network such as a LAN) to form a machine translation system 10. Further, the user terminal 20 can be connected to the Web server 11 and the translation server 12 via a communication network (in this embodiment, the Internet 30).
Communication between the Web server 11, the translation server 12, and the user terminal 20 is controlled by the router 40.

[1−2.主要な特徴]
[(a)実施形態1の主要な特徴]
実施形態1の主要な特徴は、文字を含まない画像の参照データ(URL)と、当該画像に重なる領域の前面に表示位置が設定されたテキストデータとの組を少なくとも1組含むHTMLデータをWebDB13に記憶しておく点にある。
このように、Webページを部分的に2層構成(文字を含まない画像のレイヤ及びテキストのレイヤ)にしておくことにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含まない画像に重なる領域の前面に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
[1-2. Main features]
[(A) Main Features of Embodiment 1]
The main feature of the first embodiment is that HTML data including at least one set of reference data (URL) of an image not including characters and text data in which a display position is set in front of an area overlapping the image is stored in the WebDB 13. The point is to remember.
In this way, when a Web page is partially composed of two layers (an image layer not including characters and a text layer), when the Web page (HTML data) is subjected to machine translation, no characters are included. The translated text is displayed in front of the area that overlaps the image. In this respect, the problem that the characters in the image are displayed as they are without being translated is solved.

図3に、実施形態1における翻訳前後のWebページの一部を示す。
翻訳前のWebページには、通常のテキスト310aの他に、文字を含まない画像320と、画像320に重なる領域の前面に表示位置が設定されたテキスト330aとが表示される(図3(a))。
一方、翻訳後のWebページには、テキスト310aが翻訳されたテキスト310bと、翻訳前後において変化しない画像320と、テキスト330aが翻訳されたテキスト330bが表示される(図3(b))。
FIG. 3 shows a part of the web page before and after translation in the first embodiment.
In addition to the normal text 310a, the web page before translation displays an image 320 that does not include characters and a text 330a whose display position is set in front of an area overlapping the image 320 (FIG. 3A )).
On the other hand, the translated web page displays a text 310b in which the text 310a is translated, an image 320 that does not change before and after translation, and a text 330b in which the text 330a is translated (FIG. 3B).

[(b)実施形態2の主要な特徴]
実施形態2の主要な特徴は、文字を含み可視化されている画像の参照データ(URL)と、当該画像に重なる領域に表示位置が設定され、かつ不可視化されているテキストデータとを少なくとも1組含むHTMLデータをWebDB13に記憶しておき、翻訳処理において当該不可視化されているテキストデータを可視化するとともに、当該可視化されている画像データを不可視化する点にある。
このように、Webページを部分的に2層構成(文字を含む画像のレイヤ及び不可視化されたテキストのレイヤ)にしておき、翻訳処理において表示されるレイヤを切り替えることにより、当該Webページ(HTMLデータ)を機械翻訳にかけたとき、文字を含む画像が表示されていた領域に翻訳後のテキストが表示されるようになる。この点において、画像内の文字が翻訳されずにそのまま表示されてしまう不具合が解消される。
[(B) Main Features of Embodiment 2]
The main feature of the second embodiment is that at least one set of reference data (URL) of an image that includes characters and is visualized and text data that has a display position set in an area overlapping the image and is invisible. The HTML data to be included is stored in the WebDB 13 to visualize the invisible text data in the translation process and to make the visualized image data invisible.
In this way, the Web page is partially configured in two layers (an image layer including characters and an invisible text layer), and the Web page (HTML) is changed by switching the layers displayed in the translation process. When the data is subjected to machine translation, the translated text is displayed in an area where an image including characters is displayed. In this respect, the problem that the characters in the image are displayed as they are without being translated is solved.

図4に、実施形態2における翻訳前後のWebページの一部を示す。
翻訳前のWebページには、通常のテキスト410aと、文字を含む画像420とが表示される(図4(a−1))。また、翻訳前のWebページは、画像420に重なる領域に表示位置が設定され、かつ不可視化されたテキストデータ430aを有している(図4(a−2))。
一方、翻訳後のWebページには、テキスト410aが翻訳されたテキスト410bと、テキスト430aが翻訳されたテキスト430bが表示される(図4(b))。なお、画像420は不可視化されているため、翻訳後のWebページ内では視認できない。
FIG. 4 shows a part of a Web page before and after translation in the second embodiment.
A normal text 410a and an image 420 including characters are displayed on the Web page before translation (FIG. 4 (a-1)). Further, the web page before translation has text data 430a in which the display position is set in an area overlapping the image 420 and is invisible (FIG. 4 (a-2)).
On the other hand, on the translated web page, a text 410b obtained by translating the text 410a and a text 430b obtained by translating the text 430a are displayed (FIG. 4B). Since the image 420 is invisible, it cannot be visually recognized in the translated web page.

[2.機械翻訳の手順]
[2−1.機械翻訳手順の概要]
本実施形態のシステムによる機械翻訳処理の流れ及びデータの流れを、図5のシーケンスチャートを参照して簡単に説明する。
図5に示すように、機械翻訳システム10を構成するWebサーバ11及び翻訳サーバ12は、下記〔手順1〕〜〔手順4〕によりユーザ端末20に翻訳後のWebページを表示させる。
なお、図5のシーケンスチャートには、参照すべき他の図面の番号が付記されている。必要に応じて、当該他の図面を参照されたい。
[2. Machine translation procedure]
[2-1. Outline of machine translation procedure]
The flow of machine translation processing and the flow of data by the system of this embodiment will be briefly described with reference to the sequence chart of FIG.
As shown in FIG. 5, the Web server 11 and the translation server 12 constituting the machine translation system 10 display the translated web page on the user terminal 20 by the following [Procedure 1] to [Procedure 4].
In the sequence chart of FIG. 5, numbers of other drawings to be referred to are added. Please refer to the other drawings as necessary.

〔手順1〕
前提として、ユーザ端末20は、Webサーバ11から提供されたWebページを表示しているものとし(S505a)、当該Webページを翻訳対象のWebページとする(実施形態1では図3(a)、実施形態2では図4(a−1))。また、翻訳対象のWebページには、翻訳後の言語を選択し翻訳を要求するための要素(例えば、プルダウン,ラジオボタン,プルダウン又はラジオボタンとボタン又は画像又はリンクとの組)が表示されているものとする。
翻訳対象のWebページにおいてユーザが翻訳後の言語を指定(選択)し、翻訳を要求する所定の操作を行うと、ユーザ端末20は、翻訳サーバ12にWebページの翻訳を要求する(S510a)。
[Procedure 1]
As a premise, the user terminal 20 is displaying a web page provided from the web server 11 (S505a), and the web page is a web page to be translated (FIG. 3A in the first embodiment, In the second embodiment, FIG. 4 (a-1)). In addition, elements (for example, a combination of pull-down, radio button, pull-down, or radio button and button, image, or link) for selecting a translated language and requesting translation are displayed on the Web page to be translated. It shall be.
When the user designates (selects) a translated language on the web page to be translated and performs a predetermined operation for requesting translation, the user terminal 20 requests the translation server 12 to translate the web page (S510a).

図6に、翻訳要求の主要な項目を例示する。
翻訳要求には、「翻訳処理プログラムのURL」,「翻訳対象WebページのURL」,「第1言語(翻訳対象Webページの言語)」,「第2言語(翻訳先の言語)」及び「テキストデータの文字コード」が含まれる。
本実施形態では、「翻訳対象WebページのURL」以下をURLパラメータとするHTTPリクエストを翻訳要求としている。なお、図6に示す各項目を他の形式で送信してもよい。
FIG. 6 illustrates main items of the translation request.
The translation request includes “translation processing program URL”, “translation target Web page URL”, “first language (translation target Web page language)”, “second language (translation destination language)”, and “text” Data character code "is included.
In the present embodiment, an HTTP request having a URL parameter equal to or less than “URL of the Web page to be translated” is a translation request. Each item shown in FIG. 6 may be transmitted in other formats.

〔手順2〕
翻訳サーバ12は、ユーザ端末20から翻訳要求を受信する(S510b)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータの送信をWebサーバ11に要求する(S515b)。
Webサーバ11は、翻訳サーバ12からHTMLデータの送信要求を受信する(S515c)と、受信した「翻訳対象WebページのURL」に対応するHTMLデータ(翻訳前のHTMLデータ)をWebDB13より読み出し又は生成して、翻訳サーバ12に送信する(S520c)。
[Procedure 2]
When the translation server 12 receives a translation request from the user terminal 20 (S510b), the translation server 12 requests the Web server 11 to transmit HTML data corresponding to the received “URL of the Web page to be translated” (S515b).
When the Web server 11 receives an HTML data transmission request from the translation server 12 (S515c), the Web server 11 reads or generates HTML data (pre-translation HTML data) corresponding to the received “translation target Web page URL” from the WebDB 13. Then, it is transmitted to the translation server 12 (S520c).

〔手順3〕
翻訳サーバ12は、Webサーバ11から翻訳前のHTMLデータを受信する(S520b)と、受信した翻訳前のHTMLデータを対象として機械翻訳処理を実行し、翻訳後のHTMLデータをユーザ端末20に送信する(S525b)。
なお、機械翻訳処理の流れ及び翻訳前後のHTMLデータについては、別に項目を設けて実施形態ごとに詳細に説明する(後述の図7〜図10参照)。
[Procedure 3]
When the translation server 12 receives the pre-translation HTML data from the Web server 11 (S520b), the translation server 12 executes a machine translation process on the received pre-translation HTML data, and transmits the post-translation HTML data to the user terminal 20. (S525b).
The flow of machine translation processing and HTML data before and after translation will be described in detail for each embodiment with separate items (see FIGS. 7 to 10 described later).

〔手順4〕
ユーザ端末20は、翻訳サーバ12から翻訳後のHTMLデータを受信する(S525a)と、受信したHTMLを解釈して画像なしのWebページを表示する(S530a)とともに、当該HTMLが参照している画像データの送信をWebサーバ11に要求する(S535a)。
Webサーバ11は、画像データの送信要求を受信する(S535c)と、指定された画像データをWebDB13より読み出し、ユーザ端末20に送信する(S540c)。
ユーザ端末20は、Webサーバ11から画像データを受信する(S540a)と、既に表示されているWebページ内の所定の位置に画像を追加表示する(S545a)。表示完了後のWebページは、前述のとおりである(実施形態1では図3(b)、実施形態2では図4(b))。
[Procedure 4]
When the user terminal 20 receives the translated HTML data from the translation server 12 (S525a), the user terminal 20 interprets the received HTML and displays a web page without an image (S530a), and an image referred to by the HTML The transmission of data is requested to the Web server 11 (S535a).
Upon receiving the image data transmission request (S535c), the Web server 11 reads the designated image data from the WebDB 13 and transmits it to the user terminal 20 (S540c).
When the user terminal 20 receives the image data from the Web server 11 (S540a), the user terminal 20 additionally displays an image at a predetermined position in the already displayed Web page (S545a). The Web page after the display is completed is as described above (FIG. 3B in the first embodiment and FIG. 4B in the second embodiment).

[2−2.実施形態1の機械翻訳処理手順等]
[(a)翻訳前のHTMLデータ]
図7(a)に、実施形態1における翻訳前のHTMLデータの一部を例示する。
翻訳前のHTMLデータには、テキストデータ710aの他に、画像の参照データ720と、テキストデータ730aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。
テキストデータ710a,画像の参照データ720,テキストデータ730aは、それぞれ翻訳前のWebページ(図3(a))のテキスト310a,画像320,テキスト330aに対応する。
[2-2. Machine translation processing procedure of embodiment 1]
[(A) HTML data before translation]
FIG. 7A illustrates a part of the pre-translation HTML data in the first embodiment.
The HTML data before translation includes image reference data 720 and text data 730a in addition to text data 710a. Some tags have a style set by a style sheet (CSS format).
The text data 710a, the image reference data 720, and the text data 730a correspond to the text 310a, the image 320, and the text 330a of the Web page before translation (FIG. 3A), respectively.

画像の参照データ720が参照する画像は、所定の領域(幅840ピクセル,高さ120ピクセル)の上から0ピクセル,左から0ピクセルの位置に左上の頂点を合わせて、幅840ピクセル,高さ120ピクセルで表示されるように設定されている。一方、テキストデータ730aに対応するテキストは、上記所定の領域(幅840ピクセル,高さ120ピクセル)の上から30ピクセルの位置に通常通りに表示されるように設定されている(ここでは、センタリング等)。したがって、上記の所定の領域において、画像とテキストは重なって表示される。
なお、Webページ内の要素はHTMLの記述順に重なる(後ろに記述された要素が前面に表示される)ため図7(a)の例では特に設定していないが、重ね合わせの順序を明示的に設定してもよい。重ね合わせ順序は、例えば「z-index」属性の値(数値)の大小により設定することができる。
The image referred to by the image reference data 720 has a width of 840 pixels and a height of the predetermined area (width 840 pixels, height 120 pixels) with the top left vertex aligned with 0 pixels from the top and 0 pixels from the left. It is set to display at 120 pixels. On the other hand, the text corresponding to the text data 730a is set so as to be normally displayed at a position of 30 pixels from the top of the predetermined area (width 840 pixels, height 120 pixels) (here, centering) etc). Therefore, the image and the text are displayed so as to overlap in the predetermined area.
Note that the elements in the Web page overlap in the HTML description order (elements described later are displayed in the front), and thus are not particularly set in the example of FIG. May be set. The superposition order can be set, for example, depending on the value (numerical value) of the “z-index” attribute.

[(b)翻訳処理]
実施形態1における翻訳処理の流れを、図8のフローチャートを参照して詳細に説明する。
図8に示すように、翻訳サーバ12は、下記〔手順31〕〜〔手順34〕によりHTMLデータを翻訳する。
[(B) Translation processing]
The flow of the translation process in the first embodiment will be described in detail with reference to the flowchart of FIG.
As shown in FIG. 8, the translation server 12 translates the HTML data according to the following [Procedure 31] to [Procedure 34].

〔手順31〕
HTMLの基準URLを変更する(S810)。
具体的には、相対URL形式で記述された参照データ等(例えば、参照データ720(図7(a))中のsrc属性の値)のURLが基準とするURLを、<base>タグのhref属性の値として絶対URL形式で記述する。ここでは、ユーザ端末20から受信した検索要求(図6)に含まれる「翻訳対象WebページのURL」を基準URLとする。
なお、HTML内のURLが全て絶対URL形式で記述されているという前提であれば、基準URLを変更する処理を省略してもよい。また、相対URL形式で記述された全てのURLを個別に絶対URL形式に書き換えても同一の効果を得ることができる。
[Procedure 31]
The HTML reference URL is changed (S810).
Specifically, the URL based on the URL of the reference data described in the relative URL format (for example, the value of the src attribute in the reference data 720 (FIG. 7A)) is used as the <base> tag href. It is described in the absolute URL format as the attribute value. Here, the “URL of the Web page to be translated” included in the search request (FIG. 6) received from the user terminal 20 is set as the reference URL.
If it is assumed that all URLs in HTML are described in the absolute URL format, the process of changing the reference URL may be omitted. The same effect can be obtained even if all URLs described in the relative URL format are individually rewritten in the absolute URL format.

〔手順32〕
HTMLデータ内で要素(エレメント)の内容(コンテンツ)となっているテキストデータを1つ抽出し(S820)、抽出したテキストデータ(原文)を「第1言語」から「第2言語」へと翻訳して翻訳文を生成する(S830)。
なお、翻訳サーバ12は、テキストの翻訳に当たり翻訳DB14に記憶している辞書データを参照する。
[Procedure 32]
One piece of text data that is the content of the element in the HTML data is extracted (S820), and the extracted text data (original text) is translated from “first language” to “second language”. Then, a translated sentence is generated (S830).
The translation server 12 refers to the dictionary data stored in the translation DB 14 when translating text.

〔手順33〕
必要に応じて翻訳文のサイズを補正し(S840)、抽出したテキストデータを翻訳文に置換する(S850)。
例えば、上記<従来例4>と同様の手法により、文字列長を比較した上で翻訳文の長さを補正するとよい。なお、上記<従来例5>と同様の手法により、所定の条件を満たす語句を翻訳文中から抽出し、所定の方法により生成した省略語に置換してもよい。この場合、省略語の定義を掲載したWebページを別途生成した上で、翻訳後のWebページには省略語の定義を掲載したWebページへのリンクを表示するとよい。また、省略語にポインタを合わせたときに省略対象語句がポップアップ表示されるように構成してもよい。
[Procedure 33]
If necessary, the size of the translated sentence is corrected (S840), and the extracted text data is replaced with the translated sentence (S850).
For example, the length of the translated sentence may be corrected after comparing the character string lengths by the same method as in the above <Conventional Example 4>. Note that words similar to the above <Conventional Example 5> may be extracted from the translated sentence by words that satisfy a predetermined condition and replaced with abbreviations generated by a predetermined method. In this case, it is preferable to separately generate a Web page on which the abbreviation definition is posted, and display a link to the Web page on which the abbreviation definition is posted on the translated Web page. Moreover, you may comprise so that an abbreviation target phrase may be pop-up displayed when a pointer is put on the abbreviation.

〔手順34〕
翻訳したテキストデータが、HTMLデータ内で要素の内容となっている最後のテキストデータか否かを判定する(S860)。
具体的には、HTMLデータ内で要素の内容となっている次のテキストデータを検索し、次のテキストデータが検出されないときに、直前に翻訳したテキストデータが最後のテキストデータであると判定する。最後のテキストデータでないとき(S860でNo)、上記〔手順32〕に戻り、次のテキストデータについて抽出〜置換の処理(〔手順32〕〜〔手順33〕)を繰り返す。一方、最後のテキストデータであるとき(S860でYes)、ループを抜ける。
[Procedure 34]
It is determined whether or not the translated text data is the last text data that is the content of the element in the HTML data (S860).
Specifically, the next text data which is the content of the element in the HTML data is searched, and when the next text data is not detected, it is determined that the text data translated immediately before is the last text data. . If it is not the last text data (No in S860), the process returns to the above [Procedure 32], and the extraction to replacement process ([Procedure 32] to [Procedure 33]) is repeated for the next text data. On the other hand, when it is the last text data (Yes in S860), the loop is exited.

[(c)翻訳後のHTMLデータ]
図7(b)に、実施形態1における翻訳後のHTMLデータの一部を例示する。
図7(b)は、図7(a)のHTMLデータを図8のフローチャートに示す処理により翻訳した後のHTMLデータである。
[(C) HTML data after translation]
FIG. 7B illustrates a part of the translated HTML data in the first embodiment.
FIG. 7B is HTML data after the HTML data of FIG. 7A is translated by the process shown in the flowchart of FIG.

翻訳後のHTMLデータには、テキストデータ710aが翻訳されたテキストデータ710b,翻訳前後において変化しない画像の参照データ720,テキストデータ730aが翻訳されたテキストデータ730bが含まれている。また、基準URLを明示するタグ740bが追加されている。
テキストデータ710b,画像の参照データ720,テキストデータ730bは、それぞれ翻訳後のWebページ(図3(b))のテキスト310b,画像320,テキスト330bに対応する。
なお、テキストデータ710bの文字サイズは、上記〔手順33〕の補正処理(図8のS840)により通常の90%に補正されている。その他のデータの設定には特に変更がない。
The translated HTML data includes text data 710b obtained by translating text data 710a, image reference data 720 that does not change before and after translation, and text data 730b obtained by translating text data 730a. Further, a tag 740b that clearly indicates the reference URL is added.
The text data 710b, the image reference data 720, and the text data 730b correspond to the text 310b, the image 320, and the text 330b of the translated Web page (FIG. 3B), respectively.
Note that the character size of the text data 710b is corrected to 90% of the normal size by the correction process (S840 in FIG. 8) of [Procedure 33]. The other data settings are not particularly changed.

[2−3.実施形態2の機械翻訳処理手順等]
[(a)翻訳前のHTMLデータ]
図9(a)に、実施形態2における翻訳前のHTMLデータの一部を例示する。
翻訳前のHTMLデータには、テキストデータ910aの他に、画像の参照データ920aと、テキストデータ930aとが含まれている。また、いくつかのタグには、スタイルシート(CSS形式)によりスタイルが設定されている。
テキストデータ910a,画像の参照データ920aは、それぞれ翻訳前のWebページ(図4(a−1))のテキスト410a,画像420に対応する。また、テキストデータ930aは、翻訳前のWebページが有する不可視化されたテキストデータ430a(図4(a−2))に対応する。
[2-3. Machine translation processing procedure of embodiment 2]
[(A) HTML data before translation]
FIG. 9A illustrates a part of the pre-translation HTML data in the second embodiment.
The HTML data before translation includes image reference data 920a and text data 930a in addition to text data 910a. Some tags have a style set by a style sheet (CSS format).
The text data 910a and the image reference data 920a correspond to the text 410a and the image 420 of the Web page before translation (FIG. 4A-1), respectively. The text data 930a corresponds to the invisible text data 430a (FIG. 4 (a-2)) included in the web page before translation.

画像の参照データ920aが参照する画像は、所定の領域(幅840ピクセル,高さ120ピクセル)の上から0ピクセル,左から0ピクセルの位置に左上の頂点を合わせて、幅840ピクセル,高さ120ピクセルで表示されるように設定されている。
一方、テキストデータ930aに対応するテキストは、上記所定の領域(幅840ピクセル,高さ120ピクセル)の上から30ピクセルの位置に通常通りに表示されるように設定されている(ここでは、センタリング等)。ただし、テキストデータ930aに対応するテキストは不可視化されている(文字色属性の値が透明(transparent)に設定されている)ため、Webブラウザのウィンドウ内では視認できない。
The image referred to by the image reference data 920a has a width of 840 pixels and a height of the predetermined area (width 840 pixels, height 120 pixels) with the top left vertex aligned with the position of 0 pixels from the top and 0 pixels from the left. It is set to display at 120 pixels.
On the other hand, the text corresponding to the text data 930a is set so as to be normally displayed at a position of 30 pixels from the top of the predetermined area (width 840 pixels, height 120 pixels) (here, centering) etc). However, since the text corresponding to the text data 930a is invisible (the character color attribute value is set to transparent), it cannot be viewed in the window of the Web browser.

[(b)翻訳処理]
実施形態2における翻訳処理の流れを、図10のフローチャートを参照して説明する。
図10に示すように、翻訳サーバ12は、上記〔手順31〕〜〔手順34〕(実施形態1と同様)に加え、下記〔手順35〕によりHTMLデータを翻訳する。
なお、図10のフローチャートにおいて、図8のフローチャートに示した処理と同一の符号が付されている処理は、同一の処理を示す。
[(B) Translation processing]
The flow of translation processing in the second embodiment will be described with reference to the flowchart of FIG.
As shown in FIG. 10, the translation server 12 translates the HTML data according to the following [Procedure 35] in addition to the above [Procedure 31] to [Procedure 34] (similar to the first embodiment).
In the flowchart of FIG. 10, processes denoted by the same reference numerals as those shown in the flowchart of FIG. 8 indicate the same processes.

〔手順35〕
不可視化されている全ての翻訳文を可視化する(S1070)とともに、可視化した翻訳文と重なる全ての画像を不可視化する(S1080)。
例えば図9(a)の例では、class属性の値が「class_11」である「<div>」タグのclass属性を削除する。これにより、テキストデータ930aに対応するテキスト(明示的に不可視化されていたテキスト)は、親要素の属性を継承して可視化される(文字色属性が透明から有色に変更される)。また、class属性の値が「class_21」である「<img>」タグのclass属性の値を「class_22」に変更する。これにより、画像の参照データ920aに対応する画像(明示的に可視化されていた画像)は、明示的に不可視化される(表示属性が表示から非表示に変更される)。
なお、翻訳文の可視化及び/又は画像の不可視化は、上記のようにクラス属性を一括で適用して行ってもよいし、該当するタグごとに個別に行ってもよい。
[Procedure 35]
All the translated sentences that have been made invisible are visualized (S1070), and all images that overlap the visualized translated sentences are made invisible (S1080).
For example, in the example of FIG. 9A, the class attribute of the “<div>” tag whose class attribute value is “class_11” is deleted. As a result, the text corresponding to the text data 930a (text that has been explicitly invisible) is inherited and inherited from the parent element attribute (the character color attribute is changed from transparent to colored). In addition, the value of the class attribute of the “<img>” tag whose class attribute value is “class_21” is changed to “class_22”. As a result, the image corresponding to the image reference data 920a (the image that has been explicitly visualized) is explicitly invisible (the display attribute is changed from display to non-display).
Note that the visualization of the translation and / or the invisibility of the image may be performed by collectively applying the class attributes as described above, or may be performed individually for each corresponding tag.

[(c)翻訳後のHTMLデータ]
図9(b)に、実施形態2における翻訳後のHTMLデータの一部を例示する。
図9(b)は、図9(a)のHTMLデータを図10のフローチャートに示す処理により翻訳した後のHTMLデータである。
[(C) HTML data after translation]
FIG. 9B illustrates a part of the translated HTML data in the second embodiment.
FIG. 9B shows HTML data after the HTML data of FIG. 9A is translated by the process shown in the flowchart of FIG.

翻訳後のHTMLデータには、テキストデータ910aが翻訳されたテキストデータ910b,参照データ920aが不可視化された参照データ920b,テキストデータ930aが翻訳され可視化されたテキストデータ930bが含まれている。また、基準URLを明示するタグ940bが追加されている。
テキストデータ910b,テキストデータ930bは、それぞれ翻訳後のWebページ(図4(b))のテキスト410b,テキスト430bに対応する。
なお、テキストデータ910bの文字サイズは、上記〔手順33〕の補正処理(図10のS840)により通常の90%に補正されている。その他のデータの設定には、特に明示したものを除き変更がない。
The translated HTML data includes text data 910b obtained by translating text data 910a, reference data 920b obtained by making reference data 920a invisible, and text data 930b obtained by translating and visualizing text data 930a. Further, a tag 940b that clearly indicates the reference URL is added.
The text data 910b and text data 930b correspond to the text 410b and text 430b of the translated Web page (FIG. 4B), respectively.
Note that the character size of the text data 910b is corrected to 90% of the normal size by the correction process of [Procedure 33] (S840 in FIG. 10). There are no changes to the settings of other data, unless otherwise specified.

[3.変形例等]
[3−1.システム構成の変形例]
[(a)翻訳サーバが遠隔地にある構成]
上述の実施形態では、Webサーバ11と翻訳サーバ12とをLAN等のプライベートネットワークを介して接続している(図2)。これは、両サーバが同一の事業者の管理下にあることを想定した構成である。
これに対し、図11に示すように、Webサーバ11と翻訳サーバ12とをインターネット30等のパブリックネットワークを介して接続してもよい。これは、Webサーバ11又は翻訳サーバ12が遠隔地(例えば、他の事業所,遠隔地のデータセンター,他の事業者の管理下等)にあることを想定した構成である。
[3. Modifications etc.]
[3-1. Modification of system configuration]
[(A) Configuration in which the translation server is in a remote location]
In the above-described embodiment, the Web server 11 and the translation server 12 are connected via a private network such as a LAN (FIG. 2). This is a configuration assuming that both servers are under the control of the same operator.
On the other hand, as shown in FIG. 11, the Web server 11 and the translation server 12 may be connected via a public network such as the Internet 30. This is a configuration that assumes that the Web server 11 or the translation server 12 is in a remote location (for example, under the control of another business location, a remote data center, or another business operator).

[(b)Webサーバが翻訳処理機能を備える構成]
上述の実施形態では、Webサーバ11と翻訳サーバ12とにより機械翻訳システム10を構成している(図2)。これは、ハードウェアごとに特定の処理機能に特化し、負荷分散を図った構成である。
これに対し、機械翻訳処理の全てのステップをWebサーバ11が実行するように構成してもよい。この場合、図12に示すように、Webサーバ11はWebDB13と翻訳DB14とを有する。また、ユーザ端末20から翻訳要求を受信して、翻訳対象のHTMLデータを取得し、翻訳処理を実行し、翻訳後のHTMLデータ及び必要な画像データを送信する処理の主体は、全てWebサーバ11となる。
[(B) Configuration in which Web Server has Translation Processing Function]
In the above-described embodiment, the machine translation system 10 is configured by the Web server 11 and the translation server 12 (FIG. 2). This is a configuration that specializes in a specific processing function for each hardware and achieves load distribution.
On the other hand, you may comprise so that the web server 11 may perform all the steps of a machine translation process. In this case, as shown in FIG. 12, the Web server 11 includes a Web DB 13 and a translation DB 14. Also, the main body of the process of receiving the translation request from the user terminal 20, acquiring the HTML data to be translated, executing the translation process, and transmitting the translated HTML data and necessary image data is all the Web server 11. It becomes.

[3−2.処理分担の変形例]
上述の実施形態では、Webサーバ11はHTMLデータ又は画像データを送信する処理に特化している。同様に、翻訳サーバ12はユーザ端末20から翻訳要求を受信して翻訳後のHTMLデータを生成し、ユーザ端末20に送信する処理に特化している(図5)。
これに対し、ユーザ端末20から翻訳要求を受信する処理及び翻訳後のHTMLデータをユーザ端末20に送信する処理をWebサーバ11が担当することとし、翻訳サーバ12はWebページの翻訳処理(図8のS810〜S860,図10のS810〜S1080)のみに特化するように構成してもよい。
[3-2. Variation of processing sharing]
In the above-described embodiment, the Web server 11 specializes in processing for transmitting HTML data or image data. Similarly, the translation server 12 specializes in processing that receives a translation request from the user terminal 20, generates translated HTML data, and transmits it to the user terminal 20 (FIG. 5).
In contrast, the Web server 11 is in charge of the process of receiving a translation request from the user terminal 20 and the process of transmitting the translated HTML data to the user terminal 20, and the translation server 12 translates the Web page (FIG. 8). S810-S860, S810-S1080 in FIG. 10) may be specialized.

[3−3.スタイル設定の変形例]
[(a)不可視化されているテキストの可視化の変形例]
不可視化されているテキストを可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素のvisibility属性(表示属性)を「hidden」から「visible」(デフォルト)に変更する
・テキストデータそのもの又は該テキストデータを内容とする要素全体を挟んでいるコメントタグを削除する。
[3-3. Variation of style settings]
[(A) Modified example of visualization of invisible text]
In the process of visualizing the invisible text, for example, the following method may be adopted in consideration of consistency with other setting items.
-Change the visibility attribute (display attribute) of the <div> element from "hidden" to "visible" (default).-Delete the comment tag that sandwiches the text data itself or the entire element containing the text data.

[(b)可視化されている画像の不可視化の変形例]
可視化されている画像を不可視化する処理では、他の設定項目との整合性を考慮した上で、例えば次の手法を採用してもよい。
・<div>要素全体又は<img>タグをコメントタグで挟む(コメントアウトする)
・<div>要素全体又は<img>タグを削除する
・<div>要素のvisibility属性(表示属性)を「visible」(デフォルト)から「hidden」に変更する
・<div>要素又は<img>タグのdisplay属性(表示形式)を「none」に変更する
[(B) Modified example of invisible image being visualized]
In the process of making the visualized image invisible, for example, the following method may be adopted in consideration of consistency with other setting items.
-Insert the entire <div> element or <img> tag between comment tags (comment out)
-Delete the entire <div> element or <img> tag-Change the visibility attribute (display attribute) of the <div> element from "visible" (default) to "hidden"-<div> element or <img> tag Change the display attribute (display format) to "none"

[(c)不可視化の概念]
上述の実施形態2では、不可視化という用語を、「全く視認できない」ようにする処理を包含する概念として用いている。
これに対し、半透明に設定する,透過性を高める,グレイアウトする,極めて薄い色に設定する(RGBの各値をいずれも概ね200以上に設定する)等、ユーザが「殆ど視認できない」ようにする処理によっても、「不可視化」と同様の効果を奏する場合がある。したがって、これらの処理も「不可視化」と実質的に等価である。
[(C) Concept of invisibility]
In the above-described second embodiment, the term “invisible” is used as a concept including a process of making “not visible at all”.
On the other hand, the user may be “almost invisible” by setting semi-transparency, increasing transparency, graying out, setting to a very light color (all RGB values are set to approximately 200 or more). Depending on the processing, the same effect as “invisibility” may be obtained. Therefore, these processes are also substantially equivalent to “invisible”.

[3−4.スタイル設定の変形例]
上述の実施形態1では、HTMLのタグに個別にスタイルを設定している(図7)。また、上述の実施形態2では、HTMLソース内で定義したスタイルを特定のクラス名が付された全てのタグに適用するようにしている(図9)。
これに対し、所定のスタイルシート言語(例えば、CSS(Cascading Style Sheets))で記述した外部ファイルを参照することによりスタイルを適用してもよい。また、スタイルを全てHTMLタグの属性により設定してもよい。
[3-4. Variation of style settings]
In the first embodiment, the style is individually set for the HTML tag (FIG. 7). In the second embodiment described above, the style defined in the HTML source is applied to all tags with specific class names (FIG. 9).
On the other hand, the style may be applied by referring to an external file described in a predetermined style sheet language (for example, CSS (Cascading Style Sheets)). Further, all styles may be set according to the attributes of the HTML tag.

[4.ソースコードの記載例,Webページの表示例]
図13に例示するHTMLのソースに対し、図14に例示するスタイルシートのソース(ファイル名「test.css」)を関連付ける。このとき、HTML中のテキストの表示位置は、図15に例示する画像(ファイル名「test.gif」)に合わせて、図16に例示するようにそれぞれ設定される。なお、図16は、最上部の白色文字が明確になるように背景を灰色にして示した。
図17に、図13に例示するHTMLのソースをWebブラウザに読み込んだWebページ表示例を示す。このように、画像の背景部分と文字部分とを分離して2層構成(画像のレイヤ,テキストのレイヤ)にすることで、文字部分のみを機械翻訳の対象にすることができる。なお、図17に示す表示例は、文字と一体化された画像(図18)と比較しても、十分な表現性を備えている。
[4. Source code description example, Web page display example]
The stylesheet source (file name “test.css”) illustrated in FIG. 14 is associated with the HTML source illustrated in FIG. At this time, the display position of the text in the HTML is set as illustrated in FIG. 16 according to the image (file name “test.gif”) illustrated in FIG. In FIG. 16, the background is shown in gray so that the uppermost white character is clear.
FIG. 17 shows a Web page display example in which the HTML source illustrated in FIG. 13 is read into a Web browser. In this way, by separating the background portion and the character portion of the image into a two-layer structure (image layer, text layer), only the character portion can be subjected to machine translation. Note that the display example shown in FIG. 17 has sufficient expressibility even when compared with an image integrated with characters (FIG. 18).

(従来例)(a)翻訳前のWebページの一部,(b)翻訳後のWebページの一部を示す図である。(Conventional example) (a) Part of a Web page before translation, (b) Part of a Web page after translation. システムの構成例を示す図である。It is a figure which shows the structural example of a system. (実施形態1)(a)翻訳前のWebページの一部,(b)翻訳後のWebページの一部を示す図である。(Embodiment 1) (a) Part of a Web page before translation, (b) Part of a Web page after translation. (実施形態2)(a−1)翻訳前のWebページの一部,(a−2)翻訳前のWebページが有する不可視化されたデータ,(b)翻訳後のWebページの一部を示す図である。(Embodiment 2) (a-1) Part of Web page before translation, (a-2) Invisible data of Web page before translation, (b) Part of Web page after translation FIG. (実施形態)機械翻訳手順を示すシーケンスチャートである。(Embodiment) It is a sequence chart which shows a machine translation procedure. (実施形態)翻訳要求の主要な項目を示す図である。(Embodiment) It is a figure which shows the main items of a translation request. (実施形態1)(a)翻訳前のHTMLソースの一部,(b)翻訳後のHTMLソースの一部を示す図である。(Embodiment 1) (a) A part of HTML source before translation, (b) A part of HTML source after translation. (実施形態1)翻訳処理の流れを示すフローチャートである。(Embodiment 1) It is a flowchart which shows the flow of a translation process. (実施形態2)(a)翻訳前のHTMLソースの一部,(b)翻訳後のHTMLソースの一部を示す図である。(Embodiment 2) (a) Part of HTML source before translation, (b) Part of HTML source after translation. (実施形態2)翻訳処理の流れを示すフローチャートである。(Embodiment 2) It is a flowchart which shows the flow of a translation process. (他の実施形態)システム構成の変形例を示す図である。(Other embodiment) It is a figure which shows the modification of a system configuration | structure. (他の実施形態)システム構成の変形例を示す図である。(Other embodiment) It is a figure which shows the modification of a system configuration | structure. (他の実施形態)HTMLデータのソースの記載例である。(Other Embodiments) This is a description example of a source of HTML data. (他の実施形態)スタイルシートのソースの記載例である。(Other Embodiments) This is a description example of a style sheet source. (他の実施形態)参照画像の表示例である。(Other Embodiments) This is a display example of a reference image. (他の実施形態)テキストの表示位置を例示する図である。(Other embodiment) It is a figure which illustrates the display position of a text. (他の実施形態)日本語のWebページの表示例である。(Other Embodiments) This is a display example of a Japanese Web page. (他の実施形態)文字を含む画像の表示例である。(Other Embodiments) This is a display example of an image including characters.

符号の説明Explanation of symbols

10 機械翻訳システム
11 Webサーバ
12 翻訳サーバ
13 WebDB
14 翻訳DB
20 ユーザ端末
30 インターネット
40 ルータ
10 Machine Translation System 11 Web Server 12 Translation Server 13 WebDB
14 Translation DB
20 User terminal 30 Internet 40 Router

Claims (10)

ある言語で表現されたWebページを提供するとともに、該Webページを他の言語に翻訳する機械翻訳システムであって、
Webページを閲覧するユーザの端末と通信ネットワークを介して接続しており、
ある言語で表現されたWebページの構造を記述するHTMLデータと、HTMLデータが参照する画像データとを少なくとも記憶するWebデータ記憶手段と、
テキストの翻訳処理に利用される辞書データを少なくとも記憶する翻訳データ記憶手段と
を有し、
前記Webデータ記憶手段に記憶するHTMLデータは、文字を含み可視化されている画像を示す文字画像と、該文字画像に重なる所定位置の前面に表示位置が設定され、かつ不可視化されている前記ある言語のテキストを示す予備テキストとの組を少なくとも1組含み、
翻訳対象のWebページに対応するURLと、翻訳先言語の指定データとを少なくとも含む翻訳要求を前記端末から受信する翻訳要求受信手段と、
前記受信したURLに対応するWebページの構造を記述するHTMLデータを前記Webデータ記憶手段より取得するHTMLデータ取得手段と、
前記翻訳データ記憶手段に記憶している辞書データを参照して、前記取得したHTMLデータ中の前記予備テキストを含む所定の翻訳対象テキストを前記受信した指定データに対応する翻訳先言語に翻訳するテキスト翻訳手段と、
前記取得したHTMLデータ中の不可視化されており且つ前記テキスト翻訳手段により翻訳された前記予備テキストを可視化するとともに、該HTMLデータ中の可視化されている前記文字画像を不可視化する可視化要素切替手段と、
前記可視化要素切替手段により処理された前記HTMLデータを前記端末に送信する翻訳済HTMLデータ送信手段と、
前記端末からの画像データを指定した送信要求に応じて、該指定された画像データを前記Webデータ記憶手段より読み出して該端末に送信する画像データ送信手段と
を備える
ことを特徴とする機械翻訳システム。
A machine translation system that provides a web page expressed in a language and translates the web page into another language,
Connected to the terminal of the user viewing the web page via a communication network,
Web data storage means for storing at least HTML data describing the structure of a Web page expressed in a language and image data referred to by the HTML data;
Translation data storage means for storing at least dictionary data used for text translation processing;
The HTML data stored in the Web data storage means is a character image showing an image including characters and visualized, and a display position is set in front of a predetermined position overlapping the character image, and is made invisible Including at least one pair with preliminary text indicating language text,
A translation request receiving means for receiving, from the terminal, a translation request including at least a URL corresponding to a web page to be translated and designation data of a translation destination language;
HTML data acquisition means for acquiring HTML data describing the structure of the Web page corresponding to the received URL from the Web data storage means;
Text that translates a predetermined translation target text including the preliminary text in the acquired HTML data into a translation destination language corresponding to the received specified data with reference to dictionary data stored in the translation data storage means Translation means;
Visualization element switching means for visualizing the preliminary text that has been made invisible in the acquired HTML data and translated by the text translation means , and for making the character image visualized in the HTML data invisible ,
And translated HTML data transmitting means for transmitting the HTML data processed by the visualization element switching means prior SL terminal,
A machine translation system comprising: image data transmission means for reading the designated image data from the Web data storage means and transmitting it to the terminal in response to a transmission request designating image data from the terminal. .
請求項1に記載の機械翻訳システムにおいて、
前記可視化要素切替手段は、テキストの文字色属性を透明から有色に変更し、テキストを含む領域の表示属性を非表示から表示に変更し又はテキストを含む領域のタグを挟むコメントタグを削除する、ことにより不可視化されている前記予備テキストを可視化する
ことを特徴とする機械翻訳システム。
The machine translation system according to claim 1,
The visualization element switching unit changes the text color attribute of the text from transparent to colored, changes the display attribute of the area including the text from non-display to display, or deletes the comment tag sandwiching the tag of the area including the text. A machine translation system characterized in that the preliminary text that has been made invisible is visualized.
請求項1又は2に記載の機械翻訳システムにおいて、
前記可視化要素切替手段は、画像の表示属性を表示から非表示に変更し、画像に対応するタグを削除し、画像に対応するタグをコメントタグで挟み、画像を含む領域の表示属性を表示から非表示に変更し又は画像を含む領域に対応するタグをコメントタグで挟む、ことにより可視化されている前記文字画像を不可視化する
ことを特徴とする機械翻訳システム。
The machine translation system according to claim 1 or 2,
The visualization element switching means changes the display attribute of the image from display to non-display, deletes the tag corresponding to the image, sandwiches the tag corresponding to the image with a comment tag, and displays the display attribute of the region including the image A machine translation system characterized in that the character image that has been visualized is made invisible by changing the display to non-display or inserting a tag corresponding to a region including an image with a comment tag.
請求項1〜3のいずれか1項に記載の機械翻訳システムにおいて、
前記翻訳済HTMLデータ送信手段は、前記取得したHTMLデータの基準URLを、前記受信した翻訳要求に含まれる翻訳対象のWebページのURLに変更する
ことを特徴とする機械翻訳システム。
The machine translation system according to any one of claims 1 to 3,
The translated HTML data transmission means changes a reference URL of the acquired HTML data to a URL of a Web page to be translated included in the received translation request.
請求項1〜4のいずれか1項に記載の機械翻訳システムにおいて、
前記翻訳済HTMLデータ送信手段は、翻訳後の前記予備テキストの長さが前記取得したHTML中の翻訳前の前記予備テキストの長さと比較して一定以上長いとき、該翻訳後の前記予備テキストの長さを短く補正する
ことを特徴とする機械翻訳システム。
In the machine translation system according to any one of claims 1 to 4,
The translated HTML data transmission means, when the length of the preliminary text after translation is longer than a predetermined length compared with the length of the preliminary text before translation in the acquired HTML, A machine translation system characterized by correcting the length to be shorter.
ある言語で表現されたWebページを提供するとともに、該Webページを他の言語に翻訳する機械翻訳システムによる機械翻訳方法であって、
前記機械翻訳システムは、Webページを閲覧するユーザの端末と通信ネットワークを介して接続しており、
ある言語で表現されたWebページの構造を記述するHTMLデータと、HTMLデータが参照する画像データとを少なくとも記憶するWebデータ記憶手段と、
テキストの翻訳処理に利用される辞書データを少なくとも記憶する翻訳データ記憶手段とを有し、
前記Webデータ記憶手段に記憶するHTMLデータは、可視化されている画像を示す文字画像と、該文字画像に重なる所定位置の前面に表示位置が設定され、かつ不可視化されている前記ある言語のテキストを示す予備テキストとの組を少なくとも1組含み、
翻訳対象のWebページに対応するURLと、翻訳先言語の指定データとを少なくとも含む翻訳要求を前記端末から受信する翻訳要求受信ステップと、
前記受信したURLに対応するWebページの構造を記述するHTMLデータを前記Webデータ記憶手段より取得するHTMLデータ取得ステップと、
前記翻訳データ記憶手段に記憶している辞書データを参照して、前記取得したHTMLデータ中の前記予備テキストを含む所定の翻訳対象テキストを前記受信した指定データに対応する翻訳先言語に翻訳するテキスト翻訳ステップと、
前記取得したHTMLデータ中の不可視化されており且つ前記テキスト翻訳ステップにおいて翻訳された前記予備テキストを可視化するとともに、該HTMLデータ中の可視化されている前記文字画像を不可視化する可視化要素切替ステップと、
前記可視化要素切替ステップにおいて処理された前記HTMLデータを前記端末に送信する翻訳済HTMLデータ送信ステップと、
前記端末からの画像データを指定した送信要求に応じて、該指定された画像データを前記Webデータ記憶手段より読み出して該端末に送信する画像データ送信ステップと
を備える
ことを特徴とする機械翻訳方法。
A machine translation method by a machine translation system that provides a web page expressed in a language and translates the web page into another language,
The machine translation system is connected to a terminal of a user who browses a web page via a communication network,
Web data storage means for storing at least HTML data describing the structure of a Web page expressed in a language and image data referred to by the HTML data;
Translation data storage means for storing at least dictionary data used for text translation processing;
The HTML data stored in the Web data storage means includes a character image indicating a visualized image, and a text in a certain language in which a display position is set in front of a predetermined position overlapping the character image and is invisible. Including at least one pair with a preliminary text indicating
A translation request receiving step of receiving from the terminal a translation request including at least a URL corresponding to a web page to be translated and designation data of a translation destination language;
An HTML data acquisition step of acquiring HTML data describing the structure of a Web page corresponding to the received URL from the Web data storage means;
Text that translates a predetermined translation target text including the preliminary text in the acquired HTML data into a translation destination language corresponding to the received specified data with reference to dictionary data stored in the translation data storage means A translation step,
A visualization element switching step of visualizing the preliminary text that has been made invisible in the acquired HTML data and translated in the text translation step, and that makes the character image visualized in the HTML data invisible; ,
And translated HTML data transmitting step of transmitting the HTML data processed in the visualization element switching step prior SL terminal,
A machine translation method comprising: an image data transmission step of reading the designated image data from the Web data storage unit and transmitting the image data to the terminal in response to a transmission request designating the image data from the terminal. .
請求項1〜5のいずれか1項に記載の機械翻訳システムが備える各手段を1又は複数のコンピュータに機能として実現させるためのプログラム。   A program for causing each means included in the machine translation system according to any one of claims 1 to 5 to be realized as a function by one or a plurality of computers. 文字を含み可視化されている文字画像と、該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得手段と、
Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替手段と、
前記可視化要素切替処理が実行されたソースを出力する出力手段と、
を備える情報処理装置。
A source describing a structure of a Web page to be translated that includes at least one set of a character image that includes characters and is visualized, and a preliminary text whose display position is set so as to overlap the character image and is invisible Acquisition means for acquiring;
The visualization element switching process to invisible pre Symbol character images together when visualizing the more translated the preliminary text translation means for translating the translated text in the source describing the structure of the Web page, the obtained source Visualization element switching means to be executed for
Output means for outputting the source on which the visualization element switching processing has been executed;
An information processing apparatus comprising:
文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得ステップと、
Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替ステップと、
前記可視化要素切替処理が実行されたソースを出力する出力ステップと、
を含む、コンピュータによる情報処理方法。
A source that describes the structure of a Web page to be translated including at least one set of a character image that includes characters and is visualized and a preliminary text whose display position is set so as to overlap the character image and is made invisible An acquisition step to acquire;
The visualization element switching process to invisible pre Symbol character images together when visualizing the more translated the preliminary text translation means for translating the translated text in the source describing the structure of the Web page, the obtained source A visualization element switching step to be executed for
An output step of outputting a source on which the visualization element switching process has been executed;
An information processing method using a computer.
文字を含みかつ可視化されている文字画像と該文字画像に重なるように表示位置が設定されかつ不可視化されている予備テキストとの組を少なくとも1組含む翻訳対象Webページの構造を記述するソースを取得する取得機能と、
Webページの構造を記述するソース中の翻訳対象テキストを翻訳する翻訳手段により翻訳された前記予備テキストを可視化するとともに前記文字画像を不可視化する可視化要素切替処理を、前記取得されたソースに対して実行する可視化要素切替機能と、
前記可視化要素切替処理が実行されたソースを出力する出力機能と、
をコンピュータに実行させるためのプログラム。
A source that describes the structure of a Web page to be translated including at least one set of a character image that includes characters and is visualized and a preliminary text whose display position is set so as to overlap the character image and is made invisible An acquisition function to acquire,
The visualization element switching process to invisible pre Symbol character images together when visualizing the more translated the preliminary text translation means for translating the translated text in the source describing the structure of the Web page, the obtained source Visualization element switching function executed for
An output function for outputting a source on which the visualization element switching process has been executed;
A program that causes a computer to execute.
JP2008334468A 2008-12-26 2008-12-26 Machine translation system and machine translation method Active JP5483526B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008334468A JP5483526B2 (en) 2008-12-26 2008-12-26 Machine translation system and machine translation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008334468A JP5483526B2 (en) 2008-12-26 2008-12-26 Machine translation system and machine translation method

Publications (2)

Publication Number Publication Date
JP2010157066A JP2010157066A (en) 2010-07-15
JP5483526B2 true JP5483526B2 (en) 2014-05-07

Family

ID=42574966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008334468A Active JP5483526B2 (en) 2008-12-26 2008-12-26 Machine translation system and machine translation method

Country Status (1)

Country Link
JP (1) JP5483526B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102959537B (en) * 2010-06-25 2015-07-22 乐天株式会社 Machine translation system and method of machine translation
KR101410558B1 (en) * 2011-04-28 2014-06-20 라쿠텐 인코포레이티드 Browsing system, terminal, image server, computer-readable recording medium recording said program, and method
US9690783B2 (en) 2013-03-29 2017-06-27 Rakuten, Inc. Image conversion and method for converting text in an image into a targeted language

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997048058A1 (en) * 1996-06-14 1997-12-18 Logovista Corporation Automated translation of annotated text
JP3946916B2 (en) * 1999-10-12 2007-07-18 東芝ソリューション株式会社 Translation system and recording medium
JP2001344238A (en) * 2000-03-31 2001-12-14 Fujitsu Ltd Document processing device, recording medium, and program
JP2002049555A (en) * 2000-08-02 2002-02-15 Hiromune Kaneki Display method for postscript information and recording medium for postscript information display
JP3809863B2 (en) * 2002-02-28 2006-08-16 インターナショナル・ビジネス・マシーンズ・コーポレーション server
JP5235135B2 (en) * 2008-12-26 2013-07-10 楽天株式会社 Machine translation system and machine translation method

Also Published As

Publication number Publication date
JP2010157066A (en) 2010-07-15

Similar Documents

Publication Publication Date Title
JP4658236B1 (en) Machine translation system and machine translation method
US11681417B2 (en) Accessibility verification and correction for digital content
US9047261B2 (en) Document editing method
JP4344693B2 (en) System and method for browser document editing
US20120072831A1 (en) Method for creating a multi-lingual web page
JP2001184344A (en) Information processing system, proxy server, web page display control method, storage medium and program transmitter
JP2019128943A (en) Multi-language typesetting display method, display device, browser, terminal and computer readable storage medium
JP5235135B2 (en) Machine translation system and machine translation method
JP7792602B2 (en) Web page processing device, web page processing method, and program
JP5483526B2 (en) Machine translation system and machine translation method
US11126799B2 (en) Dynamically adjusting text strings based on machine translation feedback
CN108389244A (en) A kind of implementation method rendering flash rich texts according to designated character rule
US20250165702A1 (en) Information processing device, computer-readable medium, and information processing method
KR102849351B1 (en) AI-based multilingual response system utilizing visual data
CN109445900B (en) Translation method and device for picture display
JP5604276B2 (en) Document image generation apparatus and document image generation method
US20260111688A1 (en) Information processing method, and information processing device, and non-transitory computer-readable medium
US20260030436A1 (en) Information processing method, information processing apparatus, and information processing program
US7676746B1 (en) System and method for in-context authoring of alternate content for non-textual objects
JP7116369B2 (en) Information processing apparatus, method, program, and information processing system for supporting examination of images for printing
JP4147763B2 (en) Database construction apparatus, database construction method, database construction program, recording medium
WO2025143133A1 (en) Information processing device, information processing method, and program
JP2023180802A (en) Information processing device, method, program, and information processing system for supporting the examination of output documents or output images
JP2025027550A (en) Information Processing Method
JP2013161375A (en) Edition system

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100531

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140214

R150 Certificate of patent or registration of utility model

Ref document number: 5483526

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250