JP6138065B2 - Program, apparatus and method for outputting search keywords suitable for different language systems - Google Patents
Program, apparatus and method for outputting search keywords suitable for different language systems Download PDFInfo
- Publication number
- JP6138065B2 JP6138065B2 JP2014016510A JP2014016510A JP6138065B2 JP 6138065 B2 JP6138065 B2 JP 6138065B2 JP 2014016510 A JP2014016510 A JP 2014016510A JP 2014016510 A JP2014016510 A JP 2014016510A JP 6138065 B2 JP6138065 B2 JP 6138065B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- occurrence
- language
- occurrence word
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、異なる言語体系間における対訳語を選択する技術に関する。 The present invention relates to a technique for selecting parallel translation words between different language systems.
誰しも、母国語に対する外国語を学習するために、画像や音声のようなメディアデータを通じて理解することが多い。例えば教育現場でも、外国語の単語の意味を母国語で表現しにくい場合、学習者に、メディアデータによって視覚や聴覚に対するイメージで理解させることがある。 Everyone often learns through media data such as images and sounds in order to learn a foreign language for their native language. For example, even in an educational setting, if it is difficult to express the meaning of a foreign language word in the native language, the learner may be made to understand the visual and auditory image by media data.
従来、正書/意味/音韻それぞれについて類似した単語対同士の混同を考慮して、学習者に課題を与える外国語学習装置の技術がある(例えば特許文献1参照)。この技術によれば、正書/意味/音韻それぞれのルールにそれぞれ基づいて、指定された学習用単語に対する正書/意味/音韻の干渉語の候補を抽出する。そして、これら干渉度に応じて、統合された難易度を推定し、問題系列が作成される。生成された問題には、画像及び発音音声が組み合わされてユーザに提示される。 Conventionally, there is a technique of a foreign language learning apparatus that gives a learner a problem in consideration of confusion between word pairs similar to each of the correct text / meaning / phoneme (see, for example, Patent Document 1). According to this technique, based on the rules of the correct text / meaning / phoneme, candidate words of the correct text / meaning / phonological interference word for the designated learning word are extracted. And according to these interference degrees, the integrated difficulty level is estimated and a problem series is created. The generated problem is presented to the user in combination with an image and pronunciation sound.
また、予め画像に紐づけられたメタデータを、入力されたテキストクエリで検索し、検索者に対して画像を提示する技術もある(例えば非特許文献1参照)。この技術によれば、与えられた外国語単語と、当該外国語を母国語に翻訳した母国語とから、適切な画像を取得するための画像検索キーワードが生成される。 In addition, there is a technique for searching for metadata associated with an image in advance using an input text query and presenting the image to a searcher (see, for example, Non-Patent Document 1). According to this technique, an image search keyword for acquiring an appropriate image is generated from a given foreign language word and a native language obtained by translating the foreign language into the native language.
しかしながら、特許文献1に記載の技術によれば、外国語単語の意味に対応する画像を予め格納しておく必要がある。また、非特許文献1に記載の技術によれば、副詞、形容詞又は多義性を有する単語を検索キーワードとした場合、外国語単語の意味に合致しない画像や多義の複数の画像が提示されることもある。
However, according to the technique described in
ここで、本願の発明者らは、外国語を母国語に翻訳したキーワードを用いて、画像のようなメディアデータを検索したとしても、そのメディアデータが本来の外国語の意味と一致していない場合もあるのではないか?と考えた。その際、外国語と共起する語と、翻訳した母国語と共起する語との関係も考慮して、適切な母国語の検索キーワードを抽出することができないか?と考えた。 Here, even if the inventors of the present application search for media data such as an image using a keyword obtained by translating a foreign language into its native language, the media data does not match the original meaning of the foreign language. Is there a case? I thought. At that time, considering the relationship between words that co-occur with a foreign language and words that co-occur with a translated native language, is it possible to extract a search keyword for an appropriate native language? I thought.
そこで、本発明は、異なる言語体系に対して適切な検索キーワードを出力するプログラム、装置及び方法を提供することを目的とする。この検索キーワードは、その語を理解させるべきメディアデータの検索に用いることができる。 Accordingly, an object of the present invention is to provide a program, an apparatus, and a method for outputting an appropriate search keyword for different language systems. This search keyword can be used to search for media data that should be understood.
本発明によれば、第1の言語体系の第1の原語と、該第1の原語の対訳となる第2の言語体系の第2の原語とを入力し、第1の原語に対する用法として適切な第2の言語体系の第2の共起語を出力するようにコンピュータを機能させるプログラムであって、
第1の言語体系のコーパス辞書を用いて、第1の原語と共起する複数の第1の共起語を抽出する第1の共起語抽出手段と、
第1の言語体系の対訳辞書を用いて、第1の共起語の対訳となる第2の対訳共起語を抽出する第1の対訳共起語抽出手段と、
第2の言語体系のコーパス辞書を用いて、第2の原語と第2の対訳共起語とを組み合わせた語列毎に出現頻度を検索する第1の出現頻度検索手段と、
最も出現頻度が多い語列における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定する共起語決定手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, the first original language of the first language system and the second original language of the second language system, which is a parallel translation of the first original language, are input, and suitable as a usage for the first original language A program that causes a computer to function to output a second co-occurrence word of a second language system,
First co-occurrence word extracting means for extracting a plurality of first co-occurrence words co-occurring with the first original word using a corpus dictionary of the first language system;
First bilingual co-occurrence word extraction means for extracting a second bilingual co-occurrence word that becomes a bilingual translation of the first co-occurrence word using a bilingual dictionary of the first language system;
Using a corpus dictionary of a second language system, first appearance frequency search means for searching for an appearance frequency for each word string combining the second original word and the second parallel co-occurrence word;
A computer is caused to function as a co-occurrence word determining means for determining a second parallel co-occurrence word in a word string having the highest appearance frequency as a second co-occurrence word suitable as a usage for the first original word. .
本発明のプログラムにおける他の実施形態によれば、
第1の言語体系が外国語であり、第2の言語体系が母国語であり、
外国語の第1の原語に対する用法として、母国語の第2の原語と第2の共起語とからなる語列が出力される
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The first language system is a foreign language, the second language system is a native language,
As a usage of the first original language of the foreign language, it is also preferable to cause the computer to function so that a word string composed of the second original language of the native language and the second co-occurrence word is output.
本発明のプログラムにおける他の実施形態によれば、
第1の言語体系が母国語であり、第2の言語体系が外国語であり、
母国語の第1の原語に対する用法として、外国語の第2の原語と第2の共起語とからなる語列が出力される
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The first language system is a native language, the second language system is a foreign language,
As a usage of the first original language of the native language, it is also preferable to cause the computer to function so that a word string composed of the second original language of the foreign language and the second co-occurrence word is output.
本発明のプログラムにおける他の実施形態によれば、
共起語決定手段によって決定された第2の原語と第2の共起語とからなる語列をキーとして、メディアサーバへ送信し、その検索結果を出力する検索手段と
してコンピュータを更に機能させることも好ましい。
According to another embodiment of the program of the present invention,
Using the word sequence composed of the second original word and the second co-occurrence word determined by the co-occurrence word determination means as a key, further causing the computer to function as search means for transmitting the search result. Is also preferable.
本発明のプログラムにおける他の実施形態によれば、
メディアサーバは、文章、画像又は音声のメディアサーバである
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
It is also preferred to have the computer function so that the media server is a text, image or audio media server.
本発明のプログラムにおける他の実施形態によれば、
第1の共起語抽出手段から抽出された複数の第1の共起語の中で、第1の原語と同一類似の格となる共起語を削除し、その他の第1の共起語を第1の対訳共起語抽出手段へ出力する第1の共起語フィルタ手段と
してコンピュータを更に機能させることも好ましい。
According to another embodiment of the program of the present invention,
Among the plurality of first co-occurrence words extracted from the first co-occurrence word extracting means, the co-occurrence word having the same and similar case as the first original word is deleted, and the other first co-occurrence words It is also preferable to further cause the computer to function as first co-occurrence word filter means for outputting to the first parallel co-occurrence word extraction means.
本発明のプログラムにおける他の実施形態によれば、
第2の言語体系のコーパス辞書を用いて、第2の原語と共起する複数の第2の共起語を抽出する第2の共起語抽出手段と、
第2の言語体系の対訳辞書を用いて、第2の共起語の対訳となる第1の対訳共起語を抽出する第2の対訳共起語抽出手段と、
第1の言語体系のコーパス辞書を用いて、第1の原語と第1の対訳共起語とを組み合わせた語列毎に出現頻度を検索する第2の出現頻度検索手段と
してコンピュータを更に機能させ、
共起語決定手段は、最も出現頻度が多い語列における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定し、最も出現頻度が多い語列における第1の対訳共起語を、第2の原語に対する用法として適切な第1の共起語として決定し、第1の共起語と第2の共起語における出現頻度の多い方の、第1の原語と第1の共起語とからなる語列、又は、第2の原語と第2の共起語とからなる語列の一方を決定する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
Second co-occurrence word extraction means for extracting a plurality of second co-occurrence words co-occurring with the second original word using a corpus dictionary of the second language system;
Second bilingual co-occurrence word extraction means for extracting a first bilingual co-occurrence word that is a bilingual translation of the second co-occurrence word using a bilingual dictionary of the second language system;
Using the corpus dictionary of the first language system, the computer further functions as second appearance frequency search means for searching for the appearance frequency for each word string combining the first original word and the first parallel co-occurrence word. ,
The co-occurrence word determining means determines the second parallel co-occurrence word in the word string having the highest appearance frequency as a second co-occurrence word suitable as a usage for the first original word, and the word string having the highest appearance frequency. The first parallel co-occurrence word in is determined as the first co-occurrence word suitable as a usage for the second original word, and the one with the higher occurrence frequency in the first co-occurrence word and the second co-occurrence word is determined. It is also preferable to cause the computer to function so as to determine one of a word string composed of the first original word and the first co-occurrence word, or a word string composed of the second original word and the second co-occurrence word.
本発明のプログラムにおける他の実施形態によれば、
第2の共起語抽出手段から抽出された複数の第2の共起語の中で、第2の原語と同一類似の格となる共起語を削除し、その他の第2の共起語を第2の対訳共起語抽出手段へ出力する第2の共起語フィルタ手段と
してコンピュータを更に機能させることも好ましい。
According to another embodiment of the program of the present invention,
Among the plurality of second co-occurrence words extracted from the second co-occurrence word extracting means, the co-occurrence words having the same and similar case as the second original word are deleted, and the other second co-occurrence words It is also preferable to further cause the computer to function as second co-occurrence word filtering means for outputting to the second bilingual co-occurrence word extracting means.
本発明のプログラムにおける他の実施形態によれば、
第1の共起語フィルタ手段から出力された第1の共起語と、第2の出現頻度検索手段から出力された第1の対訳共起語とを比較し、一致した第1の対訳共起語のみを共起語決定手段へ出力する第2の対訳共起語比較手段と、
第2の共起語フィルタ手段から出力された第2の共起語と、第1の出現頻度検索手段から出力された第2の対訳共起語とを比較し、一致した第2の対訳共起語のみを共起語決定手段へ出力する第1の対訳共起語比較手段と
してコンピュータを更に機能させることも好ましい。
According to another embodiment of the program of the present invention,
The first co-occurrence word output from the first co-occurrence word filter means and the first parallel translation co-occurrence word output from the second appearance frequency search means are compared, and the matched first parallel translation co-words are compared. Second parallel co-occurrence word comparison means for outputting only the word to the co-occurrence word determination means;
The second co-occurrence word output from the second co-occurrence word filter means is compared with the second bi-translation co-occurrence word output from the first appearance frequency search means, and the matched second parallel co-occurrence words are compared. It is also preferable that the computer further function as first parallel co-occurrence word comparison means for outputting only the word to the co-occurrence word determination means.
本発明によれば、第1の言語体系の第1の原語と、該第1の原語の対訳となる第2の言語体系の第2の原語とを入力し、第1の原語に対する用法として適切な第2の言語体系の第2の共起語を出力する装置であって、
第1の言語体系のコーパス辞書を用いて、第1の原語と共起する複数の第1の共起語を抽出する第1の共起語抽出手段と、
第1の言語体系の対訳辞書を用いて、第1の共起語の対訳となる第2の対訳共起語を抽出する第1の対訳共起語抽出手段と、
第2の言語体系のコーパス辞書を用いて、第2の原語と第2の対訳共起語とを組み合わせた語列毎に出現頻度を検索する第1の出現頻度検索手段と、
最も出現頻度が多い語列における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定する共起語決定手段と
を有することを特徴とする。
According to the present invention, the first original language of the first language system and the second original language of the second language system, which is a parallel translation of the first original language, are input, and suitable as a usage for the first original language A device for outputting a second co-occurrence word of a second language system,
First co-occurrence word extracting means for extracting a plurality of first co-occurrence words co-occurring with the first original word using a corpus dictionary of the first language system;
First bilingual co-occurrence word extraction means for extracting a second bilingual co-occurrence word that becomes a bilingual translation of the first co-occurrence word using a bilingual dictionary of the first language system;
Using a corpus dictionary of a second language system, first appearance frequency search means for searching for an appearance frequency for each word string combining the second original word and the second parallel co-occurrence word;
Co-occurrence word determining means for determining the second parallel co-occurrence word in the word string having the highest appearance frequency as a suitable second co-occurrence word as a usage for the first original word.
本発明によれば、装置を用いて、第1の言語体系の第1の原語と、該第1の原語の対訳となる第2の言語体系の第2の原語とを入力し、第1の原語に対する用法として適切な第2の言語体系の第2の共起語を出力する方法であって、
第1の言語体系のコーパス辞書を用いて、第1の原語と共起する複数の第1の共起語を抽出する第1のステップと、
第1の言語体系の対訳辞書を用いて、第1の共起語の対訳となる第2の対訳共起語を抽出する第2のステップと、
第2の言語体系のコーパス辞書を用いて、第2の原語と第2の対訳共起語とを組み合わせた語列毎に出現頻度を検索する第3のステップと、
最も出現頻度が多い語列における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定する第4のステップと
を有することを特徴とする。
According to the present invention, the first original language of the first language system and the second original language of the second language system that is a parallel translation of the first original language are input using the device, A method of outputting a second co-occurrence word of a second language system suitable as a usage for an original language,
A first step of extracting a plurality of first co-occurrence words co-occurring with a first original word using a corpus dictionary of a first language system;
A second step of extracting a second parallel co-occurrence word that is a parallel translation of the first co-occurrence word using the parallel translation dictionary of the first language system;
A third step of searching for the appearance frequency for each word string combining the second original word and the second parallel co-occurrence word using a corpus dictionary of the second language system;
And a fourth step of determining a second co-occurrence word in the word string having the highest appearance frequency as a second co-occurrence word suitable as a usage for the first original word.
本発明のプログラム、装置及び方法によれば、異なる言語体系に対して適切な検索キーワードを出力することができる。この検索キーワードは、その語を理解させるべきメディアデータの検索に用いることができる。 According to the program, apparatus and method of the present invention, it is possible to output search keywords suitable for different language systems. This search keyword can be used to search for media data that should be understood.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明における対訳キーワード抽出装置を含むシステム構成図である。 FIG. 1 is a system configuration diagram including a bilingual keyword extracting apparatus according to the present invention.
図1によれば、対訳キーワード抽出装置が、インターネットのようなネットワークに接続されている。また、インターネットには、画像や音声を検索可能なメディアサーバも接続されている。メディアサーバは、予め大量のメディアデータ(画像、映像、音声)を蓄積したものであって、クエリのキーワードを受信し、そのキーワードに適切なメディアデータを検索して返信する。メディアサーバは、メディアデータに、多言語のテキストをメタデータとして対応付けたものである。 According to FIG. 1, the bilingual keyword extracting apparatus is connected to a network such as the Internet. In addition, a media server capable of searching for images and sounds is connected to the Internet. The media server stores a large amount of media data (image, video, audio) in advance, receives a query keyword, searches for media data appropriate for the keyword, and returns it. The media server associates multilingual text as metadata with media data.
図1によれば、利用者が、学習対象となる外国語「much」を、ユーザ端末へ入力したとする。ユーザ端末は、その外国語「much」を、対訳キーワード抽出装置へ送信する。対訳キーワード抽出装置は、その外国語「much」を母国語「たくさん」に翻訳する。尚、ユーザ端末が、その外国語「much」を母国語「たくさん」に翻訳して、「much」「たくさん」の両方を、対訳キーワード抽出装置へ送信するものであってもよい。 According to FIG. 1, it is assumed that the user inputs the foreign language “much” to be learned to the user terminal. The user terminal transmits the foreign language “much” to the bilingual keyword extraction device. The bilingual keyword extraction device translates the foreign language “much” into the native language “many”. The user terminal may translate the foreign language “much” into the native language “many” and transmit both “much” and “many” to the bilingual keyword extracting apparatus.
これに対し、対訳キーワード抽出装置は、その外国語「much」を学習者に理解させるために適切な母国語の検索キーワード「たくさんのお金」を選択したとする。そして、対訳キーワード抽出装置は、母国語「たくさんのお金」をクエリとして、メディアサーバを検索する。メディアサーバは、「たくさんのお金」に近いメタデータを対応付けたメディアデータ(画像、映像又は音声)を、対訳キーワード抽出装置へ返信する。 On the other hand, it is assumed that the bilingual keyword extraction apparatus selects a search keyword “many moneys” in an appropriate native language in order for the learner to understand the foreign language “much”. Then, the bilingual keyword extracting device searches the media server using the native language “a lot of money” as a query. The media server returns media data (image, video, or sound) associated with metadata close to “a lot of money” to the bilingual keyword extraction device.
そして、対訳キーワード抽出装置は、メディアサーバから受信したメディアデータを、ユーザ端末へ返信する。ユーザ端末は、そのメディアデータを再生することによって、利用者は、入力した外国語「much」の意味合いを、母国語「たくさんのお金」に関連したメディアデータによって、視聴的に理解することができる。 Then, the bilingual keyword extraction device returns the media data received from the media server to the user terminal. By playing the media data on the user terminal, the user can visually understand the meaning of the input foreign language “much” from the media data related to the mother tongue “much money”. .
ここで、対訳キーワード抽出装置は、逆に、ユーザ端末から、学習対象となる母国語を受信し、その母国語に関連する外国語のメディアデータを、ユーザ端末へ返信するものであってもよい。即ち、本発明の対訳キーワード抽出装置は、第1の言語体系の第1の原語と、その第1の原語の対訳となる第2の言語体系の第2の原語とから、第1の原語に対する用法として適切な第2の言語体系の第2の共起語を出力するものである。 Here, the bilingual keyword extraction device may, conversely, receive the native language to be learned from the user terminal and return the foreign language media data related to the native language to the user terminal. . That is, the bilingual keyword extracting apparatus according to the present invention applies the first original language from the first original language of the first language system and the second original language of the second language system that is the parallel translation of the first original language. The second co-occurrence word of the second language system suitable for usage is output.
図2は、外国語に対する用法として適切な日本語を抽出する本発明のプログラムの機能構成図である。 FIG. 2 is a functional configuration diagram of the program of the present invention for extracting Japanese appropriate for usage in a foreign language.
図2によれば、対訳キーワード抽出装置(サーバ)に搭載されたコンピュータを機能させるプログラムの構成を表す。ここでは、第1の言語体系が外国語であり、第2の言語体系が日本語である。また、外国語の第1の原語に対する用法として、日本語の第2の原語と第2の共起語とからなる語列が出力される。 FIG. 2 shows the configuration of a program that causes a computer installed in a bilingual keyword extraction apparatus (server) to function. Here, the first language system is a foreign language, and the second language system is Japanese. In addition, as a usage for the first original language of the foreign language, a word string composed of the second Japanese original language and the second co-occurrence language is output.
図2によれば、対訳キーワード抽出装置は、外国語コーパス辞書111と、外国語対訳辞書112と、日本語コーパス辞書121とを有する。コーパス(corpus)とは、自然言語の文章を構造化し大規模に集積したものであって、語毎に、品詞や共起語が対応付けられたデータベースである。「外国語コーパス辞書111」は、外国語の語毎に、使用頻度が高い共起語が対応付けられたものである。同様に、「日本語コーパス辞書121」も、日本語の語毎に、使用頻度が高い共起語が対応付けられたものである。また、「外国語対訳辞書112」は、外国語の語の対訳となる日本語の語が対応付けられたものである。
Referring to FIG. 2, the bilingual keyword extraction device includes a foreign
また、図2によれば、対訳キーワード抽出装置は、対訳単語入力部2と、第1の共起語抽出部31と、第1の対訳共起語抽出部32と、第1の出現頻度検索部33と、共起語決定部5と、検索部6とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
Further, according to FIG. 2, the bilingual keyword extraction device includes a bilingual
[対訳単語入力部2]
対訳キーワード抽出装置は、外国語の原語と、その対訳となる日本語の原語とを入力する。対訳の日本語の原語は、対訳キーワード抽出装置によって対訳されたものであってもよいし、ユーザ端末から受信したものであってもよい。図2によれば、例えば以下のような語を入力する。
(外国語の原語)much <-> (日本語の原語)たくさん
外国語の原語「much」は、第1の共起語抽出部31へ出力される。また、日本語の原語「たくさん」は、第1の出現頻度検索部33へ出力される。
[Parallel translation word input part 2]
The bilingual keyword extraction device inputs a foreign language original language and a Japanese original language to be translated. The bilingual Japanese source language may be translated by a bilingual keyword extraction device or received from a user terminal. According to FIG. 2, for example, the following words are input.
(Foreign language original) much <-> (Japanese original language) Many foreign language original words “much” are output to the first co-occurrence
[第1の共起語抽出部31]
第1の共起語抽出部31は、外国語コーパス辞書111(第1の言語体系のコーパス辞書)を用いて、外国語の原語「much」(第1の原語)と共起する複数の第1の共起語を抽出する。外国語の原語「much」に対して、例えば以下のような語が抽出されたとする。
(外国語の原語)much -> (第1の共起語)
better
pretty
money
success
music
抽出された共起語は、第1の対訳共起語抽出部32へ出力される。
[First co-occurrence word extraction unit 31]
The first co-occurrence
(Foreign language) much-> (first co-occurrence)
better
pretty
money
success
music
The extracted co-occurrence words are output to the first parallel co-occurrence
尚、共起語の抽出は、原語に対する1つ以上の共起語が抽出される。また、コーパスには、原語と共起語との出現頻度(共起頻度)が対応付けられたものであってもよい。共起語としては、例えば、同じ意味を持つ同義語、反対語、慣用句、成語、用法等がある。 In the extraction of co-occurrence words, one or more co-occurrence words for the original word are extracted. The corpus may be associated with the appearance frequency (co-occurrence frequency) of the original word and the co-occurrence word. Examples of co-occurrence words include synonyms, antonyms, idiomatic phrases, idioms, usages, and the like having the same meaning.
[第1の対訳共起語抽出部32]
第1の対訳共起語抽出部32は、外国語対訳辞書112(第1の言語体系の対訳辞書)を用いて、第1の共起語の対訳となる第2の対訳共起語を抽出する。例えば以下のような語が抽出されたとする。
(外国語の第1の共起語) (日本語の第2の対訳共起語)
better -> 良い
pretty -> かわいい
money -> お金
success -> 成功
music -> 音楽
抽出された第2の対訳共起語は、第1の出現頻度検索部33へ出力される。
[First parallel co-occurrence word extraction unit 32]
The first bilingual co-occurrence
(Foreign language first co-occurrence) (Japanese second parallel co-occurrence)
better-> better
pretty-> cute
money-> money
success-> success
music-> music The extracted second parallel co-occurrence word is output to the first appearance
[第1の出現頻度検索部33]
第1の出現頻度検索部33は、日本語コーパス辞書121(第2の言語体系のコーパス辞書)を用いて、日本語の第2の原語「たくさん」と第2の対訳共起語とを組み合わせた語列毎に、出現頻度を検索する。例えば以下のような語列に対する出現頻度が抽出される。
(日本語の原語と対訳共起語) (出現頻度)
たくさんのお金 -> 1500
たくさんの音楽 -> 780
たくさんの成功 -> 550
たくさんの良い -> 30
たくさんのかわいい -> 20
尚、出現頻度は、例えば「たくさんの」から「お金」方向への出現頻度と、「お金」から「たくさんの」方向への出現頻度とを導出し、その両者を合わせて単語間の出現頻度とするものであってもよい。
[First appearance frequency search unit 33]
The first appearance
(Japanese original words and parallel co-occurrence words) (Appearance frequency)
Lots of money-> 1500
Lots of music-> 780
Lots of success-> 550
Many good-> 30
Many cute-> 20
The frequency of appearance is, for example, the frequency of appearance from the direction of “many” to “money” and the frequency of occurrence from “money” to the direction of “many”, and combining them to generate the frequency of occurrence between words. It may be.
[共起語決定部5]
共起語決定部5は、最も出現頻度が多い語列「たくさんのお金」における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定する。決定された「たくさんのお金」は、検索部6へ出力される。
[Co-occurrence word determination unit 5]
The co-occurrence
他の実施形態として、第1の出現頻度検索部33は、単なる出現頻度ではなく、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的な語列を抽出するものであってもよい(例えば非特許文献2参照)。TF−IDFとは、各単語に重みを付けて、クエリから文章をベクトル空間で表し、文章とクエリの類似度でランク付けをする技術である。
As another embodiment, the first appearance
[検索部6]
検索部6は、共起語決定部5によって決定された第2の原語と第2の共起語とからなる語列「たくさんのお金」をキーとして、メディアサーバへ送信する。これに対し、メディアサーバは、「たくさんのお金」に近いメタデータが対応付けられたメディアデータを、対訳キーワード抽出装置の検索部6へ返信する。そして、そのメディアデータは、ユーザ端末へ、検索結果として返信される。
[Search unit 6]
The
ユーザ端末は、対訳キーワード抽出装置から返信されたメディアデータを再生する。利用者は、日本語「たくさんのお金」に関連するメタデータを視聴することによって、外国語「much」の意味合いを理解することができる。 The user terminal reproduces the media data returned from the bilingual keyword extraction device. Users can understand the meaning of the foreign language “much” by viewing metadata related to Japanese “a lot of money”.
図3は、日本語に対する用法として適切な外国語を抽出する本発明のプログラムの機能構成図である。 FIG. 3 is a functional configuration diagram of a program according to the present invention for extracting a foreign language suitable as a usage for Japanese.
図3によれば、第1の言語体系が日本語であり、第2の言語体系が外国語である。日本語の第1の原語に対する用法として、外国語の第2の原語と第2の共起語とからなる語列が出力される。即ち、図2と比較して、検索対象となる言語体系が逆となったものである。 According to FIG. 3, the first language system is Japanese and the second language system is a foreign language. As a usage for the first Japanese original language, a word string composed of the second foreign language foreign word and the second co-occurrence word is output. That is, as compared with FIG. 2, the language system to be searched is reversed.
[対訳単語入力部2]
対訳キーワード抽出装置は、例えば以下のような語を入力する。
(日本語の原語)たくさん <-> (外国語の原語)much
日本語の原語「たくさん」は、第2の共起語抽出部41へ出力される。また、外国語の原語「much」は、第2の出現頻度検索部43へ出力される。
[Parallel translation word input part 2]
The bilingual keyword extracting device inputs the following words, for example.
(Original Japanese) <-> (Foreign language) much
The original Japanese word “many” is output to the second co-occurrence
[第2の共起語抽出部41]
第2の共起語抽出部41は、日本語コーパス辞書121(第2の言語体系のコーパス辞書)を用いて、日本語の原語「たくさん」(第2の原語)と共起する複数の第2の共起語を抽出する。日本語の原語「たくさん」に対して、例えば以下のような語が抽出されたとする。
(日本語の原語)たくさん -> (第2の共起語)
多い
お金
命
音楽
笑顔
抽出された共起語は、第2の対訳共起語抽出部42へ出力される。
[Second co-occurrence word extraction unit 41]
The second co-occurrence
(Original Japanese) Lots-> (Second co-occurrence)
Many
money
life
musics
The extracted co-occurrence words are output to the second bilingual co-occurrence
[第2の対訳共起語抽出部42]
第2の対訳共起語抽出部42は、日本語対訳辞書122(第2の言語体系の対訳辞書)を用いて、第2の共起語の対訳となる第1の対訳共起語を抽出する。例えば以下のような語が抽出されたとする。
(日本語の第2の共起語) (外国語の第1の対訳共起語)
多い -> many
お金 -> money
命 -> live
音楽 -> music
笑顔 -> smile
抽出された第1の対訳共起語は、第2の出現頻度検索部43へ出力される。
[Second parallel co-occurrence word extraction unit 42]
The second bilingual co-occurrence
(Second co-occurrence word in Japanese) (First parallel co-occurrence word in foreign language)
Many-> many
Money-> money
Life-> live
Music-> music
Smile-> smile
The extracted first parallel translation co-occurrence word is output to the second appearance
[第2の出現頻度検索部43]
第2の出現頻度検索部43は、外国語コーパス辞書111(第1の言語体系のコーパス辞書)を用いて、外国語の第1の原語「much」と第1の対訳共起語とを組み合わせた語列毎に、出現頻度を検索する。例えば以下のような語列に対する出現頻度が抽出される。
(外国語の原語と対訳共起語) (出現頻度)
much smile -> 2500
much money -> 1200
much music -> 800
much live -> 340
much many -> 1
[Second appearance frequency search unit 43]
The second appearance
(Foreign language and parallel co-occurrence words) (Appearance frequency)
much smile-> 2500
much money-> 1200
much music-> 800
much live-> 340
much many-> 1
[共起語決定部5]
共起語決定部5は、最も出現頻度が多い語列「much smile」における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定する。決定された「much smile」は、検索部6へ出力される。
[Co-occurrence word determination unit 5]
The co-occurrence
[検索部6]
検索部6は、共起語決定部5によって決定された第2の原語と第2の共起語とからなる語列「much smile」をキーとして、メディアサーバへ送信する。これに対し、メディアサーバは、「much smile」に近いメタデータが対応付けられたメディアデータを、対訳キーワード抽出装置の検索部6へ返信する。そして、そのメディアデータは、ユーザ端末へ、検索結果として返信される。
[Search unit 6]
The
ユーザ端末は、対訳キーワード抽出装置から返信されたメディアデータを再生する。利用者は、外国語「much smile」に関連するメタデータを視聴することによって、日本語「たくさん」の意味合いを理解することができる。 The user terminal reproduces the media data returned from the bilingual keyword extraction device. Users can understand the meaning of Japanese “many” by viewing metadata related to the foreign language “much smile”.
図4は、図2の構成に、共起語フィルタ部を含めた機能構成図である。 FIG. 4 is a functional configuration diagram including a co-occurrence word filter unit in the configuration of FIG.
図4によれば、第1の共起語抽出部31と、第1の対訳共起語抽出部32との間に、第1の共起語フィルタ部34が備えられている。
According to FIG. 4, a first co-occurrence
[第1の共起語フィルタ部34]
第1の共起語フィルタ部34は、第1の共起語抽出部31から抽出された複数の第1の共起語の中で、第1の原語「much」と同一類似の格となる共起語を削除し、その他の第1の共起語を第1の対訳共起語抽出部32へ出力する。例えば以下のように共起語が削除される。
(外国語の原語)much -> (第1の共起語)
×better(muchと同一類似の副詞格)
×pretty(muchと同一類似の副詞格)
money
success
music
尚、第1の共起語フィルタ部34は、a, then等の定冠詞や、at, from等の前置詞を除外することも好ましい。
[First Co-occurrence Word Filter Unit 34]
The first co-occurrence
(Foreign language) much-> (first co-occurrence)
× better (same adverb case as much)
× pretty (adverbic case similar to much)
money
success
music
The first co-occurrence
図4には図示していないが、第2の共起語抽出部41と、第2の対訳共起語抽出部42との間に、第2の共起語フィルタ部44を備えることも好ましい。
Although not shown in FIG. 4, it is also preferable to provide a second co-occurrence
[第2の共起語フィルタ部44]
第2の共起語フィルタ部44は、第2の共起語抽出部41から抽出された複数の第2の共起語の中で、第2の原語と同一類似の格となる共起語を削除し、その他の第2の共起語を第2の対訳共起語抽出部42へ出力する。例えば以下のように共起語が削除される。
(日本語の原語)たくさん -> (第2の共起語)
×多い(「たくさん」と同一類似の副詞格)
お金
命
音楽
笑顔
[Second Co-occurrence Word Filter Unit 44]
The second co-occurrence
(Original Japanese) Lots-> (Second co-occurrence)
× Many (adverbial case similar to “many”)
money
life
musics
Smile
図5は、図2の構成と図3の構成とを並列に構成した機能構成図である。 FIG. 5 is a functional configuration diagram in which the configuration of FIG. 2 and the configuration of FIG. 3 are configured in parallel.
図5によれば、図2の構成と図3の構成とが、共起語決定部5によって統合されている。共起語決定部5は、以下のステップで共起語を決定する。
(S1)最も出現頻度が多い語列における第2の対訳共起語「お金」を、第1の原語「たくさん」に対する用法として適切な第2の共起語として決定する。即ち、「たくさんのお金」が決定される。
(S2)最も出現頻度が多い語列における第1の対訳共起語「smile」を、第2の原語に対する用法として適切な第1の共起語として決定する。即ち、「much smile」が決定される。
(S3)第1の共起語と第2の共起語における出現頻度の多い方の、第1の原語と第1の共起語とからなる語列、又は、第2の原語と第2の共起語とからなる語列の一方を決定する。ここでは、出現頻度が多い「much smile」が決定される。
According to FIG. 5, the configuration of FIG. 2 and the configuration of FIG. 3 are integrated by the co-occurrence
(S1) The second bilingual co-occurrence word “money” in the word sequence having the highest appearance frequency is determined as a second co-occurrence word suitable as a usage for the first original word “many”. That is, “a lot of money” is determined.
(S2) The first parallel co-occurrence word “smile” in the word string having the highest appearance frequency is determined as the first co-occurrence word suitable as a usage for the second original word. That is, “much smile” is determined.
(S3) A word string composed of the first original word and the first co-occurrence word, or the second original word and the second one having the higher appearance frequency in the first co-occurrence word and the second co-occurrence word. One of the word strings consisting of the co-occurrence words is determined. Here, “much smile” having a high appearance frequency is determined.
図6は、図5の構成の中で、異なる言語体系間で共起語を比較した機能構成図である。 FIG. 6 is a functional configuration diagram in which co-occurrence words are compared between different language systems in the configuration of FIG.
[第1の対訳共起語比較部35]
第1の対訳共起語比較部35は、第2の共起語フィルタ部44から出力された第2の共起語と、第1の出現頻度検索部33から出力された第2の対訳共起語とを比較し、一致した第2の対訳共起語のみを共起語決定部5へ出力する。図6によれば、以下のように比較できる。
(第1の出現頻度検索部33の出力) (第2の共起語フィルタ部44の出力)
○たくさんのお金 お金
×たくさんの成功 命
○たくさんの音楽 音楽
笑顔
これによって、第1の対訳共起語比較部35は、「たくさんのお金」「たくさんの音楽」を、共起語決定部5へ出力する。
[First parallel co-occurrence word comparison unit 35]
The first bilingual co-occurrence
(Output of first appearance frequency search unit 33) (Output of second co-occurrence word filter unit 44)
○ A lot of money Money
× Many successes
○ Lots of music Music
Smile By this, the first parallel co-occurrence
[第2の対訳共起語比較部45]
第2の対訳共起語比較部45は、第1の共起語フィルタ部34から出力された第1の共起語と、第2の出現頻度検索部43から出力された第1の対訳共起語とを比較し、一致した第1の対訳共起語のみを共起語決定部5へ出力する。
(第2の出現頻度検索部43の出力) (第2の共起語フィルタ部44の出力)
×much smile success
○much money money
○much music music
×much live
これによって、第2の対訳共起語比較部45は、「much money」「much music」を、共起語決定部5へ出力する。
[Second parallel co-occurrence word comparison unit 45]
The second parallel co-occurrence
(Output of Second Appearance Frequency Search Unit 43) (Output of Second Co-occurrence Word Filter Unit 44)
× much smile success
○ much money money
○ much music music
× much live
As a result, the second parallel co-occurrence
図6によれば、共起語決定部5は、最も出現頻度の高い語列を決定する。
たくさんのお金 -> 1500
たくさんの音楽 -> 780
much money -> 1200
much music -> 800
最終的に、共起語決定部5は、「たくさんのお金」を検索キーワードとして決定し、検索部6へ出力する。
According to FIG. 6, the co-occurrence
Lots of money-> 1500
Lots of music-> 780
much money-> 1200
much music-> 800
Finally, the co-occurrence
検索部6は、語列「たくさんのお金」をキーとして、メディアサーバへ送信する。これに対し、メディアサーバは、「たくさんのお金」に近いメタデータが対応付けられたメディアデータを、対訳キーワード抽出装置の検索部6へ返信する。そして、そのメディアデータは、ユーザ端末へ、検索結果として返信される。
The
ユーザ端末は、対訳キーワード抽出装置から返信されたメディアデータを再生する。利用者は、日本語「たくさんのお金」に関連するメタデータを視聴することによって、外国語「much」の意味合いを理解することができる。 The user terminal reproduces the media data returned from the bilingual keyword extraction device. Users can understand the meaning of the foreign language “much” by viewing metadata related to Japanese “a lot of money”.
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、異なる言語体系に対して適切な検索キーワードを出力することができる。この検索キーワードは、その語を理解させるべきメディアデータの検索に用いることができる。 As described above in detail, according to the program, apparatus and method of the present invention, it is possible to output search keywords suitable for different language systems. This search keyword can be used to search for media data that should be understood.
特に、本発明によれば、例えば外国語の単語学習装置について、使用するメディアデータ(画像、映像又は音声)の学習素材を、予め記憶しておく必要がない。その都度、膨大な外部のメディアサーバを検索することによって、適切なメディアデータを取得することができる。また、本発明によれば、外国語と母国語との間で、できる限り母国語で利用頻度が多いキーワードを用いて、メディアデータを検索することができる。従って、外国語を母国語に単に直訳しただけでは理解できない外国語であっても、母国語として利用頻度が多いキーワードに自動的に補完され、利用者にとって適切なメディアデータが視聴されることとなる。 In particular, according to the present invention, for example, for a foreign language word learning apparatus, it is not necessary to previously store learning materials of media data (images, videos, or sounds) to be used. In each case, appropriate media data can be acquired by searching a vast number of external media servers. In addition, according to the present invention, media data can be searched between a foreign language and a native language using keywords that are frequently used in the native language as much as possible. Therefore, even foreign languages that cannot be understood by simply translating the foreign language into the native language are automatically supplemented with keywords that are frequently used as the native language, and media data appropriate for the user can be viewed. Become.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 対訳キーワード抽出装置
111 外国語コーパス辞書
112 外国語対訳辞書
121 日本語コーパス辞書
122 日本語対訳辞書
2 対訳単語入力部
31 第1の共起語抽出部
32 第1の対訳共起語抽出部
33 第1の出現頻度検索部
34 第1の共起語フィルタ部
35 第1の対訳共起語比較部
41 第2の共起語抽出部
42 第2の対訳共起語抽出部
43 第2の出現頻度検索部
44 第2の共起語フィルタ部
45 第2の対訳共起語比較部
5 共起語決定部
6 検索部
DESCRIPTION OF
Claims (11)
第1の言語体系のコーパス辞書を用いて、第1の原語と共起する複数の第1の共起語を抽出する第1の共起語抽出手段と、
第1の言語体系の対訳辞書を用いて、第1の共起語の対訳となる第2の対訳共起語を抽出する第1の対訳共起語抽出手段と、
第2の言語体系のコーパス辞書を用いて、第2の原語と第2の対訳共起語とを組み合わせた語列毎に出現頻度を検索する第1の出現頻度検索手段と、
最も出現頻度が多い語列における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定する共起語決定手段と
してコンピュータを機能させることを特徴とするプログラム。 The first language of the first language system and the second language of the second language system, which is a parallel translation of the first language, are input, and the second language system suitable as a usage for the first language A program that causes a computer to function to output the second co-occurrence word of
First co-occurrence word extracting means for extracting a plurality of first co-occurrence words co-occurring with the first original word using a corpus dictionary of the first language system;
First bilingual co-occurrence word extraction means for extracting a second bilingual co-occurrence word that becomes a bilingual translation of the first co-occurrence word using a bilingual dictionary of the first language system;
Using a corpus dictionary of a second language system, first appearance frequency search means for searching for an appearance frequency for each word string combining the second original word and the second parallel co-occurrence word;
A computer is caused to function as a co-occurrence word determining means for determining a second parallel co-occurrence word in a word string having the highest appearance frequency as a second co-occurrence word suitable as a usage for the first original word. program.
前記外国語の第1の原語に対する用法として、前記母国語の第2の原語と第2の共起語とからなる語列が出力される
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 The first language system is a foreign language, the second language system is a native language,
The computer is caused to function as a usage of the first original language of the foreign language so that a word string composed of the second original language and the second co-occurrence language of the native language is output. The program described in.
前記母国語の第1の原語に対する用法として、前記外国語の第2の原語と第2の共起語とからなる語列が出力される
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 The first language system is a native language, the second language system is a foreign language,
2. The computer according to claim 1, wherein the computer functions so as to output a word string composed of the second original word and the second co-occurrence word of the foreign language as a usage for the first original word of the native language. The program described in.
してコンピュータを更に機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。 The computer is further caused to function as search means for transmitting to the media server using the word string consisting of the second original word and the second co-occurrence word determined by the co-occurrence word determination means as a key and outputting the search result. The program according to any one of claims 1 to 3, wherein:
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。 The program according to any one of claims 1 to 4, wherein the media server causes a computer to function as a text, image, or audio media server.
してコンピュータを更に機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。 Among the plurality of first co-occurrence words extracted from the first co-occurrence word extracting means, the co-occurrence word having the same and similar case as the first original word is deleted, and the other first co-occurrence words 6. The program according to claim 1, wherein the computer is further caused to function as first co-occurrence word filtering means for outputting to the first parallel co-occurrence word extracting means.
第2の言語体系の対訳辞書を用いて、第2の共起語の対訳となる第1の対訳共起語を抽出する第2の対訳共起語抽出手段と、
第1の言語体系のコーパス辞書を用いて、第1の原語と第1の対訳共起語とを組み合わせた語列毎に出現頻度を検索する第2の出現頻度検索手段と
してコンピュータを更に機能させ、
前記共起語決定手段は、最も出現頻度が多い語列における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定し、最も出現頻度が多い語列における第1の対訳共起語を、第2の原語に対する用法として適切な第1の共起語として決定し、第1の共起語と第2の共起語における出現頻度の多い方の、第1の原語と第1の共起語とからなる語列、又は、第2の原語と第2の共起語とからなる語列の一方を決定する
ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。 Second co-occurrence word extraction means for extracting a plurality of second co-occurrence words co-occurring with the second original word using a corpus dictionary of the second language system;
Second bilingual co-occurrence word extraction means for extracting a first bilingual co-occurrence word that is a bilingual translation of the second co-occurrence word using a bilingual dictionary of the second language system;
Using the corpus dictionary of the first language system, the computer further functions as second appearance frequency search means for searching for the appearance frequency for each word string combining the first original word and the first parallel co-occurrence word. ,
The co-occurrence word determining means determines the second parallel co-occurrence word in the word string having the highest appearance frequency as a second co-occurrence word suitable as a usage for the first original word, and the word having the highest appearance frequency. The first parallel co-occurrence word in the column is determined as the first co-occurrence word suitable as a usage for the second original word, and the one with the highest appearance frequency in the first co-occurrence word and the second co-occurrence word is determined. The computer is made to function so as to determine one of a word string composed of the first original word and the first co-occurrence word, or a word string composed of the second original word and the second co-occurrence word. The program according to any one of claims 1 to 6.
してコンピュータを更に機能させることを特徴とする請求項7に記載のプログラム。 Among the plurality of second co-occurrence words extracted from the second co-occurrence word extracting means, the co-occurrence words having the same and similar case as the second original word are deleted, and the other second co-occurrence words The program according to claim 7, further causing the computer to function as second co-occurrence word filtering means for outputting to the second parallel co-occurrence word extraction means.
第2の共起語フィルタ手段から出力された第2の共起語と、第1の出現頻度検索手段から出力された第2の対訳共起語とを比較し、一致した第2の対訳共起語のみを前記共起語決定手段へ出力する第1の対訳共起語比較手段と
してコンピュータを更に機能させることを特徴とする請求項8に記載のプログラム。 The first co-occurrence word output from the first co-occurrence word filter means and the first parallel translation co-occurrence word output from the second appearance frequency search means are compared, and the matched first parallel translation co-words are compared. Second parallel co-occurrence word comparison means for outputting only the word to the co-occurrence word determination means;
The second co-occurrence word output from the second co-occurrence word filter means is compared with the second bi-translation co-occurrence word output from the first appearance frequency search means, and the matched second parallel co-occurrence words are compared. 9. The program according to claim 8, further causing a computer to function as first parallel co-occurrence word comparing means for outputting only the word to the co-occurrence word determining means.
第1の言語体系のコーパス辞書を用いて、第1の原語と共起する複数の第1の共起語を抽出する第1の共起語抽出手段と、
第1の言語体系の対訳辞書を用いて、第1の共起語の対訳となる第2の対訳共起語を抽出する第1の対訳共起語抽出手段と、
第2の言語体系のコーパス辞書を用いて、第2の原語と第2の対訳共起語とを組み合わせた語列毎に出現頻度を検索する第1の出現頻度検索手段と、
最も出現頻度が多い語列における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定する共起語決定手段と
を有することを特徴とする装置。 The first language of the first language system and the second language of the second language system, which is a parallel translation of the first language, are input, and the second language system suitable as a usage for the first language A device for outputting the second co-occurrence word of
First co-occurrence word extracting means for extracting a plurality of first co-occurrence words co-occurring with the first original word using a corpus dictionary of the first language system;
First bilingual co-occurrence word extraction means for extracting a second bilingual co-occurrence word that becomes a bilingual translation of the first co-occurrence word using a bilingual dictionary of the first language system;
Using a corpus dictionary of a second language system, first appearance frequency search means for searching for an appearance frequency for each word string combining the second original word and the second parallel co-occurrence word;
And a co-occurrence word determining means for determining a second parallel co-occurrence word in a word string having the highest appearance frequency as a second co-occurrence word suitable as a usage for the first original word.
第1の言語体系のコーパス辞書を用いて、第1の原語と共起する複数の第1の共起語を抽出する第1のステップと、
第1の言語体系の対訳辞書を用いて、第1の共起語の対訳となる第2の対訳共起語を抽出する第2のステップと、
第2の言語体系のコーパス辞書を用いて、第2の原語と第2の対訳共起語とを組み合わせた語列毎に出現頻度を検索する第3のステップと、
最も出現頻度が多い語列における第2の対訳共起語を、第1の原語に対する用法として適切な第2の共起語として決定する第4のステップと
を有することを特徴とする方法。 Using the apparatus, the first original language of the first language system and the second original language of the second language system, which is a parallel translation of the first original language, are input and suitable as a usage for the first original language A method for outputting a second co-occurrence word of a second language system,
A first step of extracting a plurality of first co-occurrence words co-occurring with a first original word using a corpus dictionary of a first language system;
A second step of extracting a second parallel co-occurrence word that is a parallel translation of the first co-occurrence word using the parallel translation dictionary of the first language system;
A third step of searching for the appearance frequency for each word string combining the second original word and the second parallel co-occurrence word using a corpus dictionary of the second language system;
And a fourth step of determining the second parallel co-occurrence word in the word sequence having the highest appearance frequency as a second co-occurrence word suitable as a usage for the first original word.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014016510A JP6138065B2 (en) | 2014-01-31 | 2014-01-31 | Program, apparatus and method for outputting search keywords suitable for different language systems |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014016510A JP6138065B2 (en) | 2014-01-31 | 2014-01-31 | Program, apparatus and method for outputting search keywords suitable for different language systems |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015143907A JP2015143907A (en) | 2015-08-06 |
| JP6138065B2 true JP6138065B2 (en) | 2017-05-31 |
Family
ID=53888910
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014016510A Expired - Fee Related JP6138065B2 (en) | 2014-01-31 | 2014-01-31 | Program, apparatus and method for outputting search keywords suitable for different language systems |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6138065B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110347904A (en) * | 2019-05-28 | 2019-10-18 | 成都美美臣科技有限公司 | One multilingual electronic business web site handles language search method |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3987525B2 (en) * | 2004-12-20 | 2007-10-10 | 沖電気工業株式会社 | Bilingual expression extraction device |
| JP5284724B2 (en) * | 2008-08-27 | 2013-09-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Computer system for outputting second language term which is translation pair of first language term to be translated, method and computer program therefor |
-
2014
- 2014-01-31 JP JP2014016510A patent/JP6138065B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2015143907A (en) | 2015-08-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7282940B2 (en) | System and method for contextual retrieval of electronic records | |
| Le et al. | Flaubert: Unsupervised language model pre-training for french | |
| CN110543574B (en) | A method, device, equipment and medium for constructing a knowledge graph | |
| Othman et al. | English-asl gloss parallel corpus 2012: Aslg-pc12 | |
| JP6413256B2 (en) | CONFERENCE SUPPORT DEVICE, CONFERENCE SUPPORT DEVICE CONTROL METHOD, AND PROGRAM | |
| US10083226B1 (en) | Using web ranking to resolve anaphora | |
| JP6225012B2 (en) | Utterance sentence generation apparatus, method and program thereof | |
| JP5620349B2 (en) | Dialogue device, dialogue method and dialogue program | |
| Agić et al. | Baselines and test data for cross-lingual inference | |
| Tiwari et al. | Ensemble approach for twitter sentiment analysis | |
| Abdullahi et al. | Retrieval augmented zero-shot text classification | |
| Ramesh et al. | ‘beach’to ‘bitch’: Inadvertent unsafe transcription of kids’ content on youtube | |
| Schamoni et al. | A dataset and reranking method for multimodal MT of user-generated image captions | |
| Al-Mannai et al. | Unsupervised word segmentation improves dialectal Arabic to English machine translation | |
| Ermakova et al. | Overview of the CLEF 2025 JOKER lab: Humour in machine | |
| KR101928074B1 (en) | Server and method for content providing based on context information | |
| Koh | A comparative error analysis of neural machine translation output: based on film corpus | |
| Dhanani et al. | FAST-MT participation for the JOKER CLEF-2022 automatic pun and humour translation tasks | |
| JP6138065B2 (en) | Program, apparatus and method for outputting search keywords suitable for different language systems | |
| Ebrahim et al. | Detecting and integrating multiword expression into english-arabic statistical machine translation | |
| Simonsen | Improving Machine Translation for Faroese using ChatGPT-Generated Parallel Data | |
| Khairova et al. | Automatic extraction of synonymous collocation pairs from a text corpus | |
| Medhat et al. | Corpora preparation and stopword list generation for Arabic data in social network | |
| Artese et al. | Multilingual specialist glossaries in a framework for intangible cultural heritage | |
| Tikarya et al. | Pre-processing phase of text summarization based on gujarati language |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160707 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170411 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170425 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170425 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6138065 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |