JP7416614B2 - Learning model generation method, computer program, information processing device, and information processing method - Google Patents
Learning model generation method, computer program, information processing device, and information processing method Download PDFInfo
- Publication number
- JP7416614B2 JP7416614B2 JP2019233573A JP2019233573A JP7416614B2 JP 7416614 B2 JP7416614 B2 JP 7416614B2 JP 2019233573 A JP2019233573 A JP 2019233573A JP 2019233573 A JP2019233573 A JP 2019233573A JP 7416614 B2 JP7416614 B2 JP 7416614B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- data
- character string
- image data
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Description
特許法第30条第2項適用 令和 1年 6月 4日に、2019年度 人工知能学会全国大会(第33回)にて公開 令和 1年 7月 1日に、データサイエンティスト:ゆるふわ採用座談会にて公開 令和 1年 7月13日に、CCSE 2019にて公開 令和 1年 7月16日に、Data Driven Developer Meetup #6にて公開Application of
本発明は、画像から文字列を認識する学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び、情報処理方法に関する。 The present invention relates to a method for generating a learning model that recognizes character strings from images, a computer program, an information processing device, and an information processing method.
画像内の文字列を、ニューラルネットワークを用いて認識する学習方法が種々提案されている。特許文献1には、帳票に記入されうる単語が登録されたデータベースを用いた学習によって、帳票の画像データからの文字列の認識処理の精度を改善する方法が開示されている。
Various learning methods have been proposed for recognizing character strings in images using neural networks.
ニューラルネットワークを用いた文字認識が多様な場面で可能であるとはいえ、あらゆる画像から特に条件もなく、文字を認識することは依然として難しい。ニューラルネットワークを用いた文字認識を精度よく、また学習効率を向上させるためには、特許文献1に示されているように、対象となる画像を特定の画像とし、認識対象外の単語を除外し、前後の文字から類推が可能な状態とすることが必要である。
Although character recognition using neural networks is possible in a variety of situations, it is still difficult to recognize characters from any image without any particular conditions. In order to improve character recognition accuracy using a neural network and to improve learning efficiency, as shown in
本発明は、精度よく、教師データのデータ量が少ない場合であっても効率的に学習できる文字認識のための学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法を提供することを目的とする。 The present invention provides a method for generating a learning model for character recognition, a computer program, an information processing device, and an information processing method that can learn accurately and efficiently even when the amount of teacher data is small. With the goal.
本開示の一実施形態の学習モデルの生成方法は、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、画像データ及び該画像データの画像に文字列が写っているか否かを示す存否データの組を含む教師データを取得し、画像データを入力した場合に、写っている文字列のテキストデータ及び存否データを出力する学習モデルを、前記教師データを用いて生成する。 A learning model generation method according to an embodiment of the present disclosure includes a set of image data of an image in which a character string is shown and text data of the character string, and a set of image data and text data of the character string, and whether or not the character string is shown in the image data and the image data. A learning model that outputs text data and presence/absence data of a character string in the image when image data is input is obtained using the training data.
本開示の学習モデルの生成方法では、学習モデルは、文字列が写っていない画像の画像データと、文字列が写っている画像の画像データ及びその画像に写っている文字列の正解データとを用いて、文字列が写っているか否かの存否の判定と、文字列の認識とを同一のネットワークで学習させて生成される。 In the learning model generation method of the present disclosure, the learning model uses image data of an image without a character string, image data of an image with a character string, and correct data of the character string in the image. It is generated by training the same network to determine whether a character string is present or not and to recognize the character string.
本開示の一実施形態の情報処理装置は、画像データを入力した場合に、前記画像データの画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルが記憶してある記憶部と、画像データを取得する画像取得部と、該画像取得部が取得した画像データを前記モデルに入力することによって前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する出力部とを備える。 The information processing device according to an embodiment of the present disclosure is trained to output text data and presence/absence data that are the recognition results of character strings appearing in the image of the image data when image data is input. A storage unit in which a model is stored, an image acquisition unit that acquires image data, and an image acquisition unit that inputs the image data acquired by the image acquisition unit into the model, based on the text data and presence/absence data output from the model. , an output unit that determines whether a character string is included in the image of the image data and outputs the included character string.
本開示の一実施形態の情報処理方法は、画像データを入力した場合に、前記画像データ
の画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルを記憶しておき、画像データを取得し、取得した画像データを前記モデルに入力し、前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する処理を含む。
An information processing method according to an embodiment of the present disclosure is trained to output, when image data is input, text data and presence/absence data that are the recognition results of a character string appearing in an image of the image data. A model is memorized, image data is acquired, the acquired image data is input to the model, and based on the text data and presence/absence data output from the model, whether a character string is reflected in the image of the image data is determined. Includes processing to determine whether or not the image is displayed and to output the character string in the image.
本開示の一実施形態のコンピュータプログラムは、画像データを入力した場合に、前記画像データの画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルを記憶してあるコンピュータに、画像データを取得し、取得した画像データを前記モデルに入力し、前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する処理を実行させる。 A computer program according to an embodiment of the present disclosure is a model trained to output, when image data is input, text data and presence/absence data that are the recognition results of a character string appearing in an image of the image data. is stored in a computer, the acquired image data is input to the model, and based on the text data and presence/absence data output from the model, a character string is reflected in the image of the image data. The process of outputting whether or not there is a character in the image and the character string in the image is executed.
本開示のコンピュータプログラムでは、車両から撮像される画像に写っている文字といった、低解像であって教師データが少ない対象であっても、学習モデルを用いて認識精度を向上させることができる。 In the computer program of the present disclosure, recognition accuracy can be improved using a learning model even for a target with low resolution and little training data, such as characters in an image captured from a vehicle.
本開示の一実施形態のコンピュータプログラムは、画像データを入力した場合に、前記画像データの画像に検出対象の文字列が写っている範囲を検出するように学習されてある第1モデル、及び、画像データを入力した場合に、写っている文字列を示すテキストデータ及び存否データを出力するように学習してある第2モデルを記憶してあるコンピュータに、第1画像データを取得し、取得した第1画像データを前記第1モデルに入力し、前記第1画像データの画像から、前記第1モデルにて検出された検出範囲を抽出した第2画像データを取得し、第2画像データを前記第2モデルに入力し、前記第1モデルから出力される、検出範囲及び該検出範囲に文字列が写っている確信度、並びに、前記第2モデルから出力されたテキストデータ及び該テキストデータと共に出力される文字列である確信度を、前記第1画像データと対応付けて記憶する処理を実行させる。 A computer program according to an embodiment of the present disclosure includes a first model trained to detect, when image data is input, a range in which a character string to be detected is included in an image of the image data; The first image data was acquired into a computer storing a second model that had been trained to output text data indicating character strings in the image and presence/absence data when image data was input. First image data is input to the first model, second image data is obtained by extracting the detection range detected by the first model from the image of the first image data, and second image data is input to the first model. The detection range and the confidence that a character string is included in the detection range are input to the second model and output from the first model, and the text data output from the second model and output together with the text data. A process of storing the certainty factor, which is a character string, in association with the first image data is executed.
本開示の生成方法によれば、少ない教師データであっても、教師データが多い場合と同程度の精度で文字列を認識できる学習モデルが生成できる。 According to the generation method of the present disclosure, even with a small amount of training data, a learning model that can recognize character strings with the same degree of accuracy as when there is a large amount of training data can be generated.
本開示をその実施の形態を示す図面を参照して具体的に説明する。 The present disclosure will be specifically described with reference to drawings showing embodiments thereof.
(実施の形態1)
図1は、文字認識を実行する情報処理装置1のブロック図である。情報処理装置1は、制御部10、画像処理部11、記憶部12、通信部13、及び読取部14を備える。情報処理装置1及び情報処理装置1における動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
(Embodiment 1)
FIG. 1 is a block diagram of an
制御部10は、CPU(Central Processing Unit )等のプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。画像処理部11は、GPU(Graphics
Processing Unit)又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行し、学習モデル1Mとして機能する。なお、制御部10及び画像処理部11は、一体のハードウェアであってもよい。また制御部10及び画像処理部11は、CPU、GPU等のプロセッサ、メモリ、更には記憶部12及び通信部13を集積した1つのハードウェア(SoC:System On a Chip)として構成されていてもよい。
The
Using a processor such as a processing unit (Processing Unit) or a dedicated circuit and a memory, image processing is executed in accordance with control instructions from the
記憶部12は、ハードディスク又はフラッシュメモリを用いる。記憶部12には、学習プログラム1P、DL(Deep Learning )ライブラリ1Lが記憶されている。また記憶部12には、DLライブラリ1Lを用いた学習によって生成される学習モデル1Mを定義する定義情報、学習済み(学習中)の学習モデル1Mにおける各層の重み係数等を含むパラメータ情報等が記憶される。
The
記憶部12には、学習モデル1Mの学習を実行するための学習プログラム(コンピュータプログラム)1Pが記憶されている。制御部10は、学習プログラム1Pに基づいて、記憶部12に記憶されている定義情報に基づくネットワークのパラメータの学習処理を実行する。
The
通信部13は、外部からのデータを入力し、外部へデータを送信するインタフェースである。通信部13は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部13は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを含んでもよい。通信部13は、USBインタフェースであってもよい。
The
読取部14は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体7に記憶してある学習プログラム71P、DLライブラリ71Lを読み取ることが可能である。記憶部12に記憶してあるDLライブラリ1Lは、記録媒体7から読取部14が読み取った学習プログラム71Pを、制御部10が記憶部12に複製したものであってもよい。
The
このように構成される情報処理装置1は、記憶部12に記憶してあるDLライブラリ1L、及び学習プログラム1Pに基づき、畳み込みニューラルネットワーク(以下、CNN(Convolutional Neural Network )と呼ぶ)及びリカレントNNを、学習モデル1Mとするべくパラメータを学習する処理を行なう。
The
図2は、学習モデル1Mの概要図である。学習モデル1Mは、文字列の画像データを入力して特徴量を出力するCNN121と、CNN121からの出力を順次入力するBi-LSTM(Long Short Term Memory)であるRNN122とを含む。学習モデル1Mは、RNN122の出力から尤もらしい文字の確率分布を出力するCRF(Conditional Random Field)層123を含む。 FIG. 2 is a schematic diagram of the learning model 1M. The learning model 1M includes a CNN 121 that inputs character string image data and outputs feature amounts, and an RNN 122 that is a Bi-LSTM (Long Short Term Memory) that sequentially inputs the output from the CNN 121. The learning model 1M includes a CRF (Conditional Random Field) layer 123 that outputs a probability distribution of plausible characters from the output of the RNN 122.
学習モデル1Mは、CRF層123からの出力を分岐させて入力し、画像に写っている
文字列のデータを出力する第1出力層124と、分岐された出力を入力し、画像に文字列が写っているかの存否データを出力する第2出力層125とを含む。
The learning model 1M has a first output layer 124 which inputs the branched output from the CRF layer 123 and outputs the data of the character string appearing in the image, and a first output layer 124 which inputs the branched output and outputs the data of the character string shown in the image. and a second output layer 125 that outputs presence/absence data of the image.
このように、本開示の学習モデル1Mは、入力はCNN121であるのに対し、異なるデータを出力する第1出力層124及び第2出力層125を同時に学習させるマルチタスク学習によって生成される。 In this way, the learning model 1M of the present disclosure uses the CNN 121 as an input, and is generated by multitask learning in which the first output layer 124 and the second output layer 125 that output different data are simultaneously trained.
CNN121は、入力された画像データの画像から、文字列の並列方向に、相互に重複する範囲を抽出するフィルターを含む。CNN121は、順次抽出された範囲の画像データについて、特徴量を文字列の並列方向に沿って順に出力する。 The CNN 121 includes a filter that extracts mutually overlapping ranges in the parallel direction of character strings from an image of input image data. The CNN 121 sequentially outputs feature amounts for the sequentially extracted range of image data along the parallel direction of the character strings.
RNN122は、CNN121から順に出力される特徴量を順に入力し、入力される範囲毎に、その範囲に写っている文字の確信度を順次出力する。このときRNNは、空白文字も含めてその確信度を出力する。 The RNN 122 sequentially inputs the feature quantities output from the CNN 121, and sequentially outputs, for each input range, the confidence of characters appearing in that range. At this time, the RNN outputs the confidence level including blank characters.
CRF層123はRNN122から順次出力される文字及び角度から、CNN121に入力されている画像データの画像に写っている可能性が最も確率が高い文字の組み合わせを出力する。 The CRF layer 123 outputs a combination of characters that is most likely to appear in the image of the image data input to the CNN 121 based on the characters and angles sequentially output from the RNN 122 .
第1出力層124は、CRF層123から出力される文字列の組み合わせから、CNN121のフィルターで重複して抽出されていることを考慮し、連続する文字列は同一の文字であると判断し、CNN121に入力されている画像データの画像に写っている可能性が最も高い文字列を出力する。図2に示すように第1出力層124は、CTC(Connectionist Temporal Classification )を用い、空白文字を挟まずに連続して同一の文字が出力されている場合には、1つの文字であるとして出力する。 The first output layer 124 considers that the combination of character strings output from the CRF layer 123 is extracted redundantly by the filter of CNN 121, and determines that consecutive character strings are the same character, The character string that is most likely to appear in the image of the image data input to CNN 121 is output. As shown in FIG. 2, the first output layer 124 uses CTC (Connectionist Temporal Classification), and if the same character is output continuously without a blank space, it is output as one character. do.
第2出力層125は、CRF層123から出力される文字列の組み合わせと、その確率から、CNN121に入力されている画像データの画像にそもそも、文字列が写っているか否かの判定結果である存否データを出力する。 The second output layer 125 is a determination result of whether or not a character string appears in the image of the image data input to the CNN 121, based on the combination of character strings output from the CRF layer 123 and their probabilities. Output presence/absence data.
図3は、学習モデル1Mの生成方法の一例を示すフローチャートであり、図4及び図5は、学習モデル1Mの学習の概要図である。図4及び図5に示す概要図は、図2の学習モデル1Mと、教師データの例を示している。 FIG. 3 is a flowchart showing an example of a method for generating the learning model 1M, and FIGS. 4 and 5 are schematic diagrams of learning of the learning model 1M. The schematic diagrams shown in FIGS. 4 and 5 show examples of the learning model 1M of FIG. 2 and teacher data.
制御部10は、学習プログラム1Pに基づいて、DLライブラリ1Lに基づいて画像処理部11を用い、図2のように、CNN121、RNN122、CRF層123、第1出力層124、及び第2出力層125を定義するネットワークを生成する(ステップS101)。
The
制御部10は、教師データとして図4に示すように、文字列(図4では数字列)が写っている画像の画像データをネットワークのCNN121へ与える(ステップS102)。制御部10は、ネットワークの第1出力層124から出力される文字列及びその確信度と、第2出力層125から出力される存否データ(確率)とを特定する(ステップS103)。
As shown in FIG. 4, the
制御部10は、ステップS103で特定した文字列のテキスト、確信度、存否データと、教師データである前記画像に写っている文字列を表すテキスト(正解)、及び、文字列が存在することを示す存否データ(正解)とを用いて損失を演算で求める(ステップS104)。
The
制御部10は、画像処理部11を用い、ステップS104で求めた損失を、ネットワークに逆伝播させる学習を実行し、パラメータを更新する(ステップS105)。ステップS105において制御部10は、1つの画像データに対し、学習回数が所定回数と到達するまで、又は、第1出力層124から出力される文字列の精度が所定精度に到達するまで繰り返し学習するとよい。
The
制御部10は、教師データとして図5に示すように、文字列が写っていない画像の画像データをネットワークのCNN121へ与える(ステップS106)。制御部10は、第1出力層124からの出力は用いず、第2出力層125から出力される存否データ(確率)のみを特定する(ステップS107)。
As shown in FIG. 5, the
制御部10は、ステップS107で特定した存否データと、教師データである画像に文字列が存在しないことを示す存否データ(正解)とを用いて損失を演算で求める(ステップS108)。
The
制御部10は、画像処理部11を用い、ステップS108で求めた損失を、ネットワークに逆伝播させる学習を実行し、パラメータを更新する(ステップS109)。ステップS109においても制御部10は、1つの画像データに対し、第2出力層125から出力される存否データの精度が所定精度に到達するまで繰り返し学習するとよい。
The
制御部10は、教師データとして用意された画像データ全てについて学習処理を実行したか否かを判断する(ステップS110)。制御部10は、全てについて学習処理を実行していないと判断した場合(S110:NO)、処理をステップS102へ戻す。全てについて学習処理を実行したと判断された場合(S110:YES)、制御部10は、学習処理を終了する。
The
図3のフローチャートに示す手順では、制御部10は、文字列が写っている画像を1つ選択してステップS102-S105の処理を実行してから、文字列がいない画像を1つ選択してステップS106-S109の処理を実行することを、全ての画像データに対して処理が完了するまで、交互に繰り返すとして説明した。しかしながら、制御部10は、文字列が写っている画像の全ての画像データについてステップS102-S105の処理を実行してから、文字列が写っていない画像の全ての画像データについてステップS106-S109の処理を実行するようにしてもよい。
In the procedure shown in the flowchart of FIG. 3, the
再学習の際は、新たな画像データを用いて制御部10は、ステップS102-S110の処理を実行するとよい。
When relearning, the
このように学習モデル1Mは、文字列が写っていない画像の画像データと、文字列が写っている画像の画像データ及びその画像に写っている文字列の正解データとを用いて、文字列が写っているか否かの存否の判定と、文字列の認識とを同一のネットワークで学習させて生成される。これにより、学習モデル1Mに対し、文字列(数字)の形自体を学習させることができ、認識精度が、少ない教師データ量でも向上する。 In this way, the learning model 1M uses the image data of images that do not include character strings, the image data of images that do include character strings, and the correct data for the character strings that appear in those images. It is generated by training the same network to determine whether the image is present or not and to recognize character strings. This allows the learning model 1M to learn the shape of the character string (number) itself, and the recognition accuracy improves even with a small amount of training data.
実施の形態1では、学習モデル1Mは、図2-5に示したように、CNN-RNNで構成するとして説明した。学習モデル1Mは、画像を文字列方向に順次抽出するフィルターを使わず、且つRNN122及びCRF層123を用いることなく実現されてもよい。例えば学習モデル1Mは、画像データを入力するCNN121及び他の公知の画像認識用のネットワークを用いて実現されてもよい。 In the first embodiment, the learning model 1M was described as being configured with CNN-RNN as shown in FIG. 2-5. The learning model 1M may be realized without using a filter that sequentially extracts images in the character string direction, and without using the RNN 122 and the CRF layer 123. For example, the learning model 1M may be realized using the CNN 121 that inputs image data and other known networks for image recognition.
図6は、学習データ量の精度の関係を示すグラフである。図6は、教師データの消費割
合に対する、認識精度の向上の推移を示す。図6中、実線は、上述の学習モデル1Mの学習方法によって生成されている過程における精度の推移を示す。破線は、第2出力層125を用いないモデル、即ち単純に文字列認識を学習させたモデルにおける精度の推移を示す。
FIG. 6 is a graph showing the relationship between the amount of learning data and the accuracy. FIG. 6 shows the transition of improvement in recognition accuracy with respect to the consumption rate of training data. In FIG. 6, the solid line indicates the transition in accuracy during the process of generating the learning model 1M using the learning method described above. The broken line shows the transition in accuracy in a model that does not use the second output layer 125, that is, a model that is simply trained to recognize character strings.
図6に示すように、複数の出力によってネットワークのパラメータを更新するマルチタスク学習によって、少ない教師データ量であっても、学習が進んだ後の精度と同程度に向上していることが分かる。 As shown in FIG. 6, it can be seen that multitask learning, which updates network parameters using multiple outputs, improves accuracy to the same extent as the accuracy after learning, even with a small amount of training data.
(実施の形態2)
実施の形態では、実施の形態1で説明した情報処理装置1によって文字列を認識し、認識した文字列と、文字列を含む画像が撮影された位置情報とを対応付けて記憶するデータベースを作成し、文字列が示すテキストデータに基づく情報を提供する情報提供サービスを実現する。認識される文字列は、実施の形態2においてはガソリンスタンドにおけるガソリンの値段を示す数字列である。
(Embodiment 2)
In the embodiment, a character string is recognized by the
図7は、実施の形態2の情報提供サービスの概要図である。情報提供サービスは、ガソリンスタンドが設けられている道路を走行する車両V、情報処理装置1、通信機2、収集装置3、記憶装置4、情報提供装置5、及び、情報端末装置6を含む。
FIG. 7 is a schematic diagram of the information providing service according to the second embodiment. The information providing service includes a vehicle V that travels on a road where a gas station is provided, an
通信機2は、車両Vに搭載されている。通信機2は、車両Vに設けられたドライブレコーダによって得られる画像データを収集装置3へ画像データを送信する。通信機2と収集装置3との間は、公衆ネットワークN1及びキャリアネットワークN2を含むネットワークNを介して通信接続が可能である。ネットワークNは、車両Vと収集装置3との間の通信接続のための専用ネットワークを含んでもよいし、道路交通情報の通信に使用されるネットワークであってもよい。
The
収集装置3は、複数の車両Vから画像データを収集し、記憶装置4に記憶させる。収集装置3、情報処理装置1、記憶装置4、及び情報提供装置5は、サービス提供者のローカルネットワークLNを介して相互に、また、各々、外部のネットワークNを介して他装置と通信接続が可能である。収集装置3は、記憶装置4に記憶した画像データを情報処理装置1へ与える。収集装置3は、情報処理装置1から出力される、画像データの画像に数字列が写っているか否か、写っている場合には数字列が示す数値は何であるかのデータを取得する。収集装置3は、取得した数値データ、即ちガソリンの値段を示す数値データを、画像データが撮像された際の車両Vの走行位置を示す位置データと対応付けて記憶装置4にて蓄積し、逐次最新のデータに更新する。
The
情報提供装置5は、情報端末装置6と、ネットワークNを介して通信接続が可能である。情報提供装置5は、記憶装置4に記憶されている位置データと対応付けられているガソリンの値段を示す数値データに基づいて、地図上にガソリンの値段を表示させるサービスを提供する。
The
図8は、情報提供サービスを実現する通信機2の構成を示すブロック図である。通信機2は、通信部22及びGPS受信機23を備え、車両Vに、車両外を写すように搭載された撮影装置20(例えばドライブレコーダ)から動画像の画像データを逐次取得する。通信機2は、撮影装置20から画像データを取得した時点の車両Vの位置を示す位置データをGPS受信機23によって取得し、画像データに対応付ける。通信機2は、対応付けられた画像データ及び位置データを、キャリアネットワーク、専用ネットワーク、又はビーコン等の無線通信を実現する通信部22により、収集装置3に向けて送信する。通信機2は、撮影装置20が設けられている車両Vの識別情報、及び時刻情報を、画像データ及び
位置データ対応付けて送信してもよい。
FIG. 8 is a block diagram showing the configuration of the
図9は、収集装置3、情報処理装置1及び記憶装置4の構成を示すブロック図である。収集装置3は、制御部30、画像処理部31、記憶部32、及び通信部33を備える。制御部30は、CPU等のプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。画像処理部31は、GPU又は専用回路等のプロセッサ及びメモリを用い、制御部30からの制御指示に応じて画像処理を実行する。なお、制御部30及び画像処理部31は、一体のハードウェアであってもよい。
FIG. 9 is a block diagram showing the configurations of the
記憶部32は、処理プログラム30P及び画像処理プログラム31Pを記憶する。記憶部32には、画像処理部31によってガソリンの値段が写っている可能性が高い領域を検出するための検出モデル3Mの定義データが記憶されている。
The
制御部30は、処理プログラム30Pに基づき、通信機2から画像データ及び位置データを受信し、少なくとも、画像データを識別する識別IDと、受信した日時のデータとを対応付けて記憶装置4へ送信して記憶させる処理を実行する。
The
制御部30は、画像処理プログラム31Pに基づき、取得した画像データから、ガソリンの値段が写っている可能性が高い領域を検出する検出モデル3Mによる領域検出処理を、画像処理部31を用いて実行する。検出モデル3Mは、ドライブレコーダで撮像された画像から、ガソリンの値段が写っている領域を検出するように学習されている。検出モデル3Mは、例えばSSD(Single Shot Detector/Single Shot Multibox Detector )等を用い、予めその領域がガソリンの値段が写っている領域であるという教師データに基づいて学習済みである。画像処理部31は、その他、画像データにおける特定のものが写っている可能性が高い領域を画像から抽出するための公知の手法を用いてもよい。
Based on the
通信部33は、ローカルネットワークLN、又はネットワークNを介した記憶装置4及び情報処理装置1との通信接続を実現する通信モジュールである。通信部33は例えばネットワークカードである。
The
記憶装置4は、制御部40、記憶部41及び通信部42を備える。制御部40は、CPU等のプロセッサを用いる。記憶部41は、ハードディスク、SSD(Solid State Drive)等の大容量不揮発性メモリを用いる。記憶部41には、車両Vのドライブレコーダで撮像されて送信された画像データ及び位置データ、画像データから文字列の部分を抽出した画像データ、並びに、抽出後の画像データから認識されたテキストデータ(数値データ)及び存否データが、識別IDに対応付けて記憶される。
The
図10は、収集装置3及び情報処理装置1による処理手順の一例を示すフローチャートである。
FIG. 10 is a flowchart illustrating an example of a processing procedure by the
制御部30は、通信機2から画像データを通信によって取得する(ステップS301)。制御部30は、画像データと対応付けて送信される位置データを取得する(ステップS302)。
The
制御部30は、画像データ及び位置データを、識別IDに対応付けて記憶装置4に記憶させる(ステップS303)。
The
制御部30は、画像データを検出モデル3Mへ入力し(ステップS304)、検出モデル3Mから出力される検出範囲、及び、検出範囲にガソリンの値段を示す文字列(数字列)が写っている確信度を示すデータを取得する(ステップS305)。
The
制御部30は、確信度に基づいてガソリンの値段が写っている領域が検出できたか否かを判断する(ステップS306)。制御部40は、ステップS305によって複数の領域が検出されている場合、夫々に対してステップS306の処理及び以下のステップS307以降の処理を実行する。
The
ステップS306にて、値段が写っている領域が検出できたと判断された場合(S306:YES)、制御部30は、ステップS301で取得した画像データの画像から、検出範囲を抽出し(ステップS307)、抽出された画像の画像データを取得する(ステップS308)。
If it is determined in step S306 that the area in which the price is captured has been detected (S306: YES), the
制御部30は、抽出後の画像データを、情報処理装置1へ通信部33から送信する(ステップS309)。
The
情報処理装置1は、収集装置3から送信された抽出後の画像データを通信部13から取得する(ステップS121)。情報処理装置1の制御部10は、取得した画像データを、学習済みの学習モデル1Mとして機能する画像処理部11へ入力する(ステップS122)。
The
画像処理部11は、学習モデル1Mとして、値段を示すテキストデータ(数値データ)、認識された数値の確信度のデータ、及び値段が写っているか否かを示す存否データを出力する(ステップS123)。
The
制御部10は、テキストデータ(数値データ)及び存否データを通信部13から収集装置3へ送信する(ステップS124)。
The
収集装置3の制御部30は、情報処理装置1から送信されたテキストデータ及び存否データを通信部33によって取得する(ステップS310)。制御部30は、取得したテキストデータ及び存否データを、識別IDに対応付けて記憶装置4に記憶させ(ステップS311)、処理を終了する。
The
ステップS311により、存否データが、文字列が写っていないことを示す画像データであっても、記憶装置4に蓄積される。
In step S311, presence/absence data is accumulated in the
ステップS306にて、値段が写っている領域が検出できていなかったと判断された場合(S306:NO)、制御部30は、ステップS307-S311の処理を省略して処理を終了する。制御部30はこの場合、ステップS303で記憶した画像データ及び位置データを削除してもよい。
If it is determined in step S306 that the area in which the price is shown has not been detected (S306: NO), the
収集装置3は、情報処理装置1とは異なるハードウェアとして存在し、図10のフローチャートに示す処理手順を実行するとして説明したが、収集装置3及び情報処理装置1は1つのコンピュータで実現されてもよい。
Although the
図11は、ドライブレコーダで撮像された画像に対する処理結果を示す。図11に示すように、撮像画像に対し、検出モデル3Mに基づいて値段が写っている領域が、所定の確信度で検出されて抽出される。図11に示すように、抽出後の画像が学習モデル1Mに入力された場合、ガソリンの値段を示す数値、領域検出の確信度、数値の確信度、存否結果の確信度が出力される。
FIG. 11 shows processing results for images captured by a drive recorder. As shown in FIG. 11, based on the
このように情報処理装置1を用いて得られる画像に写っている文字列を学習済みの学習
モデル1Mを用いて認識できることにより、以下に示すように、ガソリンの値段を地図上に示すサービスが実現される。
By being able to recognize character strings in images obtained using the
図12は、情報提供装置5及び情報端末装置6の構成を示すブロック図である。情報提供装置5は、サーバコンピュータであって、制御部50、記憶部51、及び通信部52を備える。
FIG. 12 is a block diagram showing the configurations of the
制御部50は、CPU又はGPU等であるプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。記憶部51には、情報提供プログラム5P、情報端末装置6からのリクエストを受け付けるためのWebサーバプログラム、及び地図データが記憶されている。記憶部51にはその他、制御部50が参照するデータが記憶されている。
The
通信部52は、ネットワークNを介した情報端末装置6との通信接続を実現するためのネットワークカード又は無線通信モジュールである。通信部52は、記憶装置4からデータを読み出すためにネットワークNを介した通信接続を実現するためのネットワークカード又は無線通信モジュールを含む。
The
制御部50は、情報提供プログラム5Pに基づき、情報端末装置6からのリクエストに基づいて、リクエストで指示される位置データを含む所定範囲におけるガソリンの値段を、地図上に示すWebページのデータを情報端末装置6へ送信する。
Based on the
情報端末装置6は、パーソナルコンピュータ、スマートフォン、タブレット端末等のコンピュータである。情報端末装置6は、制御部60、記憶部61、表示部62、操作部63、及び通信部64を備える。
The
制御部60は、CPUまたはGPUを用いたプロセッサである。制御部60は、CPU、又はGPU等のプロセッサと、メモリ等を含む。制御部60は、記憶部61に記憶されている汎用のWebブラウザベースの表示プログラム6Pに基づき、情報提供装置5と通信接続し、汎用コンピュータを、情報提供サービスを受ける端末装置として動作させる。
The
記憶部61は、例えばフラッシュメモリ等の不揮発性メモリを含む。記憶部61には、上述の表示プログラム6Pが記憶されている。
The
表示部62は、液晶パネル又は有機ELディスプレイ等のディスプレイ装置を含む。操作部63は、ユーザの操作を受け付けるインタフェースであり、物理ボタン、ディスプレイ内蔵のタッチパネルデバイスを含む。操作部63は、物理ボタンまたはタッチパネルにて表示部62で表示している画面上における操作を受け付けることが可能である。操作部63は、マイクロフォン等を含み、マイクロフォンにて入力音声から操作内容を認識して操作を受け付けてもよい。
The
通信部64は、ネットワークNを介した情報端末装置6との通信接続を実現するためのネットワークカード又は無線通信モジュールである。
The
制御部60は、表示プログラム6Pに基づいて、操作部63で受け付けた位置データをリクエストとして情報提供装置5へ送信し、位置データが示す位置周辺におけるガソリンの値段を表示部62に表示させることができる。
Based on the
図13は、情報提供装置5によって提供される情報の表示例を示す。図13には、地図画像上に、各位置で撮像された画像の画像データから認識されたガソリンの値段のテキス
ト又は画像が重畳して表示されている。これにより、情報端末装置6を操作する操作者は、ガソリンの値段を把握することができる。ガソリンの値段は、車両Vで撮像された画像データが送信される都度、最新のデータに更新される。履歴として記憶装置4に蓄積されるので、制御部60は、操作に応じて、ガソリンの値段の推移を表示部62に表示させてもよい。
FIG. 13 shows a display example of information provided by the
このようにして、ドライブレコーダで撮像されるガソリンスタンドにおけるガソリンの値段といった比較的小さな範囲の低解像となる画像内の文字列であっても、学習モデル1Mを用いた認識であれば、高精度に値段を認識できる。 In this way, even if it is a character string in a relatively small range of low-resolution images, such as the price of gasoline at a gas station captured by a drive recorder, recognition using learning model 1M can achieve high resolution. You can recognize prices with precision.
実施の形態2においては、収集装置3が収集する画像データは、車両Vのドライブレコーダにて撮影された画像の画像データであった。車両Vはタクシーに限られないし、運搬車輌であってもよい。自動運転機能を有する車両であってもよい。更に、文字列(数字列)の認識対象となる画像データは、車両Vに限らず、所謂ドローンと呼ばれるような無人機に搭載されている撮影装置によって撮影されたデータであってもよい。
In the second embodiment, the image data collected by the
上述のように開示された実施の形態は全ての点で例示であって、制限的なものではない。本発明の範囲は、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれる。 The embodiments disclosed above are illustrative in all respects and are not restrictive. The scope of the present invention is indicated by the claims, and includes all changes within the meaning and range equivalent to the claims.
1 情報処理装置
10 制御部
11 画像処理部
12 記憶部
13 通信部
1M 学習モデル(第2モデル)
121 CNN
122 RNN
123 CRF層
124 第1出力層
125 第2出力層
1P 学習プログラム
3 収集装置
30 制御部
32 記憶部
30P 処理プログラム
31P 画像処理プログラム
3M 検出モデル(第1モデル)
4 記憶装置
41 記憶部
6 情報端末装置
62 表示部
1
121 CNN
122 RNN
123 CRF layer 124 First output layer 125
4
Claims (15)
前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第1出力層、及び、前記画像における文字列の存否データを出力する第2出力層を含み、
前記学習モデルに対し、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、文字列が写っている画像及び文字列が写っていない画像それぞれの画像データと、該画像データそれぞれについて画像に文字列が写っているか否かを示す存否データとの組を含む教師データを取得し、
前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第1出力層からの出力と、第2出力層からの出力とを用いて、前記畳み込みニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第1出力層からの出力を用いず、前記第2出力層からの出力を用いた損失関数によって学習する
学習モデルの生成方法。 A method for generating a learning model that outputs text data and presence/absence data of character strings in the image when image data is input , the method comprising:
The learning model includes a convolutional neural network that separates and sequentially inputs image data, and a recurrent neural network that sequentially inputs feature data output from the convolutional neural network,
The recurrent neural network includes a first output layer that outputs a character string appearing in an image of input image data, and a second output layer that outputs presence/absence data of a character string in the image,
For the learning model, a set of image data of an image in which a character string is shown and text data of the character string, image data of an image in which a character string is shown and an image in which no character string is shown, and the image data. For each, obtain training data including a pair with presence/absence data indicating whether or not a character string is included in the image,
When image data of an image containing a character string included in the teacher data is input, the convolutional neural network uses the output from the first output layer and the output from the second output layer. learn the parameters in
When image data of an image that does not include a character string and is included in the teacher data is input, the parameters in the convolutional neural network and the recurrent neural network are set without using the output from the first output layer, A method for generating a learning model in which learning is performed using a loss function using the output from the second output layer .
請求項1に記載の生成方法。 The convolutional neural network is configured to sequentially extract mutually overlapping predetermined ranges in the horizontal direction from images of input image data, and input image data of images in the extracted predetermined ranges. Generation method.
請求項1又は2に記載の生成方法。 When image data of an image showing the character string is input, the probability that the correct text data of the teacher data will be obtained using the output from the first output layer and the output from the second output layer. learning parameters in the convolutional neural network and recurrent neural network so as to maximize
The production method according to claim 1 or 2 .
文字列が写っている画像の画像データが入力された場合には、前記文字列のテキストデータ、及び文字列が写っていることを示す存否データを出力し、
文字列が写っていない画像の画像データが入力された場合には文字列が写っていないことを示す存否データを出力するように学習される
請求項1から請求項3のいずれか1項に記載の生成方法。 The learning model is
When image data of an image showing a character string is input, outputting text data of the character string and presence/absence data indicating that the character string is shown;
According to any one of claims 1 to 3 , the device is trained to output presence/absence data indicating that a character string is not included when image data of an image that does not include a character string is input. How to generate.
請求項1から請求項4のいずれか1項に記載の生成方法。 The generation method according to any one of claims 1 to 4 , wherein the image data is image data photographed by a photographing device mounted outward on a vehicle.
前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第1出力層、及び、前記画像における文字列の存否データを出力する第2出力層を含み、
前記コンピュータに、
前記学習モデルに対し、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、文字列が写っている画像及び文字列が写っていない画像それぞれの画像データと、該画像データそれぞれについて画像に文字列が写っているか否かを示す存否データとの組を含む教師データを取得し、
前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第1出力層からの出力と、第2出力層からの出力とを用いて、前記畳み込みニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第1出力層からの出力を用いず、前記第2出力層からの出力を用いた損失関数によって学習する
処理を実行させるコンピュータプログラム。 A computer program that generates, when image data is input to a computer, a learning model that outputs text data and presence/absence data of a character string in the image, the computer program comprising:
The learning model includes a convolutional neural network that separates and sequentially inputs image data, and a recurrent neural network that sequentially inputs feature data output from the convolutional neural network,
The recurrent neural network includes a first output layer that outputs a character string appearing in an image of input image data, and a second output layer that outputs presence/absence data of a character string in the image,
to the computer;
For the learning model, a set of image data of an image in which a character string is shown and text data of the character string, image data of an image in which a character string is shown and an image in which no character string is shown, and the image data. For each, obtain training data including a pair with presence/absence data indicating whether or not a character string is included in the image,
When image data of an image containing a character string included in the teacher data is input, the convolutional neural network uses the output from the first output layer and the output from the second output layer. learn the parameters in
When image data of an image that does not include a character string and is included in the teacher data is input, the parameters in the convolutional neural network and the recurrent neural network are set without using the output from the first output layer, Learning by a loss function using the output from the second output layer
A computer program that performs a process.
前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第1出力層、及び、前記画像における文字列の存否データを出力する第2出力層を含み、
前記コンピュータは、
前記学習モデルに対し、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、文字列が写っている画像及び文字列が写っていない画像それぞれの画像データと、該画像データそれぞれについて画像に文字列が写っているか否かを示す存否データとの組を含む教師データを取得し、
前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第1出力層からの出力と、第2出力層からの出力とを用いて、前記畳み込みニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第1出力層からの出力を用いず、前記第2出力層からの出力を用いた損失関数によって学習する
情報処理方法。 A method for generating a learning model that outputs text data and presence/absence data of a character string in the image when a computer inputs image data, the method comprising:
The learning model includes a convolutional neural network that separates and sequentially inputs image data, and a recurrent neural network that sequentially inputs feature data output from the convolutional neural network,
The recurrent neural network includes a first output layer that outputs a character string appearing in an image of input image data, and a second output layer that outputs presence/absence data of a character string in the image,
The computer includes:
For the learning model, a set of image data of an image in which a character string is shown and text data of the character string, image data of an image in which a character string is shown and an image in which no character string is shown, and the image data. For each, obtain training data including a pair with presence/absence data indicating whether or not a character string is included in the image,
When image data of an image containing a character string included in the teacher data is input, the convolutional neural network uses the output from the first output layer and the output from the second output layer. learn the parameters in
When image data of an image that does not include a character string and is included in the teacher data is input, the parameters in the convolutional neural network and the recurrent neural network are set without using the output from the first output layer, Learning by a loss function using the output from the second output layer
Information processing method.
画像データを取得し、
取得した画像データを前記モデルに入力し、
前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する
処理を実行させるコンピュータプログラム。 A computer storing a model trained by the generation method according to any one of claims 1 to 5 ,
Get the image data,
Input the acquired image data into the model,
A computer program that executes a process of determining whether or not a character string appears in an image of the image data and outputting the character string that appears, based on text data and presence/absence data output from the model.
前記モデルから出力されたテキストデータと、該テキストデータと共に出力される前記画像データの画像に文字列が写っている確信度に関する情報と、前記画像データとを対応付けて記憶する
処理を実行させる請求項8に記載のコンピュータプログラム。 to the computer;
A request for executing a process of associating and storing the text data output from the model, information regarding the certainty that a character string is reflected in the image of the image data, which is output together with the text data, and the image data. The computer program according to item 8 .
前記モデルから出力された存否データが、文字列が写っていないことを示している場合に、前記画像データと、文字列の不存在を示すデータとを対応付けて記憶する
処理を実行させる請求項8又は9に記載のコンピュータプログラム。 to the computer;
A claim that executes a process of storing the image data in association with data indicating the absence of a character string when the presence/absence data output from the model indicates that the character string is not included in the image. 10. The computer program according to 8 or 9 .
請求項8から請求項10のいずれか1項に記載のコンピュータプログラム。 The computer program according to any one of claims 8 to 10 , wherein the image data is image data photographed by a photographing device mounted outward on a vehicle.
前記画像データが撮影されたタイミングにおける前記車両の位置データを取得し、
取得した位置データを、前記画像データを前記モデルに入力することによって前記モデルから出力されるテキストデータ及び存否データと対応付けて記憶する
処理を実行させる請求項11に記載のコンピュータプログラム。 to the computer;
obtaining position data of the vehicle at the timing when the image data was taken;
12. The computer program according to claim 11 , wherein the computer program executes a process of storing the acquired position data in association with text data and presence/absence data output from the model by inputting the image data into the model.
第1画像データを取得し、
取得した第1画像データを前記第1モデルに入力し、
前記第1画像データの画像から、前記第1モデルにて検出された検出範囲を抽出した第2画像データを取得し、
第2画像データを前記第2モデルに入力し、
前記第1モデルから出力される、検出範囲及び該検出範囲に文字列が写っている確信度、並びに、前記第2モデルから出力されたテキストデータ及び該テキストデータと共に出力される文字列である確信度を、前記第1画像データと対応付けて記憶する
処理を実行させるコンピュータプログラム。 A first model trained to detect a range in which a character string to be detected is included in an image of the image data when image data is input; A computer that stores a second model trained by the generation method described above ,
Obtain first image data,
inputting the acquired first image data into the first model;
obtaining second image data in which a detection range detected by the first model is extracted from the first image data;
inputting second image data into the second model;
The detection range output from the first model and the confidence that the character string is included in the detection range, the text data output from the second model and the confidence that the character string is output together with the text data. A computer program that causes a computer program to execute a process of storing an image data in association with the first image data.
画像データを取得する画像取得部と、
該画像取得部が取得した画像データを前記モデルに入力することによって前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する出力部と
を備える情報処理装置。 A storage unit storing a model trained by the generation method according to any one of claims 1 to 5 ;
an image acquisition unit that acquires image data;
By inputting the image data acquired by the image acquisition unit into the model, it is possible to determine whether or not a character string appears in the image of the image data, based on the text data and presence/absence data output from the model. An information processing device comprising: an output unit that outputs a character string;
画像データを取得し、
取得した画像データを前記モデルに入力し、
前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する
処理を含む情報処理方法。 Storing a trained model by the generation method according to any one of claims 1 to 5 ,
Get the image data,
Input the acquired image data into the model,
An information processing method including processing for determining whether or not a character string is shown in an image of the image data and outputting a character string that is shown based on text data and presence/absence data output from the model.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019233573A JP7416614B2 (en) | 2019-12-24 | 2019-12-24 | Learning model generation method, computer program, information processing device, and information processing method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019233573A JP7416614B2 (en) | 2019-12-24 | 2019-12-24 | Learning model generation method, computer program, information processing device, and information processing method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021103386A JP2021103386A (en) | 2021-07-15 |
| JP7416614B2 true JP7416614B2 (en) | 2024-01-17 |
Family
ID=76755190
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019233573A Active JP7416614B2 (en) | 2019-12-24 | 2019-12-24 | Learning model generation method, computer program, information processing device, and information processing method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7416614B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113609965B (en) * | 2021-08-03 | 2024-02-13 | 同盾科技有限公司 | Text recognition model training methods and devices, storage media, and electronic equipment |
| JP7793925B2 (en) * | 2021-09-30 | 2026-01-06 | Toppanホールディングス株式会社 | Information processing device, information processing method, and information processing program |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018132953A (en) | 2017-02-15 | 2018-08-23 | ソフネック株式会社 | Image processing method and computer program |
| JP2018152026A (en) | 2017-03-15 | 2018-09-27 | ソフネック株式会社 | Character recognition method and computer program |
| JP2019148521A (en) | 2018-02-28 | 2019-09-05 | 株式会社Jvcケンウッド | Recognition image display device, recognition image display method and program |
-
2019
- 2019-12-24 JP JP2019233573A patent/JP7416614B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018132953A (en) | 2017-02-15 | 2018-08-23 | ソフネック株式会社 | Image processing method and computer program |
| JP2018152026A (en) | 2017-03-15 | 2018-09-27 | ソフネック株式会社 | Character recognition method and computer program |
| JP2019148521A (en) | 2018-02-28 | 2019-09-05 | 株式会社Jvcケンウッド | Recognition image display device, recognition image display method and program |
Non-Patent Citations (3)
| Title |
|---|
| Khaoula Elagouni,Combining Multi-Scale Character Recognition and Linguistic Knowledge for Natural Scene Text OCR,2012 10th IAPR International Workshop on Document Analysis Systems,IEEE,2012年,P.120-124,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6195347 |
| Siyang Qin,Cascaded Segmentation-Detection Networks for Word-Level Text Spotting,2017 14th IAPR International Conference on Document Analysis and Recognition,IEEE,2017年,P.1275-1282,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8270141 |
| 芦田 和毅,情景画像からの文字抽出,電子情報通信学会論文誌 D-II,日本,社団法人電子情報通信学会,2005年09月01日,Vol.J88-D-II No.9,P.1817-1824 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021103386A (en) | 2021-07-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20220058812A1 (en) | Target recognition method and appartus, storage medium, and electronic device | |
| US20230128964A1 (en) | Mobile Device And System For Automated Trip Familiarity Recognition And Corresponding Method Thereof | |
| EP4105600B1 (en) | Method for automatically producing map data, related apparatus and computer program product | |
| US20210097103A1 (en) | Method and system for automatically collecting and updating information about point of interest in real space | |
| US12067471B2 (en) | Searching an autonomous vehicle sensor data repository based on context embedding | |
| CN114385662B (en) | Road network updating method and device, storage medium and electronic equipment | |
| TW202034270A (en) | Vehicle accident identification method and apparatus, and electronic device | |
| EP3378222A1 (en) | Moving vehicle detection and analysis using low resolution remote sensing imagery | |
| JP7374001B2 (en) | Learning model generation method, program, and information processing device | |
| CN119360555A (en) | A vehicle-mounted geological disaster early warning system and method based on environmental perception | |
| CN114898085B (en) | A cross-regional emergency positioning method under GNSS unavailability conditions | |
| JP7416614B2 (en) | Learning model generation method, computer program, information processing device, and information processing method | |
| CN114396956A (en) | Navigation method and apparatus, computing device, storage medium, and computer program product | |
| CN115311867B (en) | Tunnel scene positioning method and device, computer equipment and storage medium | |
| JP2016045678A (en) | Price display system, price determination apparatus, display device, price determination method, and price determination program | |
| CN113628272A (en) | Indoor positioning method and device, electronic equipment and storage medium | |
| CN111310595B (en) | Method and device for generating information | |
| CN110097600A (en) | The method and device of traffic mark board for identification | |
| CN116664873B (en) | Image information processing method, device and storage medium | |
| CN119888680A (en) | Map element positioning and identifying method, device, equipment, medium and product | |
| US20200111239A1 (en) | Image generation apparatus, image generation method, and non-transitory recording medium recording program | |
| JP7160763B2 (en) | Information processing device, information processing system, information processing method, program, and application program | |
| JP7258667B2 (en) | Information providing device, information providing system, and information providing method | |
| CN116258883B (en) | Target detection method, device, equipment and readable storage medium | |
| US20260127889A1 (en) | Scenario representations for online sampling of scenarios |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200121 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221111 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230929 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231206 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240104 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7416614 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
| R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
| R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |