JP7696255B2 - Learning support device, learning support method, and learning support program - Google Patents
Learning support device, learning support method, and learning support program Download PDFInfo
- Publication number
- JP7696255B2 JP7696255B2 JP2021138985A JP2021138985A JP7696255B2 JP 7696255 B2 JP7696255 B2 JP 7696255B2 JP 2021138985 A JP2021138985 A JP 2021138985A JP 2021138985 A JP2021138985 A JP 2021138985A JP 7696255 B2 JP7696255 B2 JP 7696255B2
- Authority
- JP
- Japan
- Prior art keywords
- rectangle
- closed edge
- learning support
- input
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
開示の実施形態は、学習支援装置、学習支援方法および学習支援プログラムに関する。 The disclosed embodiments relate to a learning support device, a learning support method, and a learning support program.
従来、深層学習等のアルゴリズムを用いてAI(Artificial Intelligence)モデルの学習を行うに際し、正例となる教師データを作成する作業であるアノテーションが知られている(たとえば、特許文献1参照)。 Conventionally, annotation is known as a process for creating training data that serves as positive examples when training an AI (Artificial Intelligence) model using algorithms such as deep learning (see, for example, Patent Document 1).
かかるアノテーションのうち、画像認識用のAIモデルのためのアノテーションでは、画像中の各物体を囲むバウンディングボックス(以下、「BB」と記載する)と呼ばれる矩形が、人手を介したいわゆるVDT(Visual Display Terminals)作業により作成される。また、作成された各BBに対し、各物体の名称や属性等を示すメタデータが付与される。 Among these annotations, in annotations for AI models for image recognition, rectangles called bounding boxes (hereafter referred to as "BBs") that surround each object in the image are created manually using so-called VDT (Visual Display Terminals) work. In addition, metadata indicating the name, attributes, etc. of each object is assigned to each created BB.
しかしながら、従来技術は、アノテーションの品質を確保するうえで、さらなる改善の余地がある。 However, conventional techniques leave room for further improvement in ensuring annotation quality.
たとえば、AIモデルの精度を高めるには、大量の画像を収集し、これらの各画像に対しアノテーションを行う必要があるが、上述したVDT作業においては膨大な工数が掛かるうえに、作業者の心身の疲労も大きくなるという問題があった。 For example, to improve the accuracy of an AI model, it is necessary to collect a large number of images and annotate each of these images. However, the VDT work described above requires a huge amount of man-hours and causes great physical and mental fatigue for the workers.
また、特に上述のBBは、教師データとしての品質を高めるために、物体以外の余分な領域を極力含めないように作成されることが好ましいが、人手によっては容易ではないうえ、作業者の熟練度によって品質が左右されてしまうおそれがある。 In particular, it is preferable to create the BB described above so as to include as few extraneous areas other than the object as possible in order to improve the quality of the training data. However, this is not easy to do manually, and there is a risk that the quality will be affected by the skill level of the worker.
実施形態の一態様は、上記に鑑みてなされたものであって、画像認識用のAIモデルのためのアノテーションの品質を確保することができる学習支援装置、学習支援方法および学習支援プログラムを提供することを目的とする。 One aspect of the embodiment has been made in consideration of the above, and aims to provide a learning support device, a learning support method, and a learning support program that can ensure the quality of annotations for an AI model for image recognition.
実施形態の一態様に係る学習支援装置は、コントローラを備える。前記コントローラは、教師データ作成におけるアノテーションの対象画像における物体のエッジを抽出し、抽出されたエッジのうち、閉曲線として抽出されたエッジである閉エッジに接する閉エッジ矩形を作成し、ユーザにより前記対象画像に対し入力された入力矩形と前記閉エッジ矩形との類似度を算出し、前記類似度が最も大きい前記閉エッジ矩形を選択し、選択された前記閉エッジ矩形を前記アノテーションのためのバウンディングボックスとして採用する。 A learning support device according to one aspect of an embodiment includes a controller that extracts edges of an object in a target image for annotation in creating teacher data , creates a closed-edge rectangle tangent to a closed edge that is an edge extracted as a closed curve from among the extracted edges, calculates a similarity between an input rectangle input by a user for the target image and the closed-edge rectangle, selects the closed-edge rectangle with the largest similarity , and employs the selected closed-edge rectangle as a bounding box for the annotation .
実施形態の一態様によれば、画像認識用のAIモデルのためのアノテーションの品質を確保することができる。 According to one aspect of the embodiment, it is possible to ensure the quality of annotations for an AI model for image recognition.
以下、添付図面を参照して、本願の開示する学習支援装置、学習支援方法および学習支援プログラムの実施形態を詳細に説明する。なお、以下に示す実施形態によりこの発明が限定されるものではない。 Below, embodiments of the learning support device, learning support method, and learning support program disclosed in the present application will be described in detail with reference to the attached drawings. Note that the present invention is not limited to the embodiments described below.
まず、実施形態に係る学習支援方法の概要について、図1~図5を用いて説明する。図1は、実施形態に係る学習支援装置10の概略構成を示す図である。また、図2~図5は、実施形態に係る学習支援方法の概要説明図(その1)~(その4)である。
First, an overview of the learning support method according to the embodiment will be described with reference to Figs. 1 to 5. Fig. 1 is a diagram showing a schematic configuration of a
学習支援装置10は、画像認識用のAIモデルのためのアノテーションを行うに際して、アノテーションの作業者であるユーザUによって利用されるコンピュータである。学習支援装置10は、たとえば、デスクトップ型やノート型のPC(Personal Computer)や、タブレット端末や、スマートフォンや、サーバや、ワークステーション等である。
The
図1に示すように、実施形態に係る学習支援装置10は、HMI(Human Machine Interface)部3を有する。また、学習支援装置10は、対象画像DB11aと、矩形情報DB11eとを有する。
As shown in FIG. 1, the
HMI部3は、ユーザUに対するインターフェイス部品を提供する構成要素である。HMI部3は、入力部3aと、出力部3bとを含む。
The
入力部3aは、ユーザUからの入力操作を受け付ける入力デバイスであって、たとえばキーボードや、マウスや、ペンタブレットや、タッチパネル等によって実現される。なお、入力部3aは、ソフトウェア部品によって実現されてもよい。
The
出力部3bは、アノテーションの対象画像や、かかる対象画像上に入力されるBB等を表示出力する出力デバイスであって、ディスプレイ等によって実現される。なお、タッチパネルディスプレイにより、入力部3aと一体に構成されてもよい。
The
対象画像DB11aは、アノテーションの作業対象となる各画像が格納されたデータベースである。矩形情報DB11eは、アノテーションにおいて各画像上に作成されたBBの位置やサイズ等に関する情報である矩形情報が格納されるデータベースである。 The target image DB11a is a database that stores each image that is the subject of annotation work. The rectangle information DB11e is a database that stores rectangle information, which is information about the position, size, etc. of the BB created on each image during annotation.
ユーザUは、HMI部3を介したVDT作業により、対象画像DB11aに格納された各画像に対するアノテーションを行い、その結果として作成されたBBに関する矩形情報が矩形情報DB11eへ格納される。
The user U performs VDT work via the
ところで、このようなアノテーションに関する既存技術は、アノテーションの品質を確保するうえで、さらなる改善の余地がある。 However, existing annotation technologies like this leave room for further improvement in terms of ensuring annotation quality.
たとえば、AIモデルの精度を高めるには、大量の画像を収集し、これらの各画像に対しアノテーションを行う必要があるが、VDT作業においては膨大な工数が掛かるうえに、ユーザUの心身の疲労も大きくなるという問題があった。 For example, to improve the accuracy of an AI model, it is necessary to collect a large number of images and annotate each of these images, but this requires a huge amount of man-hours in VDT work and causes great physical and mental fatigue for the user U.
また、特にBBは、教師データとしての品質を高めるために、物体以外の余分な領域を極力含めないように作成されることが好ましいが、人手によっては容易ではないうえ、ユーザUの熟練度によって品質が左右されてしまうおそれがある。 In particular, it is preferable to create the BB so that it includes as little extraneous area as possible other than the object in order to improve the quality of the training data, but this is not easy to do manually, and there is a risk that the quality will be affected by the level of skill of the user U.
そこで、実施形態に係る学習支援方法では、アノテーションの対象画像における物体のエッジを抽出し、抽出されたエッジのうち、閉曲線として抽出されたエッジである閉エッジに接する閉エッジ矩形を作成し、ユーザUにより対象画像に対し入力された入力矩形と閉エッジ矩形との類似度を算出し、類似度が最も大きい閉エッジ矩形を選択することとした。 Therefore, in the learning support method according to the embodiment, the edges of the object in the target image for annotation are extracted, and from among the extracted edges, a closed edge rectangle is created that is tangent to a closed edge, which is an edge extracted as a closed curve. The similarity between the input rectangle input to the target image by user U and the closed edge rectangle is calculated, and the closed edge rectangle with the greatest similarity is selected.
具体的に、図2に示すように、実施形態に係る学習支援方法ではまず、学習支援装置10が、アノテーションの対象画像に対し、ユーザUの入力操作による入力矩形IRを作成する(ステップS1)。同図に示すように、ユーザUは、たとえば対象画像上における始点P1から終点P2へ向けたマウス等による領域選択操作により、入力矩形IRを指定する。
2, in the learning support method according to the embodiment, first, the
一方で、学習支援装置10は、図3に示すように、同じ対象画像について、予めエッジを抽出する(ステップS2)。かかるエッジの抽出については、キャニー法(Canny edge detector)等の公知のアルゴリズムを用いてもよいし、オリジナルのアルゴリズムを用いてもよい。
On the other hand, the
そして、学習支援装置10は、図4に示すように、抽出されたエッジのうち、閉曲線として抽出された、すなわち両端の一致する閉じたエッジ(以下、「閉エッジ」という)に対し、かかる閉エッジに接する矩形を自動的に作成する(ステップS3)。同図において破線で示すのが、かかる閉ヘッジに接する矩形(以下、「閉エッジ矩形」という)である。
Then, as shown in Figure 4, for the extracted edges that are extracted as closed curves, i.e., closed edges with matching ends (hereafter referred to as "closed edges"), the
そして、学習支援装置10は、同図に示すように、閉エッジ矩形のうち、入力矩形IRと最も類似する閉エッジ矩形を自動調整後の矩形ARとして選択する(ステップS4)。最も類似する閉エッジ矩形の選択方法については、図8以降を用いた説明で後述する。
Then, as shown in the figure, the
そして、学習支援装置10は、図5に示すように、出力部3bに対し、自動調整後の矩形ARとともに、かかる矩形ARを採用するか否かをユーザUに問い合わせるダイアログを表示する(ステップS5)。
Then, as shown in FIG. 5, the
同図に示すように、ここでユーザUが「Yes」を選択した場合、学習支援装置10は、BBとして調整後の矩形ARを採用する。一方、ユーザUが「No」を選択した場合、学習支援装置10は、BBとして調整前の矩形、すなわち入力矩形IRを採用する。
As shown in the figure, if the user U selects "Yes" here, the
このように、実施形態に係る学習支援方法では、アノテーションの対象画像における物体のエッジを抽出し、抽出されたエッジのうち、閉曲線として抽出されたエッジである閉エッジに接する閉エッジ矩形を作成し、ユーザUにより対象画像に対し入力された入力矩形IRと閉エッジ矩形との類似度を算出し、類似度が最も大きい閉エッジ矩形を選択することとした。 In this way, the learning support method according to the embodiment extracts the edges of an object in an image to be annotated, creates a closed edge rectangle that is tangent to a closed edge, which is an edge extracted as a closed curve from among the extracted edges, calculates the similarity between the input rectangle IR input to the target image by user U and the closed edge rectangle, and selects the closed edge rectangle with the greatest similarity.
したがって、実施形態に係る学習支援方法によれば、既存技術では、大量に収集された各画像に対し、ユーザUが個人の感覚・判断で逐一行う必要のあったBBの作成に掛かる工数を大幅に削減することが可能となる。また、これにより、VDT作業におけるユーザUの心身の疲労も軽減することができる。 Therefore, according to the learning support method of the embodiment, it is possible to significantly reduce the amount of work required to create a BB for each image collected in large quantities, which in the existing technology required the user U to do one by one based on his/her personal sense and judgment. This also makes it possible to reduce the mental and physical fatigue of the user U during VDT work.
また、実施形態に係る学習支援方法によれば、エッジ抽出を含む画像解析技術を用いて自動的に作成する、画像中の物体の境界に接する閉エッジ矩形をBBとして採用可能であるので、ユーザUの熟練度によって教師データの品質が左右されることを低減することができる。 In addition, according to the learning support method of the embodiment, a closed edge rectangle that is automatically created using image analysis technology including edge extraction and that is in contact with the boundary of an object in an image can be used as the BB, thereby reducing the influence of the user U's level of proficiency on the quality of the training data.
すなわち、実施形態に係る学習支援方法によれば、画像認識用のAIモデルのためのアノテーションの品質を確保することができる。以下、実施形態に係る学習支援方法を適用した学習支援装置10の構成例について、より具体的に説明する。
In other words, according to the learning support method of the embodiment, it is possible to ensure the quality of annotations for an AI model for image recognition. Below, a more specific description is given of an example configuration of a
図6は、実施形態に係る学習支援装置10の構成例を示すブロック図である。なお、図6では、実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。
Figure 6 is a block diagram showing an example of the configuration of a
換言すれば、図6に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。 In other words, each component shown in FIG. 6 is a functional concept, and does not necessarily have to be physically configured as shown. For example, the specific form of distribution and integration of each block is not limited to that shown, and all or part of it can be functionally or physically distributed and integrated in any unit depending on various loads, usage conditions, etc.
また、図6を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。 In addition, in the explanation using Figure 6, the explanation of components that have already been explained may be simplified or omitted.
図6に示すように、実施形態に係る学習支援装置10は、記憶部11と、制御部12とを備える。また、学習支援装置10は、有線または無線を介し、あるいは直接に、HMI部3が接続される。
As shown in FIG. 6, the
HMI部3については説明済みのため、ここでの説明は省略する。記憶部11は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部11は、図6の例では、対象画像DB11aと、抽出アルゴリズム情報11bと、エッジ情報11cと、類似度算出情報11dと、矩形情報DB11eとを記憶する。
Since the
対象画像DB11aおよび矩形情報DB11eについては説明済みのため、ここでの説明は省略する。抽出アルゴリズム情報11bは、後述するエッジ抽出部12baが実行するエッジ抽出処理において用いられるアルゴリズムのライブラリ情報である。
The
エッジ情報11cは、エッジ抽出部12baによって抽出されたエッジに関する情報が格納される。類似度算出情報11dは、入力矩形IRと閉エッジ矩形との類似度の算出基準となるアルゴリズムや各種のパラメータ等が格納される。類似度算出情報11dは、たとえばユーザUが事前に選定し、静的な情報として予め設定可能である。
The
制御部12は、コントローラ(controller)であり、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、記憶部11に記憶されている図示略の各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部12は、たとえば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現することができる。
The
制御部12は、画像描写部12aと、画像解析部12bと、矩形作成部12cとを有し、以下に説明する情報処理の機能や作用を実現または実行する。
The
画像描写部12aは、対象画像DB11aに格納されたアノテーションの対象画像を出力部3bに対し出力する。画像描写部12aは、矩形描画部12aaを含む。矩形描画部12aaは、入力部3aを介して入力された入力矩形IRを対象画像上へ描画する。
The
画像解析部12bは、対象画像に対する画像解析処理を実行する。画像解析部12bは、エッジ抽出部12baを含む。エッジ抽出部12baは、抽出アルゴリズム情報11bに基づいて、対象画像に対するエッジ抽出処理を実行する。
The
なお、エッジ抽出部12baは、上述したキャニー法の他、エッジ抽出の公知のアルゴリズムとして、SobelやLaplacian等を用いることができる。 In addition to the above-mentioned Canny algorithm, the edge extraction unit 12ba can use known algorithms for edge extraction, such as Sobel and Laplacian.
エッジ抽出部12baは、これら公知のアルゴリズムおよびオリジナルのアルゴリズムの中から、ユーザUによって任意に選択されたアルゴリズムを用いてエッジ抽出処理を実行するようにしてもよい。 The edge extraction unit 12ba may perform edge extraction processing using an algorithm arbitrarily selected by the user U from among these publicly known algorithms and original algorithms.
このような画像解析処理により画像中の物体の境界を抽出することで、ユーザUの感覚・判断に依存せず、一定の品質を保つことができる。また、アルゴリズムを任意に選択できるようにすることで、教師データの特性に依らない機能実現が可能となる。たとえば、物体の色や形状、あるいは画像の明度や彩度によってアルゴリズムを使い分け、物体のエッジを精度よく抽出することが可能となる。 By extracting the boundaries of objects in an image using this type of image analysis processing, it is possible to maintain a certain level of quality without relying on the senses and judgments of the user U. Furthermore, by allowing the algorithm to be selected arbitrarily, it is possible to realize functions that are not dependent on the characteristics of the training data. For example, by using different algorithms depending on the color or shape of the object, or the brightness or saturation of the image, it is possible to extract the edges of the object with high precision.
矩形作成部12cは、閉エッジ矩形作成部12caと、最類似矩形選択部12cbとを含む。閉エッジ矩形作成部12caは、エッジ抽出部12baによって抽出されたエッジ情報11cに基づいて、上述した閉エッジに接する閉エッジ矩形を作成する。
The
ここで、図7は、閉エッジ矩形作成処理の説明図である。図7に示すように、閉エッジ矩形作成部12caは、エッジ情報11cから、閉エッジCeの横位置最小値X1、横位置最大値X2、縦位置最小値Y1、縦位置最大値Y2を取得する。
Here, FIG. 7 is an explanatory diagram of the closed edge rectangle creation process. As shown in FIG. 7, the closed edge rectangle creation unit 12ca obtains the minimum horizontal position value X1, maximum horizontal position value X2, minimum vertical position value Y1, and maximum vertical position value Y2 of the closed edge Ce from the
そして、閉エッジ矩形作成部12caは、同図に示すように、これらによって規定される4座標(X1,Y1)、(X1,Y2)、(X2,Y1)、(X2,Y2)を用いて閉エッジ矩形Rを作成する。 Then, the closed edge rectangle creation unit 12ca creates a closed edge rectangle R using the four coordinates (X1, Y1), (X1, Y2), (X2, Y1), and (X2, Y2) defined by these, as shown in the same figure.
これにより、ユーザUが、物体の境界に合わせて逐一BBを調整する必要がなくなり、VDT作業の工数を大幅に減少することができるとともに、ユーザUの負担を軽減することが可能となる。 This eliminates the need for user U to adjust BB to match the boundaries of the object one by one, significantly reducing the amount of work required for VDT work and easing the burden on user U.
図6の説明に戻る。最類似矩形選択部12cbは、類似度算出情報11dに基づいて、閉エッジ矩形作成部12caによって作成された各閉エッジ矩形Rと入力矩形IRとの類似度を算出し、類似度が最大となる閉エッジ矩形Rを選択する。
Returning to the explanation of FIG. 6, the most similar rectangle selection unit 12cb calculates the similarity between each closed edge rectangle R created by the closed edge rectangle creation unit 12ca and the input rectangle IR based on the
類似度算出のアルゴリズムは、上述したエッジ抽出の場合と同様に、ユーザUが任意に選択可能である。最類似矩形選択部12cbは、たとえば、類似度合いを計る要素として、アスペクト比や、中心位置や、横幅/縦幅等を要素として用いる。そして、最類似矩形選択部12cbは、入力矩形IRと各閉エッジ矩形Rの間の各要素差の二乗和から類似度を求め、類似度が最大となる閉エッジ矩形Rを選択する。 The algorithm for calculating the similarity can be selected by the user U as desired, as in the case of edge extraction described above. The most similar rectangle selection unit 12cb uses, for example, aspect ratio, center position, width/length, etc. as elements for measuring the degree of similarity. The most similar rectangle selection unit 12cb then calculates the similarity from the sum of squares of the element differences between the input rectangle IR and each closed edge rectangle R, and selects the closed edge rectangle R with the maximum similarity.
ここで、最類似矩形選択処理の具体例について、図8~図12を用いて説明する。図8~図12は、最類似矩形選択処理の具体例を示す図(その1)~(その5)である。 Here, specific examples of the most similar rectangle selection process will be described with reference to Figs. 8 to 12. Figs. 8 to 12 are diagrams (part 1) to (part 5) showing specific examples of the most similar rectangle selection process.
まず、図8に示すように、中心位置(4,3)、横幅8、縦幅6の入力矩形IR内に、星形、丸形、五角形の閉エッジが含まれているものとする。 First, as shown in Figure 8, the input rectangle IR has a center position of (4, 3), a width of 8, and a height of 6, and contains closed edges of a star, a circle, and a pentagon.
かかる場合に、図9に示すように、アスペクト比のみを比較する場合、最類似矩形選択部12cbは、星形の閉エッジに接する閉エッジ矩形R1、丸形の閉エッジに接する閉エッジ矩形R2、五角形の閉エッジに接する閉エッジ矩形R3のうち、アスペクト比が入力矩形IRと略同一の閉エッジ矩形R1を選択する。 In such a case, as shown in FIG. 9, when comparing only the aspect ratios, the most similar rectangle selection unit 12cb selects the closed edge rectangle R1 that has approximately the same aspect ratio as the input rectangle IR from among the closed edge rectangle R1 that is adjacent to the closed edge of a star, the closed edge rectangle R2 that is adjacent to the closed edge of a circle, and the closed edge rectangle R3 that is adjacent to the closed edge of a pentagon.
また、図10に示すように、中心位置のみを比較する場合、最類似矩形選択部12cbは、閉エッジ矩形R1,R2,R3のうち、中心位置が入力矩形IRと略同一の閉エッジ矩形R2を選択する。 Also, as shown in FIG. 10, when comparing only the center positions, the most similar rectangle selection unit 12cb selects the closed edge rectangle R2, which has a center position that is approximately the same as that of the input rectangle IR, from among the closed edge rectangles R1, R2, and R3.
また、図11に示すように、横幅/縦幅のみを比較する場合、最類似矩形選択部12cbは、閉エッジ矩形R1,R2,R3のうち、横幅/縦幅が入力矩形IRに最も類似する閉エッジ矩形R3を選択する。 Also, as shown in FIG. 11, when comparing only the width/height, the most similar rectangle selection unit 12cb selects the closed edge rectangle R3, which is the one that is most similar in width/height to the input rectangle IR, from among the closed edge rectangles R1, R2, and R3.
また、図12に示すように、入力矩形IR1に対し、たとえば閉エッジが一部しか含まれておらず、入力矩形IR1内に閉エッジが検出されていないものとする。かかる場合、同図に示すように、最類似矩形選択部12cbは、入力矩形IR1を一定量拡張し、拡張した入力矩形IR2内において閉エッジを検出し、閉エッジ矩形R1を作成する。 As shown in FIG. 12, for example, the input rectangle IR1 contains only a portion of closed edges, and no closed edges are detected within the input rectangle IR1. In such a case, as shown in the figure, the most similar rectangle selection unit 12cb expands the input rectangle IR1 by a certain amount, detects closed edges within the expanded input rectangle IR2, and creates a closed edge rectangle R1.
このように、入力矩形IR内外から物体の境界判定を補助することで、精密な入力矩形IRの作成が不要となり、ユーザUの負担を軽減させることができる。 In this way, by assisting in determining the boundaries of an object from inside and outside the input rectangle IR, it becomes unnecessary to create a precise input rectangle IR, thereby reducing the burden on the user U.
ところで、図5を用いた説明では、ユーザUに対し、入力矩形IRに対する自動調整後の矩形ARを採用するか否かを「Yes」または「No」で問い合わせる画面UI(User Interface)の例を挙げたが、画面UIはこれに限られるものではない。 In the explanation using Figure 5, an example of a screen UI (User Interface) that asks the user U whether or not to adopt the rectangle AR after automatic adjustment to the input rectangle IR by selecting "Yes" or "No" was given, but the screen UI is not limited to this.
以下、画面UIの各種の具体例について、図13~図26を用いて説明する。図13~図26は、画面UIの具体例を示す図(その1)~(その14)である。 Various specific examples of screen UIs will be explained below with reference to Figs. 13 to 26. Figs. 13 to 26 are diagrams (1) to (14) showing specific examples of screen UIs.
図13に示すように、たとえば学習支援装置10は、前述の採用の有無を問い合わせることなく、ユーザUによって入力された入力矩形IRに対し、自動調整後の矩形ARをBBとして自動的に採用するようにしてもよい。
As shown in FIG. 13, for example, the
また、図5でも示したが、図14に示すように、たとえば学習支援装置10は、ユーザUによって入力された入力矩形IRに対し、自動調整後の矩形ARの採用の有無を問い合わせるようにしてもよい。
As also shown in FIG. 5, as shown in FIG. 14, for example, the
かかる場合、図15に示すように、ユーザUにより「Yes」が選択されたならば、学習支援装置10は、BBとして自動調整後の矩形ARを採用することとなる。一方、図16に示すように、ユーザUにより「No」が選択されたならば、学習支援装置10は、BBとして入力矩形IRを採用することとなる。
In this case, as shown in FIG. 15, if the user U selects "Yes," the
また、図17に示すように、ユーザUにより入力された入力矩形IR内に複数の閉エッジが含まれるものとする。なお、かかるケースは、入力矩形IRを拡張した場合を含むものとする。また、ここでは、五角形と丸形の2つの閉エッジが含まれるものとする。 As shown in FIG. 17, the input rectangle IR input by the user U includes multiple closed edges. This case also includes the case where the input rectangle IR is expanded. In addition, it includes two closed edges, a pentagon and a circle.
かかる場合、同図に示すように、たとえば学習支援装置10は、前述の採用の有無を問い合わせることなく、ユーザUによって入力された入力矩形IRに対し、類似度が最大となる矩形ARをBBとして自動的に採用するようにしてもよい。
In such a case, as shown in the figure, for example, the
また、同様のケースで、図18に示すように、たとえば学習支援装置10は、ユーザUによって入力された入力矩形IRに対し、まず類似度が最大となる第1候補の矩形AR1の採用の有無を問い合わせるようにしてもよい。
In a similar case, as shown in FIG. 18, for example, the
かかる場合、図19に示すように、ユーザUにより「Yes」が選択されたならば、学習支援装置10は、BBとして第1候補の矩形AR1を採用することとなる。一方、図20に示すように、ユーザUにより「No」が選択されたならば、学習支援装置10は、その次に類似度が大きい第2候補の矩形AR2の採用の有無を問い合わせる。
In this case, as shown in FIG. 19, if the user U selects "Yes," the
そして、かかる場合に、図21に示すように、ユーザUにより「Yes」が選択されたならば、学習支援装置10は、BBとして第2候補の矩形AR2を採用することとなる。一方、図22に示すように、ユーザUにより「No」が選択されたならば、学習支援装置10は、BBとして入力矩形IRを採用することとなる。
In this case, if the user U selects "Yes" as shown in FIG. 21, the
また、たとえば学習支援装置10は、図18~図22に示した流れを、図23に示すように、キーボードの方向キーで選択を、Enterキーで採用を行えるようにしてもよい。
For example, the
また、同様に、たとえば学習支援装置10は、図24に示すように、マウスによるクリック操作や、指によるタップ操作によって選択および採用を行えるようにしてもよい。
Similarly, for example, the
次に、入力矩形IRに対し、既にアノテーション済みの矩形ARが含まれる場合を考える。図25に示すように、入力矩形IRに対し、アノテーション済みの矩形AR1,AR2が含まれているものとする。 Next, consider the case where the input rectangle IR includes an already annotated rectangle AR. As shown in FIG. 25, assume that the input rectangle IR includes annotated rectangles AR1 and AR2.
かかる場合、同図に示すように、たとえば学習支援装置10は、図13~図16に示したいずれかの方法で、まだアノテーション済みでない矩形AR3を選択および採用する。
In such a case, as shown in the figure, for example, the
また、図26に示すように、入力矩形IRに対し、アノテーション済みの矩形AR1が含まれているとともに、アノテーション済みでない複数の閉エッジが含まれているものとする。 As shown in FIG. 26, the input rectangle IR includes an annotated rectangle AR1, as well as multiple closed edges that have not been annotated.
かかる場合、同図に示すように、学習支援装置10は、まだアノテーション済みでない矩形AR2,AR3のうち、図17~図24に示したいずれかの方法で、たとえば矩形AR2を選択および採用する。
In such a case, as shown in the figure, the
次に、学習支援装置10が実行する処理シーケンスについて、図27を用いて説明する。図27は、実施形態に係る学習支援装置10が実行する処理シーケンスである。なお、図27には、1つの対象画像において1つのBBが作成されるまでの処理シーケンスを示している。
Next, the processing sequence executed by the
まず、ユーザUからHMI部3を介してアノテーションの対象画像が選択されると(ステップS101)、画像描写部12aが、HMI部3に対し対象画像を表示する(ステップS102)。また、画像描写部12aは、対象画像を画像解析部12bへ送信する。
First, when a target image for annotation is selected by the user U via the HMI unit 3 (step S101), the
画像解析部12bは、エッジ抽出部12baが、対象画像および記憶部11の抽出アルゴリズム情報11bに基づいてエッジ抽出処理を実行し(ステップS103)、処理結果であるエッジ情報11cを記憶部11へ書き込む。
The
そして、ユーザUからHMI部3を介して矩形入力を受け付けると(ステップS104)、画像描写部12aは、HMI部3に対し入力矩形IRを描画する(ステップS105)。また、画像描写部12aは、入力矩形IRに関する入力矩形情報を矩形作成部12cへ送信する。
Then, when a rectangle input is received from the user U via the HMI unit 3 (step S104), the
矩形作成部12cは、閉エッジ矩形作成部12caが、入力矩形IRおよび記憶部11のエッジ情報11cに基づいて閉エッジ矩形作成処理を実行する(ステップS106)。
The closed edge rectangle creation unit 12ca of the
そして、最類似矩形選択部12cbが、閉エッジ矩形作成処理の処理結果に基づいて最類似矩形選択処理を実行し(ステップS107)、処理結果である最類似矩形に関する最類似矩形情報を画像描写部12aへ送信する。画像描写部12aは、受信した最類似矩形情報に基づいて、HMI部3に対し最類似矩形を描画する(ステップS108)。
Then, the most similar rectangle selection unit 12cb executes the most similar rectangle selection process based on the result of the closed edge rectangle creation process (step S107), and transmits most similar rectangle information about the most similar rectangle, which is the result of the process, to the
そして、画像描写部12aは、ユーザUからHMI部3を介して、採用される矩形ARの選択を受け付けると(ステップS109)、かかる矩形ARをHMI部3に対し描画するとともに(ステップS110)、矩形作成部12cに対し、採用された矩形ARに関する採用矩形情報を送信する(ステップS111)。
Then, when the
そして、矩形作成部12cは、受信した採用矩形情報を記憶部11の矩形情報DB11eへ書き込み(ステップS112)、処理を終了する。
Then, the
上述してきたように、実施形態に係る学習支援装置10は、エッジ抽出部12ba(「抽出部」の一例に相当)と、閉エッジ矩形作成部12ca(「作成部」の一例に相当)と、最類似矩形選択部12cb(「選択部」の一例に相当)とを備える。エッジ抽出部12baは、アノテーションの対象画像における物体のエッジを抽出する。閉エッジ矩形作成部12caは、エッジ抽出部12baによって抽出されたエッジのうち、閉曲線として抽出されたエッジである閉エッジに接する閉エッジ矩形を作成する。最類似矩形選択部12cbは、ユーザUにより対象画像に対し入力された入力矩形IRと閉エッジ矩形との類似度を算出し、類似度が最も大きい閉エッジ矩形を選択する。
As described above, the
したがって、実施形態に係る学習支援装置10によれば、画像認識用のAIモデルのためのアノテーションの品質を確保することができる。
Therefore, according to the
また、エッジ抽出部12baは、ユーザUにより任意に選択されるエッジ抽出アルゴリズムを用いて上記物体のエッジを抽出する。 The edge extraction unit 12ba also extracts the edges of the object using an edge extraction algorithm arbitrarily selected by the user U.
したがって、実施形態に係る学習支援装置10によれば、教師データの特性に依らない機能実現が可能となる。たとえば、物体の色や形状、あるいは画像の明度や彩度によってアルゴリズムを使い分け、物体のエッジを精度よく抽出することが可能となる。
Therefore, the
また、閉エッジ矩形作成部12caは、上記閉エッジの横位置最小値、横位置最大値、縦位置最小値および縦位置最大値によって規定される四隅の座標位置を各頂点位置とする上記閉エッジ矩形を作成する。 The closed edge rectangle creation unit 12ca also creates the closed edge rectangle, with the coordinate positions of the four corners defined by the minimum horizontal position, maximum horizontal position, minimum vertical position, and maximum vertical position of the closed edge being the vertex positions.
したがって、実施形態に係る学習支援装置10によれば、閉エッジに接する閉エッジ矩形を自動的にかつ正確に作成することが可能となり、入力矩形IRの自動調整を精度よく行うことができる。
Therefore, according to the
また、最類似矩形選択部12cbは、少なくともアスペクト比、中心位置、または、横幅および縦幅のいずれかを比較の要素として入力矩形IRと閉エッジ矩形との類似度を算出する。 The most similar rectangle selection unit 12cb also calculates the similarity between the input rectangle IR and the closed edge rectangle using at least the aspect ratio, the center position, or the width and height as comparison elements.
したがって、実施形態に係る学習支援装置10によれば、少なくともアスペクト比、中心位置、または、横幅および縦幅のいずれかを比較の要素として、精度よく類似度を算出し、かかる類似度に基づいて適切に最類似矩形ARを選択することが可能となる。
Therefore, according to the
また、最類似矩形選択部12cbは、入力矩形IRに対し、上記閉エッジが一部しか含まれていない場合に、入力矩形IR内において上記閉エッジが検出可能となるように、上記入力矩形IRを一定量拡張する。 In addition, when the input rectangle IR only partially contains the closed edge, the most similar rectangle selection unit 12cb expands the input rectangle IR by a certain amount so that the closed edge can be detected within the input rectangle IR.
したがって、実施形態に係る学習支援装置10によれば、たとえば入力矩形IRが正確に作成されていない場合であっても、これを自動的に修正することが可能となる。
Therefore, according to the
なお、上述した実施形態では、類似度の算出基準となる類似度算出情報11dを、たとえばユーザUが事前に選定し、静的な情報として予め設定可能であることとしたが、動的に設定を変更可能であるようにしてもよい。たとえば、算出された類似度と、かかる類似度に基づいて提示した閉エッジ矩形に対するユーザUの採用結果等の履歴に基づいて、ユーザUの採用パターンの傾向等を機械学習によって学習し、その学習結果を動的に類似度算出情報11dへ反映するようにしてもよい。また、このような動的な反映を、抽出アルゴリズム情報11bに対して適用するようにしてもよい。
In the above embodiment, the
さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。 Further advantages and modifications may readily occur to those skilled in the art. Therefore, the invention in its broader aspects is not limited to the specific details and representative embodiments shown and described above. Accordingly, various modifications may be made without departing from the spirit or scope of the general inventive concept as defined by the appended claims and equivalents thereof.
3 HMI部
3a 入力部
3b 出力部
10 学習支援装置
11 記憶部
11a 対象画像DB
11b 抽出アルゴリズム情報
11c エッジ情報
11d 類似度算出情報
11e 矩形情報DB
12 制御部
12a 画像描写部
12aa 矩形描画部
12b 画像解析部
12ba エッジ抽出部
12c 矩形作成部
12ca 閉エッジ矩形作成部
12cb 最類似矩形選択部
IR 入力矩形
U ユーザ
3
11b
12
Claims (7)
抽出されたエッジのうち、閉曲線として抽出されたエッジである閉エッジに接する閉エッジ矩形を作成し、
ユーザにより前記対象画像に対し入力された入力矩形と前記閉エッジ矩形との類似度を算出し、
前記類似度が最も大きい前記閉エッジ矩形を選択し、
選択された前記閉エッジ矩形を前記アノテーションのためのバウンディングボックスとして採用する、
コントローラを備える学習支援装置。 Extracting edges of objects in the target images for annotation in creating training data ,
A closed edge rectangle is created that is tangent to a closed edge that is an edge extracted as a closed curve from among the extracted edges;
Calculating a similarity between an input rectangle input by a user for the target image and the closed edge rectangle ;
Selecting the closed edge rectangle with the greatest similarity;
adopting the selected closed edge rectangle as a bounding box for the annotation;
A learning support device equipped with a controller .
ユーザにより任意に選択されるエッジ抽出アルゴリズムを用いて前記物体のエッジを抽出する、
請求項1に記載の学習支援装置。 The controller :
Extracting edges of the object using an edge extraction algorithm selected by a user ;
The learning support device according to claim 1 .
前記閉エッジの横位置最小値、横位置最大値、縦位置最小値および縦位置最大値によって規定される四隅の座標位置を各頂点位置とする前記閉エッジ矩形を作成する、
請求項1または2に記載の学習支援装置。 The controller :
a closed edge rectangle is created , the vertices of which are the coordinate positions of the four corners defined by the minimum horizontal position value, the maximum horizontal position value, the minimum vertical position value, and the maximum vertical position value of the closed edge;
The learning support device according to claim 1 or 2.
少なくともアスペクト比、中心位置、または、横幅および縦幅のいずれかを比較の要素として前記入力矩形と前記閉エッジ矩形との前記類似度を算出する、
請求項1、2または3に記載の学習支援装置。 The controller :
calculating the similarity between the input rectangle and the closed edge rectangle using at least one of an aspect ratio, a center position, or a width and a height as a comparison element ;
4. The learning support device according to claim 1, 2 or 3.
前記入力矩形に対し、前記閉エッジが一部しか含まれていない場合に、前記入力矩形内において前記閉エッジが検出可能となるように、前記入力矩形を一定量拡張する、
請求項1~4のいずれか一つに記載の学習支援装置。 The controller :
When the closed edge is only partially included in the input rectangle, the input rectangle is expanded by a certain amount so that the closed edge can be detected within the input rectangle .
The learning support device according to any one of claims 1 to 4.
抽出されたエッジのうち、閉曲線として抽出されたエッジである閉エッジに接する閉エッジ矩形を作成し、
ユーザにより前記対象画像に対し入力された入力矩形と前記閉エッジ矩形との類似度を算出し、
前記類似度が最も大きい前記閉エッジ矩形を選択し、
選択された前記閉エッジ矩形を前記アノテーションのためのバウンディングボックスとして採用する、
コントローラが実行する学習支援方法。 Extracting edges of objects in the target images for annotation in creating training data ,
A closed edge rectangle is created that is tangent to a closed edge that is an edge extracted as a closed curve from among the extracted edges;
Calculating a similarity between an input rectangle input by a user for the target image and the closed edge rectangle ;
Selecting the closed edge rectangle with the greatest similarity;
adopting the selected closed edge rectangle as a bounding box for the annotation;
A learning support method implemented by a controller .
抽出されたエッジのうち、閉曲線として抽出されたエッジである閉エッジに接する閉エッジ矩形を作成し、
ユーザにより前記対象画像に対し入力された入力矩形と前記閉エッジ矩形との類似度を算出し、
前記類似度が最も大きい前記閉エッジ矩形を選択し、
選択された前記閉エッジ矩形を前記アノテーションのためのバウンディングボックスとして採用する、
コントローラが実行する学習支援プログラム。 Extracting edges of objects in the target images for annotation in creating training data ,
A closed edge rectangle is created that is tangent to a closed edge that is an edge extracted as a closed curve from among the extracted edges;
Calculating a similarity between an input rectangle input by a user for the target image and the closed edge rectangle ;
Selecting the closed edge rectangle with the greatest similarity;
adopting the selected closed edge rectangle as a bounding box for the annotation;
A learning support program executed by the controller .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021138985A JP7696255B2 (en) | 2021-08-27 | 2021-08-27 | Learning support device, learning support method, and learning support program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021138985A JP7696255B2 (en) | 2021-08-27 | 2021-08-27 | Learning support device, learning support method, and learning support program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023032702A JP2023032702A (en) | 2023-03-09 |
| JP7696255B2 true JP7696255B2 (en) | 2025-06-20 |
Family
ID=85416082
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021138985A Active JP7696255B2 (en) | 2021-08-27 | 2021-08-27 | Learning support device, learning support method, and learning support program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7696255B2 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020049636A1 (en) | 2018-09-04 | 2020-03-12 | 日本電気株式会社 | Identification system, model presentation method, and model presentation program |
| JP2020148586A (en) | 2019-03-13 | 2020-09-17 | セイコーエプソン株式会社 | Image processing apparatus, inspection device, image processing method, and program |
| JP2021026599A (en) | 2019-08-07 | 2021-02-22 | ファナック株式会社 | Image processing system |
-
2021
- 2021-08-27 JP JP2021138985A patent/JP7696255B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020049636A1 (en) | 2018-09-04 | 2020-03-12 | 日本電気株式会社 | Identification system, model presentation method, and model presentation program |
| JP2020148586A (en) | 2019-03-13 | 2020-09-17 | セイコーエプソン株式会社 | Image processing apparatus, inspection device, image processing method, and program |
| JP2021026599A (en) | 2019-08-07 | 2021-02-22 | ファナック株式会社 | Image processing system |
Non-Patent Citations (4)
| Title |
|---|
| Kyuwon KIM et al.,Lazy dragging: effortless bounding-box drawing for touch-screen devices,IEEE Transactions on Consumer Electronics,2017年05月,Vol. 63,No. 2,p.93-100,<URL: https://ieeexplore.ieee.org/document/8013247>,<DOI: 10.1109/TCE.2017.014769> |
| 山下 大二、富松 潔、金 大雄、牛尼 剛聡,虫メガネメタファーに基づく携帯電話上でのコンテンツ閲覧インタフェース,日本データベース学会論文誌,日本,日本データベース学会 The Database Society of Japan,2009年06月,Vol.8 No.1,p.65-70 |
| 松島 宏典、クリアンクライファンジャン、寺尾 慎寿、内村 圭一,道路画像を用いたポットホール検出,電子情報通信学会技術研究報告 ,日本,一般社団法人電子情報通信学会,2014年12月,Vol.114 No.369,p.103-107 |
| 河野 憲之、柳井 啓司,FoodCam:スマートフォン上でのリアルタイム食事画像認識による食事記録アプリケーション,電子情報通信学会技術研究報告 ,日本,一般社団法人電子情報通信学会,2013年09月,Vol.113 No.214,p.13-18 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023032702A (en) | 2023-03-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10360473B2 (en) | User interface creation from screenshots | |
| CN113971309B (en) | Model generation method, device, computer equipment and storage medium | |
| JP5340441B2 (en) | Shape parameterization for editable document generation | |
| Wu et al. | ViSizer: A visualization resizing framework | |
| KR101158679B1 (en) | Method for directly inputting figure on electronic document, and computer-readable recording medium storing program of directly inputting figure on electronic document | |
| KR101436050B1 (en) | Method of establishing database including hand shape depth images and method and device of recognizing hand shapes | |
| US20230367473A1 (en) | Ink data generation apparatus, method, and program | |
| JPWO2016039273A1 (en) | Display control apparatus, display control method, and display control program | |
| WO2020111139A1 (en) | Coordinate calculation device, coordinate calculation method, and computer-readable recording medium | |
| CN112036304A (en) | Medical bill layout identification method and device and computer equipment | |
| US11282267B2 (en) | System and method for providing automated data visualization and modification | |
| CN107209862B (en) | Identification device and information storage medium | |
| JP7696255B2 (en) | Learning support device, learning support method, and learning support program | |
| US12070093B1 (en) | Custom garment pattern blending based on body data | |
| CN120654287A (en) | Method, apparatus, device, medium and program product for simulation fixing of virtual attachment | |
| US10467759B2 (en) | Intelligent contouring of anatomy with structured user click points | |
| CN114596582B (en) | An augmented reality interaction method and system with visual and force feedback | |
| JP6989884B1 (en) | Electronic small blackboard generator and electronic small blackboard generation method | |
| CN115686518A (en) | Front-end page generation method, device, computer equipment and storage medium | |
| JP2021163258A (en) | Information processing method and information processing program | |
| WO2021166574A1 (en) | Image processing device, image processing method, and computer-readable recording medium | |
| CN114299541B (en) | Model training method and device and human body posture recognition method and device | |
| US12205396B2 (en) | Machine-learning-based identification of drawing attributes | |
| US20150066444A1 (en) | User interface and software tool for architectural processes | |
| JP4730033B2 (en) | Display drawing creation program, method and apparatus |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240626 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250310 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250318 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250509 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250520 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250610 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7696255 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |