JP7729466B2

JP7729466B2 - 画像分類装置、画像分類方法、及び、プログラム

Info

Publication number: JP7729466B2
Application number: JP2024507433A
Authority: JP
Inventors: 尊裕中川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2025-08-26
Anticipated expiration: 2042-03-18
Also published as: JPWO2023175931A1; WO2023175931A1

Description

本開示は、撮影した画像を分類する技術に関する。

愛玩動物（以下、「ペット」と呼ぶ。）などを被写体とする写真や動画は膨大な量になることがあり、膨大な量の写真や動画の中には、ペットが後ろを向いているなど、ペットの飼い主の好みに合わない写真や動画が含まれていることがある。ペットの飼い主が、このような膨大な写真や動画の中から、好みの写真や動画を分類していくことは手間である。例えば、特許文献１では、被写体を撮像した複数の画像データから被写体の動作を識別し、分類する装置を記載している。

特開２００５－２６７６０４号公報

しかし、特許文献１によっても、ペットの飼い主が好む写真や動画を分類することは難しい。

本開示の１つの目的は、複数の画像からユーザが好む画像を分類することができる画像分類装置を提供することにある。

上記の課題を解決するため、本開示の一つの観点では、画像分類装置は、
対象被写体が写っている画像を取得する画像取得手段と、
前記対象被写体の所定の状態が撮影されたと推定される条件である所定の状態の発生条件を満たしているか否かを判定する条件判定手段と、
対象被写体が写っている画像と、所定の状態の発生条件を満たしているか否かの判定結果と、前記対象被写体の所定の状態と、の関係が機械学習されたモデルを用いて、前記画像取得手段により取得された前記画像と前記条件判定手段により判定された判定結果から、前記対象被写体の所定の状態が写っている画像を分類する画像分類手段と、
前記画像及び前記分類の結果を出力する出力手段と、
を備え、
前記条件判定手段は、前記対象被写体の撮影者の心拍数に基づいて、前記所定の状態の発生条件を満たしているか否かを判定する。

本発明の他の観点では、コンピュータにより実行される画像分類方法は、
対象被写体が写っている画像を取得する画像取得処理を行い、
前記対象被写体の所定の状態が撮影されたと推定される条件である所定の状態の発生条件を満たしているか否かを判定する条件判定処理を行い、
対象被写体が写っている画像と、所定の状態の発生条件を満たしているか否かの判定結果と、前記対象被写体の所定の状態と、の関係が機械学習されたモデルを用いて、前記画像取得処理により取得された前記画像と前記条件判定処理により判定された判定結果から、前記対象被写体の所定の状態が写っている画像を分類する画像分類処理を行い、
前記画像及び前記分類の結果を出力する出力処理を行い、
前記条件判定処理は、前記対象被写体の撮影者の心拍数に基づいて、前記所定の状態の発生条件を満たしているか否かを判定する。

本発明のさらに他の観点では、プログラムは、
対象被写体が写っている画像を取得する画像取得処理を行い、
前記対象被写体の所定の状態が撮影されたと推定される条件である所定の状態の発生条件を満たしているか否かを判定する条件判定処理を行い、
対象被写体が写っている画像と、所定の状態の発生条件を満たしているか否かの判定結果と、前記対象被写体の所定の状態と、の関係が機械学習されたモデルを用いて、前記画像取得処理により取得された前記画像と前記条件判定処理により判定された判定結果から、前記対象被写体の所定の状態が写っている画像を分類する画像分類処理を行い、
前記画像及び前記分類の結果を出力する出力処理を行い、
前記条件判定処理は、前記対象被写体の撮影者の心拍数に基づいて、前記所定の状態の発生条件を満たしているか否かを判定する処理をコンピュータに実行させる。

本開示によれば、複数の画像からユーザが好む画像を分類することが可能となる。

第１実施形態に係る画像分類システムの全体構成を示す。サーバ及びユーザ端末の構成を示すブロック図である。サーバの機能構成を示すブロック図である。学習装置の機能構成を示すブロック図である。画像分類システムのフローチャートである。第１実施形態の変形例１の機能構成を示すブロック図である。第２実施形態の情報処理装置の機能構成を示すブロック図である。第２実施形態の情報処理装置による処理のフローチャートである。

＜第１実施形態＞
［全体構成］
図１は、本開示に係る画像分類装置を適用した画像分類システムの全体構成を示す。画像分類システム１は、サーバ２００と、飼い主の使用するユーザ端末３００とを含む。サーバ２００は画像分類装置の一例である。サーバ２００と飼い主のユーザ端末３００とは無線通信可能である。

基本的な動作として、サーバ２００は、飼い主のユーザ端末３００から送信された動画を基に、ペットの所定の状態が写っている画像を取得する。具体的に、飼い主は、ペットＰと遊ぶときなどに、ユーザ端末３００を常時録画モードにし、動画を撮影する。そして、ユーザ端末３００は撮影した動画（以下、「撮影動画」とも呼ぶ。）をサーバ２００へ送信する。サーバ２００は、ユーザ端末３００の撮影動画からフレーム毎に静止画を抽出し、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）の画像解析によって、ペットの所定の状態が写っている画像か否かを分類する。ここで、ペットの所定の状態が写っている画像（以下、「ＧＯＯＤショット」とも呼ぶ。）とは、例えば、ペットの顔が写っている画像、ペットがジャンプしている画像、ペットが遊んでいる画像など、ペットの飼い主が良いと感じるペットの画像である。そして、サーバ２００は、ユーザ端末３００の撮影動画から抽出した静止画（以下、「抽出画像」とも呼ぶ。）に、ＧＯＯＤショットか否かの分類結果を付し、飼い主と対応付けてデータベースへ保存する。その後、飼い主は、ユーザ端末３００もしくは、ユーザ端末３００以外の端末からサーバ２００へアクセスし、ＧＯＯＤショットのみをスライドショーなどで確認する。これにより、飼い主は、ペットのシャッターチャンスを逃すことなく、ペットの画像を取得することが可能になる。また、飼い主は、スマートグラスをユーザ端末３００として用いることで、ペットと触れ合いながら、ＧＯＯＤショットを取得することが可能になる。なお、スマートグラスの代わりに、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）グラスやＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）グラス、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）グラスなど、他のメガネ型のウェアラブル端末を用いてもよい。

なお、ＧＯＯＤショットとして分類される画像は静止画に限らず、動画でもよい。この場合、サーバ２００は、ユーザ端末３００の撮影動画から所定の時間間隔で動画を抽出する。そして、サーバ２００は、動画にＧＯＯＤショットが含まれているか否かを分類し、抽出した動画（同様に「抽出画像」とも呼ぶ。）にＧＯＯＤショットか否かの分類結果を付して保存する。

［サーバ］
図２（Ａ）は、サーバ２００の構成を示すブロック図である。サーバ２００は、主に、通信部２１１と、プロセッサ２１２と、メモリ２１３と、記録媒体２１４と、データベース（ＤＢ）２１５と、を備える。

通信部２１１は、外部装置との間でデータの送受信を行う。具体的に、通信部２１１は、飼い主のユーザ端末３００との間で情報を送受信する。

プロセッサ２１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、サーバ２００の全体を制御する。なお、プロセッサ２１２は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＤＳＰ（Ｄｅｍａｎｄ－ＳｉｄｅＰｌａｔｆｏｒｍ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などであってもよい。

メモリ２１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ２１３は、プロセッサ２１２による各種の処理の実行中に作業メモリとしても使用される。また、メモリ２１３は、プロセッサ２１２の制御に基づき、ユーザ端末３００が撮影した一連の動画を一時的に記憶する。この動画は、例えば、飼い主の識別情報、及び、タイムスタンプの情報等と関連付けられてメモリ２１３に記憶される。

記録媒体２１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、サーバ２００に対して着脱可能に構成される。記録媒体２１４は、プロセッサ２１２が実行する各種のプログラムを記録している。

データベース（ＤＢ）２１５は、ＧＯＯＤショットか否かの分類結果が付された抽出画像を記憶する。ＤＢ２１５は、サーバ２００に接続又は内蔵されたハードディスクなどの外部記憶装置を含んでもよく、着脱自在なフラッシュメモリなどの記憶媒体を含んでもよい。なお、ＤＢ２１５をサーバ２００に備える代わりに、外部のサーバなどにＤＢ２１５を設け、通信により当該サーバへＧＯＯＤショットか否かの分類結果が付された抽出画像を記憶するようにしてもよい。

なお、サーバ２００は、管理者などが指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。

［ユーザ端末］
図２（Ｂ）は、飼い主が使用するユーザ端末３００の内部構成を示すブロック図である。ユーザ端末３００は、例えば、スマートグラスやスマートフォンなどの端末装置である。ユーザ端末３００は、通信部３１１と、プロセッサ３１２と、メモリ３１３と、表示部３１４と、カメラ３１５と、マイク３１６と、を備える。

通信部３１１は、外部装置との間でデータの送受信を行う。具体的に、通信部３１１は、サーバ２００との間で情報を送受信する。

プロセッサ３１２は、ＣＰＵなどのコンピュータであり、予め用意されたプログラムを実行することにより、ユーザ端末３００の全体を制御する。なお、プロセッサ３１２は、ＧＰＵ、ＦＰＧＡ、ＤＳＰ、ＡＳＩＣなどであってもよい。プロセッサ３１２は、予め用意されたプログラムを実行することにより、カメラ３１５により撮影した動画をサーバ２００へ送信する。

メモリ３１３は、ＲＯＭ、ＲＡＭなどにより構成される。メモリ３１３は、プロセッサ３１２により実行される各種のプログラムを記憶する。また、メモリ３１３は、プロセッサ３１２による各種の処理の実行中に作業メモリとしても使用される。カメラ３１５により撮影された動画は、メモリ３１３に記憶された後、サーバ２００へ送信される。表示部３１４は、例えば液晶表示装置などであり、カメラ３１５により撮影された動画や、サーバ２００に保存されているＧＯＯＤショットの抽出画像などを表示する。

カメラ３１５には、ユーザの視界を撮影するカメラ（「アウトカメラ」とも呼ぶ。）や、ユーザの眼球を撮影するカメラ（「アイカメラ」とも呼ぶ。）が含まれる。アウトカメラは、ユーザ端末３００の外側に搭載される。アウトカメラは、ペットなどの被写体を含むユーザの視界を撮影し、サーバ２００へ送信する。これにより、サーバ２００は、ペットなどの被写体の画像を取得することができる。アイカメラは、ユーザの眼球を撮影するようユーザ端末３００の内側に搭載される。アイカメラは、ユーザの眼球を撮影し、プロセッサ３１２へ送信する。プロセッサ３１２は、アイカメラが撮影したユーザの眼球の画像を基に、ユーザの視線の動きなどを検出する。これにより、ユーザ端末３００は、ユーザの視線方向などの情報を取得することができる。

マイク３１６は、ユーザの声や周辺の音を集音し、サーバ２００へ送信する。サーバ２００は、例えば、ユーザの声やペットの鳴き声に基づいて、ユーザが所定の言葉を発したことや、ユーザがペットに指示したことや号令をかけたことを推定することができる。

［機能構成］
図３は、サーバ２００の機能構成を示すブロック図である。サーバ２００は、機能的には、画像取得部４１１と、画像分類部４１２と、を含む。

サーバ２００には、ユーザ端末３００の撮影動画が入力される。ユーザ端末３００の撮影動画は、画像取得部４１１に入力される。画像取得部４１１は、ユーザ端末３００の撮影動画から静止画又は動画を抽出画像として抽出する。画像取得部４１１は、抽出画像を画像分類部４１２へ出力する。

画像分類部４１２は、予め用意された画像認識モデルなどを用いて、画像取得部４１１から取得した抽出画像がＧＯＯＤショットであるか否かを分類する。この画像認識モデルは、画像がＧＯＯＤショットであるか否かを分類するように予め学習された機械学習モデルであり、以下、「画像分類モデル」とも呼ぶ。画像分類部４１２は、画像分類モデルによって抽出画像がＧＯＯＤショットであると分類された場合は、抽出画像にＧＯＯＤショットであることを示す付加情報を付する。一方、画像分類部４１２は、画像分類モデルによって抽出画像がＧＯＯＤショットでない、すなわちＢＡＤショットと分類された場合は、抽出画像にＢＡＤショットであることを示す付加情報を付する。ＢＡＤショットとは、ＧＯＯＤショット以外の画像であり、例えば、ペットの顔が写っていない画像などを言う。画像分類部４１２は、付加情報を付した抽出画像をＤＢ２１５へ出力する。

［画像分類モデルの学習］
次に、画像分類部４１２が用いる画像分類モデルの学習について説明する。画像分類モデルは、いわゆる教師あり学習によって生成される。図４は、画像分類モデルの学習方法を示すブロック図であり、学習データ５１１と、学習装置５１２と、を含む。

学習データ５１１は、ＧＯＯＤショットであるか否かを事前にラベル付けした画像データ（以下、「教師データ」とも呼ぶ）である。画像データへのラベル付けは、ペットの所定の部位が写っているか、ペットが所定の動作をしているか、などを基準に行われる。ペットの所定の部位とは、ペットの顔などを指す。例えば、ペットの顔が写っている画像には、ＧＯＯＤショットのラベルが付与される。一方、ペットが写っていない画像や、ペットが後ろを向いている画像、ペットの胴体や脚しか写っていない画像には、ＢＡＤショットのラベルが付与される。また、ペットの所定の動作とは、ペットの人目を惹くような動作などを指す。例えば、ペットがジャンプしている画像やペットが道具をくわえている画像にはＧＯＯＤショットのラベルが付与される。

なお、ペットの飼い主が、複数のペットの画像をＧＯＯＤショットか否かに選別し、その結果をラベル付けした画像を教師データとして用いてもよい。これにより、よりペットの飼い主の好みに合った画像を分類することが可能な画像分類モデルを生成することができる。

また、ペットの飼い主や第三者がＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋＳｅｒｖｉｃｅ）上に投稿した動物の画像を収集し、教師データとして用いてもよい。この場合、ペットの飼い主や第三者がＳＮＳ上に投稿した画像にはＧＯＯＤショットのラベル付けが行われる。これにより、教師データの量が増え、より精度の高い画像分類モデルを生成することが可能となる。

学習装置５１２は、学習データ５１１をもとに、ＧＯＯＤショットのパターンを学習し、学習済モデルとして画像分類モデルを出力する。これにより、ペットが写っている画像と、ＧＯＯＤショットに該当するペットの状態との関係を学習した画像分類モデルが生成される。

［画像分類モデルによる分類］
画像分類部４１２は、画像分類モデルを用いて、画像がＧＯＯＤショットであるか否かを推定する。具体的に、画像分類モデルは、入力された画像がＧＯＯＤショットであるか否かを推定し、その画像がＧＯＯＤショットである確率を示すスコア（「ＧＯＯＤショットスコア」と呼ぶ。）と、その画像がＢＡＤショットである確率を示すスコア（「ＢＡＤショットスコア」と呼ぶ。）を算出する。画像分類モデルは、例えば、ＧＯＯＤショットスコアとＢＡＤショットスコアの合計が「１」となるように各スコアを算出する。そして、画像分類モデルは、ＧＯＯＤショットスコアと、ＢＡＤショットスコアを予め決められた所定の閾値ＴＨと比較し、閾値ＴＨより大きいスコアを有する方を分類結果として採用する。例えば、ある画像について、画像分類モデルは、ＧＯＯＤショットスコア「０．８」、ＢＡＤショットスコア「０．２」を算出し、予め決められた閾値ＴＨと比較する。閾値ＴＨを「０．５」とすると、画像分類モデルは、その画像をＧＯＯＤショットであると推定する。

［画像分類処理］
次に、上記のような画像分類を行う画像分類処理について説明する。図５は、サーバ２００において行われる画像分類処理のフローチャートである。この処理は、図２に示すプロセッサ２１２が予め用意されたプログラムを実行し、図３に示す各要素として動作することにより実現される。

まず、画像取得部４１１は、ユーザ端末３００から撮影動画を取得する。そして、画像取得部４１１は、撮影動画から画像（静止画又は動画）を取得する（ステップＳ１１）。次に、画像分類部４１２は、画像取得部４１１が取得した画像が、ＧＯＯＤショットか否かを分類する（ステップＳ１２）。具体的には、画像分類部４１２は、その画像がＧＯＯＤショットである確率を示すスコアと、その画像がＢＡＤショットである確率を示すスコアとを算出する。画像分類部４１２は、算出された各スコアを閾値ＴＨと比較し、その画像がＧＯＯＤショットであるかＢＡＤショットであるかを分類する。

次に、画像分類部４１２は、画像取得部４１１が取得した画像に分類結果を付して、データベース（ＤＢ）２１５に保存する（ステップＳ１３）。例えば、画像分類部４１２は、ＧＯＯＤショットであると分類された画像には「１」、ＢＡＤショットであると分類された画像には「０」などのフラグを付して、ＤＢ２１５に保存する。そして、画像分類処理は終了する。

これにより、ユーザが撮影した膨大な画像から、ユーザの好みに合ったＧＯＯＤショットの画像が抽出され、サーバ２００のＤＢ２１５内に蓄積される。ユーザは、サーバ２００にアクセスし、ＤＢ２１５に保存されているＧＯＯＤショットの画像を閲覧することができる。また、ユーザは、サーバ２００からＧＯＯＤショットの画像をダウンロードして、ユーザ端末３００などの端末装置に保存することができる。

［変形例］
次に、第１実施形態の変形例を説明する。以下の変形例は、適宜組み合わせて第１実施形態に適用することができる。
（変形例１）
上記の第１実施形態では、サーバ２００は、撮影動画から抽出された抽出画像に基づいて画像を分類している。サーバ２００は、上記に加え、所定の状態発生条件を満たしたか否かを判定し、判定結果を用いて画像を分類してもよい。所定の状態発生条件とは、ＧＯＯＤショットが撮影されたと推定される条件であり、以下、「ＧＯＯＤショットの発生条件」とも呼ぶ。ＧＯＯＤショットの発生条件は、例えば、撮影者の生体情報や行動情報などに基づいて決定される。

具体的に、図６は、変形例１のサーバ２００ａの機能構成を示す。図示のように、変形例１では、サーバ２００ａに条件判定部４１３を設ける。条件判定部４１３は、ユーザ端末３００から、撮影者の生体情報などをタイムスタンプと共に取得する。そして、条件判定部４１３は、予め学習された学習済みのモデルを用いて、撮影者の生体情報などが所定の条件を満たしているか否かを判定し、判定結果を画像分類部４１２へ出力する。

撮影者の生体情報は、視線や音声、心拍数などを含む。撮影者の生体情報は、ユーザ端末３００によって取得される。ユーザ端末３００は、ユーザ端末３００に搭載されたカメラ、マイク、センサなどから、生体情報を取得してもよいし、Ｂｌｕｅｔｏｏｔｈ（登録商標）やＷｉ－Ｆｉ（登録商標）などにより、外部機器と無線通信を行い、外部機器から生体情報を取得してもよい。また、所定の条件には、例えば、撮影者がペットに視線を向けていること、撮影者が所定の閾値以上の大きさの声を発したこと、撮影者が「いいね」などの所定の言葉を発したこと、撮影者の心拍数が所定の閾値以上の高さとなったこと、などが挙げられる。撮影者の生体情報が上記の条件を満たす場合は、その時点及びその前後の時点において、ＧＯＯＤショットが撮影されている可能性が高いと推定される。なお、条件判定部４１３は、撮影者の生体情報が所定の条件を満たした時点に加え、その前後の時点においても所定の条件を満たしていると判定し、画像分類部４１２へ判定結果を出力してもよい。

また、条件判定部４１３は、撮影者やペットの行動情報に基づいて、ＧＯＯＤショットの発生条件を満たしたか否かの判定を行ってもよい。例えば、撮影者が合図をし、ペットが合図に従って行動した場合や、撮影者が指示や号令をかけ、ペットが指示や号令に従って行動した場合は、条件判定部４１３は、ＧＯＯＤショットの発生条件を満たしていると判定し、判定結果を画像分類部４１２へ出力する。なお、撮影者やペットの行動情報は、ユーザ端末３００に搭載されたマイク、センサなどから取得してもよいし、ユーザ端末３００の撮影動画から取得してもよい。

画像分類部４１２は、画像取得部４１１から入力された抽出画像及び、条件判定部４１３から入力された判定結果に基づいて、抽出画像がＧＯＯＤショットか否かを分類する。この場合、画像分類部４１２が使用する画像分類モデルは、抽出画像及び判定結果に基づいてＧＯＯＤショットか否かを推定するように予め学習された学習済みのモデルとする。

上記のように、撮影者の生体情報や行動情報などを考慮してＧＯＯＤショットか否かの分類をすることで、撮影者が良いと感じる瞬間を撮影したペットの画像を高精度で取得することが可能になる。

（変形例２）
上記の第１実施形態により分類されたＧＯＯＤショットを基に、画像分類モデルの再学習用の教師データを作成してもよい。具体的に、ペットの飼い主は、サーバ２００が分類したＧＯＯＤショットの要否を判断する。サーバ２００は、ペットの飼い主が必要と判断した画像はＧＯＯＤショットであるとする。一方、サーバ２００は、ペットの飼い主が不要と判断した画像はＢＡＤショットであるとし、ラベルの変更を行う。そして、サーバ２００は、上記のＧＯＯＤショットの画像データ及びＢＡＤショットの画像データを学習データとし、画像分類モデルの再学習を行う。これにより、サーバ２００は、より飼い主の好みに合ったＧＯＯＤショットを分類することが可能となる。

（変形例３）
上記の第１実施形態では、ユーザ端末３００はカメラを常時録画モードにし、撮影動画をサーバ２００へ送信している。その代わりに、ユーザ端末３００は、カメラに被写体が映ったタイミングで録画を開始し、カメラに被写体が映らなくなったタイミングで録画を終了し、録画開始から録画終了までの撮影動画をサーバ２００へ送信してもよい。具体的に、ユーザ端末３００は、カメラに映っている画像を所定のタイミング毎にキャプチャし、サーバ２００へ送信する。サーバ２００は、予め作成した画像認識モデルなどに基づいて、ペットがユーザ端末３００のカメラに映ったか否かを判定する。ペットがユーザ端末３００のカメラに映った場合は、サーバ２００は、ユーザ端末３００を録画モードにし、録画を開始する。その後、ペットがユーザ端末３００のカメラに映らなくなった場合は、サーバ２００は、ユーザ端末３００の録画モードを終了する。これにより、ユーザ端末３００からサーバ２００へ送信する撮影動画のデータ量を削減することができる。

なお、ペットがユーザ端末３００のカメラに映ったか否かは、ユーザ端末３００が判定してもよい。この場合、ユーザ端末３００は、予め作成した画像認識モデルなどを用いて、ペットがユーザ端末３００のカメラに映ったか否かを判定する。そして、ユーザ端末３００は、判定結果に従って、録画開始や録画終了の制御をしてもよい。

（変形例４）
上記の第１実施形態では、サーバ２００は、ペットを被写体とした撮影動画に基づいて、ＧＯＯＤショットを分類しているが、被写体はペットに限らず、例えば、子供など、シャッターチャンスを逃す機会の多い別の被写体であってもよい。

（変形例５）
上記の第１実施形態では、基本的にユーザ端末３００により取得された情報がそのままサーバ２００へ送信され、サーバ２００が受信した情報に基づいてＧＯＯＤショットを分類している。その代わりに、ＧＯＯＤショットを分類するための処理をユーザ端末３００が行い、その処理結果をサーバ２００へ送信することとしてもよい。もしくは、サーバ２００を使用せず、ＧＯＯＤショットを分類するための処理及び処理結果の保存をユーザ端末３００で行うこととしてもよい。これにより、ユーザ端末３００からサーバ２００への通信負荷、及び、サーバ２００における処理負荷を軽減することができる。これらの場合、ユーザ端末３００は画像分類装置の一例である。

＜第２実施形態＞
図７は、第２実施形態の画像分類装置５０の機能構成を示すブロック図である。第２実施形態の画像分類装置５０は、画像取得手段５１と、画像分類手段５２と、出力手段５３とを備える。

図８は、画像分類装置５０による処理のフローチャートである。画像取得手段５１は、対象被写体が写っている画像を取得する（ステップＳ５１）。画像分類手段５２は、対象被写体が写っている画像と前記対象被写体の所定の状態との関係が機械学習されたモデルを用いて、前記画像から、前記対象被写体の所定の状態が写っている画像を分類する（ステップＳ５２）。出力手段５３は、前記画像及び前記分類の結果を出力する（ステップＳ５３）。

第２実施形態の画像分類装置５０によれば、ユーザが好む画像を容易に分類することが可能となる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
対象被写体が写っている画像を取得する画像取得手段と、
対象被写体が写っている画像と前記対象被写体の所定の状態との関係が機械学習されたモデルを用いて、前記画像から、前記対象被写体の所定の状態が写っている画像を分類する画像分類手段と、
前記画像及び前記分類の結果を出力する出力手段と、
を備える画像分類装置。

（付記２）
前記画像分類手段は、前記対象被写体の所定の部位が写っている画像を分類する付記１に記載の画像分類装置。

（付記３）
前記画像分類手段は、前記対象被写体が所定の動作を行っている画像を分類する付記１又は２に記載の画像分類装置。

（付記４）
前記所定の状態の発生条件を満たしているか否かを判定する条件判定手段を備え、
前記画像分類手段は、前記画像及び前記発生条件の判定結果に基づいて、前記画像を分類する付記１乃至３のいずれか一項に記載の画像分類装置。

（付記５）
前記条件判定手段は、前記対象被写体の撮影者の視線方向に基づいて、前記発生条件を満たしているか否かを判定する付記４に記載の画像分類装置。

（付記６）
前記条件判定手段は、前記対象被写体の撮影者の心拍数に基づいて、前記発生条件を満たしているか否かを判定する付記４又は５に記載の画像分類装置。

（付記７）
前記条件判定手段は、前記対象被写体の撮影者の音声に基づいて、前記発生条件を満たしているか否かを判定する付記４乃至６のいずれか一項に記載の画像分類装置。

（付記８）
前記条件判定手段は、撮影者の音声を検出し、前記対象被写体が撮影者の音声に反応して行動したことを前記発生条件とする付記４乃至７のいずれか一項に記載の画像分類装置。

（付記９）
前記画像取得手段は、前記対象被写体が端末装置のカメラに写った場合に、対象被写体が写っている画像の取得を開始し、前記対象被写体が前記端末装置のカメラに写らなくなった場合に、対象被写体が写っている画像の取得を終了する付記１乃至８のいずれか一項に記載の画像分類装置。

（付記１０）
前記出力手段が出力した結果のうち、ユーザにより要否判断がされた画像を学習データとして用いて前記モデルの再学習を行う学習手段を備える付記１乃至９のいずれか一項に記載の画像分類装置。

（付記１１）
対象被写体が写っている画像を取得し、
対象被写体が写っている画像と前記対象被写体の所定の状態との関係が機械学習されたモデルを用いて、前記画像から、前記対象被写体の所定の状態が写っている画像を分類し、
前記画像及び前記分類の結果を出力する画像分類方法。

（付記１２）
対象被写体が写っている画像を取得し、
対象被写体が写っている画像と前記対象被写体の所定の状態との関係が機械学習されたモデルを用いて、前記画像から、前記対象被写体の所定の状態が写っている画像を分類し、
前記画像及び前記分類の結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。

以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

２００サーバ
２１５データベース（ＤＢ）
３００ユーザ端末
４１１画像取得部
４１２画像分類部
４１３条件判定部
５１１学習データ
５１２学習装置

Claims

対象被写体が写っている画像を取得する画像取得手段と、
前記対象被写体の所定の状態が撮影されたと推定される条件である所定の状態の発生条件を満たしているか否かを判定する条件判定手段と、
対象被写体が写っている画像と、所定の状態の発生条件を満たしているか否かの判定結果と、前記対象被写体の所定の状態と、の関係が機械学習されたモデルを用いて、前記画像取得手段により取得された前記画像と前記条件判定手段により判定された判定結果から、前記対象被写体の所定の状態が写っている画像を分類する画像分類手段と、
前記画像及び前記分類の結果を出力する出力手段と、
を備え、
前記条件判定手段は、前記対象被写体の撮影者の心拍数に基づいて、前記所定の状態の発生条件を満たしているか否かを判定する画像分類装置。
前記画像分類手段は、前記対象被写体の所定の部位が写っている画像を分類する請求項１に記載の画像分類装置。
前記画像分類手段は、前記対象被写体が所定の動作を行っている画像を分類する請求項１又は２に記載の画像分類装置。
前記条件判定手段は、前記対象被写体の撮影者の視線方向に基づいて、前記発生条件を満たしているか否かを判定する請求項１乃至３のいずれか一項に記載の画像分類装置。
前記条件判定手段は、前記対象被写体の撮影者の音声に基づいて、前記発生条件を満たしているか否かを判定する請求項１乃至４のいずれか一項に記載の画像分類装置。
前記条件判定手段は、撮影者の音声を検出し、前記対象被写体が撮影者の音声に反応して行動したことを前記発生条件とする請求項１乃至５のいずれか一項に記載の画像分類装置。
コンピュータにより実行される画像分類方法であって、
対象被写体が写っている画像を取得する画像取得処理を行い、
前記対象被写体の所定の状態が撮影されたと推定される条件である所定の状態の発生条件を満たしているか否かを判定する条件判定処理を行い、
対象被写体が写っている画像と、所定の状態の発生条件を満たしているか否かの判定結果と、前記対象被写体の所定の状態と、の関係が機械学習されたモデルを用いて、前記画像取得処理により取得された前記画像と前記条件判定処理により判定された判定結果から、前記対象被写体の所定の状態が写っている画像を分類する画像分類処理を行い、
前記画像及び前記分類の結果を出力する出力処理を行い、
前記条件判定処理は、前記対象被写体の撮影者の心拍数に基づいて、前記所定の状態の発生条件を満たしているか否かを判定する画像分類方法。
対象被写体が写っている画像を取得する画像取得処理を行い、
前記対象被写体の所定の状態が撮影されたと推定される条件である所定の状態の発生条件を満たしているか否かを判定する条件判定処理を行い、
対象被写体が写っている画像と、所定の状態の発生条件を満たしているか否かの判定結果と、前記対象被写体の所定の状態と、の関係が機械学習されたモデルを用いて、前記画像取得処理により取得された前記画像と前記条件判定処理により判定された判定結果から、前記対象被写体の所定の状態が写っている画像を分類する画像分類処理を行い、
前記画像及び前記分類の結果を出力する出力処理を行い、
前記条件判定処理は、前記対象被写体の撮影者の心拍数に基づいて、前記所定の状態の発生条件を満たしているか否かを判定する処理をコンピュータに実行させるプログラム。