Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7828590B2 - Information processing device and information processing program - Google Patents
[go: Go Back, main page]

JP7828590B2 - Information processing device and information processing program - Google Patents

Information processing device and information processing program

Info

Publication number
JP7828590B2
JP7828590B2 JP2024033380A JP2024033380A JP7828590B2 JP 7828590 B2 JP7828590 B2 JP 7828590B2 JP 2024033380 A JP2024033380 A JP 2024033380A JP 2024033380 A JP2024033380 A JP 2024033380A JP 7828590 B2 JP7828590 B2 JP 7828590B2
Authority
JP
Japan
Prior art keywords
information
input
machine learning
learning model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024033380A
Other languages
Japanese (ja)
Other versions
JP2025135490A (en
Inventor
裕真 鈴木
隆之 堀
寛貴 宅島
開 佐藤
拓実 ▲高▼田
隼人 田之上
大輝 西原
クマル アイシュワリヤ マノジュ
一也 植木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Meisei Gakuen
Original Assignee
SoftBank Corp
Meisei Gakuen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp, Meisei Gakuen filed Critical SoftBank Corp
Priority to JP2024033380A priority Critical patent/JP7828590B2/en
Publication of JP2025135490A publication Critical patent/JP2025135490A/en
Application granted granted Critical
Publication of JP7828590B2 publication Critical patent/JP7828590B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置及び情報処理プログラムに関する。 This invention relates to an information processing device and an information processing program.

従来、利用者によって入力された検索クエリに基づいて検索を実行し、利用者に対して検索結果を提供する技術が知られている。例えば、利用者から自然文検索の質問文の入力を受け付け、利用者から自然文検索の実行指示を受け付け、自然文検索の実行指示が行われた状況を表す情報を取得し、取得した情報を用いて質問文の加工を行う技術が知られている。 Conventionally, technologies are known that perform searches based on search queries entered by users and provide search results to those users. For example, a known technology involves receiving a natural language search query from a user, receiving a natural language search execution command from the user, obtaining information indicating the status of the natural language search execution command, and using the obtained information to process the query.

特開2022-108035号公報Japanese Patent Publication No. 2022-108035

しかしながら、上記の従来技術では、利用者が所望する検索対象の曖昧性を補完したうえでの検索結果を利用者に対して提供することができるとは限らない。 However, the conventional technologies described above do not always guarantee that users will receive search results that address the ambiguity of their desired search criteria.

本願は、利用者が所望する検索対象の曖昧性を補完したうえでの検索結果を利用者に対して提供することを目的とする。 This application aims to provide users with search results that address the ambiguity of the search target they desire.

本願に係る情報処理装置は、検索システムを利用する利用者によって入力された入力情報を受け付ける受付部と、前記入力情報を機械学習モデルに入力して、前記利用者が所望する検索対象を特定するための質問を示す質問情報を前記機械学習モデルに生成させ、前記質問情報に対する応答を示す応答情報を取得し、前記応答情報に応じた検索クエリを生成し、前記検索クエリに対応する検索結果に応じた出力情報を生成する生成部と、前記出力情報を出力する出力制御部と、を備える。 The information processing device according to this application comprises: a receiving unit that receives input information entered by a user of the search system; a generating unit that inputs the input information into a machine learning model, causes the machine learning model to generate question information indicating a question for identifying the search target desired by the user, obtains response information indicating a response to the question information, generates a search query according to the response information, generates output information corresponding to the search results corresponding to the search query; and an output control unit that outputs the output information.

実施形態の一態様によれば、利用者が所望する検索対象の曖昧性を補完したうえでの検索結果を利用者に対して提供することができる。 According to one embodiment, search results can be provided to the user after supplementing the ambiguity of the search target desired by the user.

図1は、従来技術に係る検索処理の概要について説明するための図である。Figure 1 is a diagram illustrating the outline of the search process related to the conventional technology. 図2は、実施形態に係る検索処理の概要について説明するための図である。Figure 2 is a diagram illustrating the overview of the search process according to the embodiment. 図3は、実施形態に係る情報処理システムの構成例を示す図である。Figure 3 shows an example of the configuration of an information processing system according to the embodiment. 図4は、実施形態に係る情報処理装置の構成例を示す図である。Figure 4 shows an example of the configuration of an information processing device according to the embodiment. 図5は、実施形態に係る情報処理の一例について説明するための図である。Figure 5 is a diagram illustrating an example of information processing according to the embodiment. 図6は、実施形態に係るプロンプトの一例を示す図である。Figure 6 shows an example of a prompt according to the embodiment. 図7は、実施形態に係るプロンプトの一例を示す図である。Figure 7 shows an example of a prompt according to the embodiment. 図8は、実施形態に係るプロンプトの一例を示す図である。Figure 8 shows an example of a prompt according to the embodiment. 図9は、実施形態に係るプロンプトの一例を示す図である。Figure 9 shows an example of a prompt according to the embodiment. 図10は、実施形態に係るプロンプトの一例を示す図である。Figure 10 shows an example of a prompt according to the embodiment. 図11は、実施形態に係る情報処理装置による情報処理の手順を示すフローチャートである。Figure 11 is a flowchart showing the information processing procedure by the information processing device according to the embodiment. 図12は、変形例に係る情報処理の一例について説明するための図である。Figure 12 is a diagram illustrating an example of information processing related to a modified example. 図13は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。Figure 13 is a hardware configuration diagram showing an example of a computer that implements the functions of an information processing device.

以下に、本願に係る情報処理装置及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 The following describes in detail, with reference to the drawings, the embodiments for implementing the information processing apparatus and information processing program according to this application (hereinafter referred to as "embodiments"). Note that these embodiments do not limit the information processing apparatus and information processing program according to this application. Furthermore, the same parts are denoted by the same reference numerals in each of the following embodiments, and redundant descriptions are omitted.

(実施形態)
〔1.はじめに〕
図1は、従来技術に係る検索処理の概要について説明するための図である。図1では、検索システム200を利用する利用者U1の端末装置10が、利用者U1によって入力された検索クエリを検索システム200に送信する。検索システム200は、利用者U1から検索クエリを受け付ける。具体的には、検索システム200は、端末装置10から検索クエリを取得する。検索システム200は、検索クエリを取得した場合、検索クエリに基づいて検索を実行し、検索結果を端末装置10に送信する。端末装置10は、検索システム200から検索結果を受信する。
(Embodiment)
[1. Introduction]
Figure 1 is a diagram illustrating the outline of a search process according to the prior art. In Figure 1, a terminal device 10 of user U1 using the search system 200 transmits a search query entered by user U1 to the search system 200. The search system 200 receives the search query from user U1. Specifically, the search system 200 obtains the search query from the terminal device 10. When the search system 200 obtains the search query, it performs a search based on the search query and transmits the search results to the terminal device 10. The terminal device 10 receives the search results from the search system 200.

図2は、実施形態に係る検索処理の概要について説明するための図である。図2では、実施形態に係る情報処理装置100が、検索システム200を利用する利用者U1と検索システム200とを繋ぐ役割を担う機械学習モデルM1を用いて、利用者U1と検索システム200とを繋ぐ役割を果たす点が図1と異なる。具体的には、利用者U1が検索システム200を利用する際に検索したい対象(以下、「検索対象」と記載する場合がある。)が曖昧な場合がある。例えば、検索対象が曖昧な場合として、検索したい対象の名称が分からない場合がある。また、検索対象が曖昧な場合として、検索したい対象の一部の特徴しか分からない場合がある。これに対し、情報処理装置100は、利用者U1が検索システム200を利用する際の検索対象の曖昧性を補完する役割を担う機械学習モデルM1を用いて、利用者U1が所望する検索対象の曖昧性を補完する。 Figure 2 is a diagram illustrating the overview of the search process according to the embodiment. Figure 2 differs from Figure 1 in that the information processing device 100, according to the embodiment, plays a role in connecting the user U1 who uses the search system 200 with the search system 200 by using a machine learning model M1. Specifically, when user U1 uses the search system 200, the object they want to search for (hereinafter sometimes referred to as "search target") may be ambiguous. For example, one case of an ambiguous search target is when the name of the object to be searched is unknown. Another case of an ambiguous search target is when only some of the characteristics of the object to be searched are known. In response to this, the information processing device 100 uses the machine learning model M1, which plays a role in complementing the ambiguity of the search target when user U1 uses the search system 200, to complement the ambiguity of the search target desired by user U1.

具体的には、情報処理装置100は、検索システム200を利用する利用者U1によって入力された入力情報(例えば、曖昧な情報を含む検索クエリ等)を機械学習モデルM1に入力して、利用者U1が所望する検索対象の曖昧性を補完するための情報を生成する。より具体的には、情報処理装置100は、利用者U1が所望する検索対象の曖昧性を補完するための情報として、利用者U1が所望する検索対象を特定するための質問を示す質問情報を生成する。言い換えると、情報処理装置100は、利用者U1が所望する検索対象の曖昧性を補完するための情報として、利用者U1が所望する検索対象を明確化するための質問を示す質問情報を生成する。例えば、情報処理装置100は、入力情報を機械学習モデルM1に入力して、利用者U1が所望する検索対象を特定するための質問を示す質問情報を生成する。言い換えると、質問情報は、利用者U1が所望する検索対象を特定するために利用者U1に聞き返すべき内容を示す情報である。また、言い換えると、質問情報は、利用者U1が所望する検索対象を特定するために利用者U1へ問いかける内容を示す情報である。例えば、機械学習モデルM1は、入力された情報に応じた情報を生成して出力する言語モデルであってよい。例えば、機械学習モデルM1は、大規模言語モデル(LLM:Large Language Model)であってよい。例えば、情報処理装置100は、入力情報を機械学習モデルM1に入力して、入力情報に応じた質問情報を機械学習モデルM1に生成させる。例えば、情報処理装置100は、テキストである入力情報を機械学習モデルM1に入力する。また、情報処理装置100は、テキストである質問情報を機械学習モデルM1に生成させる。 Specifically, the information processing device 100 inputs input information (for example, a search query containing ambiguous information) entered by user U1 using the search system 200 into the machine learning model M1 to generate information to complement the ambiguity of the search target desired by user U1. More specifically, as information to complement the ambiguity of the search target desired by user U1, the information processing device 100 generates question information indicating questions to identify the search target desired by user U1. In other words, as information to complement the ambiguity of the search target desired by user U1, the information processing device 100 generates question information indicating questions to clarify the search target desired by user U1. For example, the information processing device 100 inputs input information into the machine learning model M1 to generate question information indicating questions to identify the search target desired by user U1. In other words, the question information is information indicating what should be asked of user U1 in order to identify the search target desired by user U1. In other words, the question information is information that indicates the content of the questions posed to user U1 in order to identify the search target desired by user U1. For example, the machine learning model M1 may be a language model that generates and outputs information in response to the input information. For example, the machine learning model M1 may be a Large Language Model (LLM). For example, the information processing device 100 inputs input information into the machine learning model M1 and causes the machine learning model M1 to generate question information in response to the input information. For example, the information processing device 100 inputs text-based input information into the machine learning model M1. The information processing device 100 also causes the machine learning model M1 to generate text-based question information.

図2では、利用者U1の端末装置10は、検索システム200を利用する利用者U1によって入力された入力情報を情報処理装置100に送信する。例えば、入力情報は、利用者U1が何らかの検索意図をもって入力した情報であってよい。例えば、入力情報は、曖昧な情報を含む検索クエリであってよい。情報処理装置100は、利用者U1から入力情報を受け付ける。情報処理装置100は、入力情報を取得する。情報処理装置100は、入力情報を取得した場合、入力情報を機械学習モデルM1に入力して、利用者U1が所望する検索対象を特定するための質問を示す質問情報を機械学習モデルM1に生成させる。このように、情報処理装置100は、質問情報を機械学習モデルM1に生成させることで、質問情報を生成する。情報処理装置100は、質問情報を生成した場合、質問情報を端末装置10に送信する。このように、情報処理装置100は、入力情報に応じた質問情報を生成し、生成した質問情報を端末装置10に送信することにより、利用者U1が所望する検索対象の曖昧性を補完することを可能とすることができる。 In Figure 2, the terminal device 10 of user U1 transmits input information entered by user U1 using the search system 200 to the information processing device 100. For example, the input information may be information entered by user U1 with some search intent. For example, the input information may be a search query containing ambiguous information. The information processing device 100 receives the input information from user U1. The information processing device 100 acquires the input information. Upon acquiring the input information, the information processing device 100 inputs the input information into the machine learning model M1, causing the machine learning model M1 to generate question information indicating a question to identify the search target desired by user U1. In this way, the information processing device 100 generates question information by causing the machine learning model M1 to generate the question information. When the information processing device 100 generates question information, it transmits the question information to the terminal device 10. In this way, the information processing device 100 can compensate for the ambiguity of the search target desired by user U1 by generating question information according to the input information and transmitting the generated question information to the terminal device 10.

また、図示を省略するが、端末装置10は、質問情報を受信した場合、受信した質問情報を画面に表示する。また、端末装置10は、入力情報として、質問に対する応答を示す応答情報を情報処理装置100に送信する。情報処理装置100は、端末装置10から応答情報を取得する。情報処理装置100は、応答情報を取得した場合、応答情報を機械学習モデルM1に入力して、応答情報に応じた検索クエリを機械学習モデルM1に生成させる。このように、情報処理装置100は、検索クエリを機械学習モデルM1に生成させることで、検索クエリを生成する。また、情報処理装置100は、質問情報に応じた応答情報を取得し、応答情報に応じた検索クエリを生成することにより、利用者U1が所望する検索対象の曖昧性を補完したうえでの検索クエリを生成することができる。 Although not shown in the diagram, when the terminal device 10 receives question information, it displays the received question information on the screen. The terminal device 10 also transmits response information, indicating the answer to the question, to the information processing device 100 as input information. The information processing device 100 acquires the response information from the terminal device 10. Upon acquiring the response information, the information processing device 100 inputs the response information into the machine learning model M1, causing the machine learning model M1 to generate a search query corresponding to the response information. In this way, the information processing device 100 generates a search query by causing the machine learning model M1 to generate the search query. Furthermore, by acquiring response information corresponding to the question information and generating a search query corresponding to the response information, the information processing device 100 can generate a search query that complements the ambiguity of the search target desired by the user U1.

また、図2では、情報処理装置100は、機械学習モデルM1が生成した検索クエリを検索システム200に入力する。検索システム200は、検索クエリを取得した場合、検索クエリに基づいて検索を実行し、検索結果を情報処理装置100に送信する。情報処理装置100は、検索システム200から検索結果を取得する。また、情報処理装置100は、検索結果を取得した場合、検索結果を機械学習モデルM1に入力して、検索結果に応じた出力情報を機械学習モデルM1に生成させる。このように、情報処理装置100は、出力情報を機械学習モデルM1に生成させることで、出力情報を生成する。また、情報処理装置100は、出力情報を端末装置10に送信する。端末装置10は、情報処理装置100から出力情報を受信する。 Furthermore, in Figure 2, the information processing device 100 inputs the search query generated by the machine learning model M1 to the search system 200. When the search system 200 receives the search query, it executes the search based on the query and transmits the search results to the information processing device 100. The information processing device 100 retrieves the search results from the search system 200. Also, when the information processing device 100 receives the search results, it inputs the search results to the machine learning model M1, causing the machine learning model M1 to generate output information corresponding to the search results. In this way, the information processing device 100 generates output information by causing the machine learning model M1 to generate it. The information processing device 100 then transmits the output information to the terminal device 10. The terminal device 10 receives the output information from the information processing device 100.

上述したように、情報処理装置100は、検索システム200を利用する利用者U1によって入力された入力情報を受け付ける。また、情報処理装置100は、入力情報を機械学習モデルM1に入力して、利用者U1が所望する検索対象を特定するための質問を示す質問情報を機械学習モデルM1に生成させ、質問情報に対する応答を示す応答情報を取得し、応答情報に応じた検索クエリを生成し、検索クエリに対応する検索結果に応じた出力情報を生成する。また、情報処理装置100は、出力情報を出力する。これにより、情報処理装置100は、利用者U1が所望する検索対象の曖昧性を補完したうえでの検索クエリに対応する検索結果を利用者U1に対して提供することができる。したがって、情報処理装置100は、利用者U1が所望する検索対象の曖昧性を補完したうえでの検索結果を利用者U1に対して提供することができる。 As described above, the information processing device 100 receives input information entered by user U1 using the search system 200. The information processing device 100 also inputs the input information into the machine learning model M1, causing the model M1 to generate question information indicating a question to identify the search target desired by user U1. It then obtains response information indicating a response to the question information, generates a search query corresponding to the response information, and generates output information corresponding to the search results that correspond to the search query. The information processing device 100 also outputs the output information. In this way, the information processing device 100 can provide user U1 with search results that correspond to the search query while resolving any ambiguity regarding the search target desired by user U1. Therefore, the information processing device 100 can provide user U1 with search results that resolve any ambiguity regarding the search target desired by user U1.

〔2.情報処理システムの構成〕
図3を用いて、実施形態に係る情報処理システム1の構成例について説明する。図3は、実施形態に係る情報処理システム1の構成例を示す図である。図3に示すように、情報処理システム1は、端末装置10と、情報処理装置100と、検索システム200とを含む。端末装置10、情報処理装置100および検索システム200は、ネットワークNを介して有線または無線により相互に通信可能に接続される。ネットワークNは、例えば、インターネットなどのWAN(Wide Area Network)である。なお、図3に示した情報処理システム1には、複数台の端末装置10、複数台の情報処理装置100および複数台の検索システム200が含まれていてもよい。
[2. Configuration of the Information Processing System]
An example configuration of the information processing system 1 according to the embodiment will be described using Figure 3. Figure 3 is a diagram showing an example configuration of the information processing system 1 according to the embodiment. As shown in Figure 3, the information processing system 1 includes a terminal device 10, an information processing device 100, and a search system 200. The terminal device 10, the information processing device 100, and the search system 200 are connected to each other via a network N, either by wire or wireless means, enabling communication between them. The network N is, for example, a WAN (Wide Area Network) such as the Internet. Note that the information processing system 1 shown in Figure 3 may include multiple terminal devices 10, multiple information processing devices 100, and multiple search systems 200.

端末装置10は、検索システム200を利用する利用者U1によって利用される情報処理装置である。端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。また、端末装置10は、情報処理装置100などから受信した情報を、ウェブブラウザやアプリケーションにより表示する。なお、図2に示す例では、端末装置10がスマートフォンである場合を示す。 The terminal device 10 is an information processing device used by user U1 who uses the search system 200. The terminal device 10 can be implemented as, for example, a smartphone, a tablet, a notebook PC (Personal Computer), a desktop PC, a mobile phone, or a PDA (Personal Digital Assistant). The terminal device 10 displays information received from the information processing device 100, etc., using a web browser or application. In the example shown in Figure 2, the terminal device 10 is a smartphone.

情報処理装置100は、実施形態に係る情報処理を行う情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。図2の例において、情報処理装置100は、検索システム200を利用する利用者U1によって入力された入力情報を受け付ける。また、情報処理装置100は、入力情報を機械学習モデルM1に入力して、利用者U1が所望する検索対象を特定するための質問を示す質問情報を機械学習モデルM1に生成させ、質問情報に対する応答を示す応答情報を取得し、応答情報に応じた検索クエリを生成し、検索クエリに対応する検索結果に応じた出力情報を生成する。また、情報処理装置100は、出力情報を出力する。 The information processing device 100 is an information processing device that performs information processing according to the embodiment, and can be implemented, for example, by a server device or a cloud system. In the example in Figure 2, the information processing device 100 receives input information entered by user U1 using the search system 200. The information processing device 100 also inputs the input information into a machine learning model M1, causing the machine learning model M1 to generate question information indicating a question for identifying the search target desired by user U1, obtains response information indicating a response to the question information, generates a search query according to the response information, and generates output information corresponding to the search results that correspond to the search query. The information processing device 100 also outputs the output information.

検索システム200は、検索サービスを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。図2の例において、検索システム200は、検索システム200は、検索クエリを取得した場合、検索クエリに基づいて検索を実行し、検索結果を情報処理装置100に送信する。 The search system 200 is an information processing device that provides search services, and can be implemented, for example, by a server device or a cloud system. In the example shown in Figure 2, when the search system 200 receives a search query, it performs a search based on the query and transmits the search results to the information processing device 100.

〔3.情報処理装置の構成〕
図4を用いて、実施形態に係る情報処理装置100の構成例について説明する。図4は、実施形態に係る情報処理装置100の構成例を示す図である。情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。
[3. Configuration of Information Processing Equipment]
An example of the configuration of the information processing device 100 according to the embodiment will be described using Figure 4. Figure 4 is a diagram showing an example of the configuration of the information processing device 100 according to the embodiment. The information processing device 100 has a communication unit 110, a storage unit 120, and a control unit 130.

(通信部110)
通信部110は、NIC(Network Interface Card)やアンテナ等によって実現される。通信部110は、各種ネットワークと有線または無線で接続され、例えば、端末装置10や検索システム200との間で情報の送受信を行う。
(Communications Department 110)
The communication unit 110 is implemented using a NIC (Network Interface Card), an antenna, etc. The communication unit 110 is connected to various networks by wired or wireless means, and performs information transmission and reception with, for example, a terminal device 10 or a search system 200.

(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部120は、各種データを記憶する。例えば、記憶部120は、受付部132が受け付けた各種情報を記憶してよい。また、記憶部120は、生成部133が生成した各種情報を記憶してよい。また、記憶部120は、生成部133が取得した各種情報を記憶してよい。例えば、記憶部120は、各種プログラムを記憶する。例えば、記憶部120は、実施形態に係る情報処理プログラムを記憶する。また、記憶部120は、各種の機械学習モデルに関する情報を記憶してよい。例えば、記憶部120は、大規模言語モデルまたは視覚言語モデルである機械学習モデルM1に関する情報を記憶する。また、記憶部120は、画像生成モデルM2に関する情報を記憶する。また、記憶部120は、画像認識モデルM3に関する情報を記憶する。また、記憶部120は、音声認識モデルM4に関する情報を記憶する。また、記憶部120は、各種センサによって取得された情報を認識する機械学習モデルに関する情報を記憶してよい。
(Storage unit 120)
The memory unit 120 is implemented by, for example, a semiconductor memory element such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disc. Specifically, the memory unit 120 stores various types of data. For example, the memory unit 120 may store various types of information received by the receiving unit 132. The memory unit 120 may also store various types of information generated by the generation unit 133. The memory unit 120 may also store various types of information acquired by the generation unit 133. For example, the memory unit 120 stores various programs. For example, the memory unit 120 stores an information processing program according to the embodiment. The memory unit 120 may also store information related to various machine learning models. For example, the memory unit 120 stores information related to a machine learning model M1, which is a large-scale language model or a visual language model. The memory unit 120 also stores information related to an image generation model M2. The memory unit 120 also stores information related to an image recognition model M3. Furthermore, the memory unit 120 stores information related to the speech recognition model M4. The memory unit 120 may also store information related to machine learning models that recognize information acquired by various sensors.

(制御部130)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(Control unit 130)
The control unit 130 is a controller, and is realized, for example, by a CPU (Central Processing Unit) or MPU (Micro Processing Unit) executing various programs stored in the memory device inside the information processing device 100 using RAM as the working area. Alternatively, the control unit 130 is a controller and can be realized, for example, by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).

制御部130は、指示部131と、受付部132と、生成部133と、出力制御部134を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部130の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。 The control unit 130 has an instruction unit 131, a reception unit 132, a generation unit 133, and an output control unit 134 as functional units, and may realize or execute the information processing operations described below. Note that the internal configuration of the control unit 130 is not limited to the configuration shown in Figure 4; other configurations are also acceptable as long as they perform the information processing described later. Furthermore, each functional unit represents a function of the control unit 130 and does not necessarily have to be physically distinct.

(指示部131)
指示部131は、機械学習モデルM1に対して、検索システムを利用する利用者が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示する。具体的には、指示部131は、入力された情報に応じた情報を生成して出力する言語モデルである機械学習モデルM1に対して、利用者が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示してよい。より具体的には、機械学習モデルM1は、入力されたトークン列から次のトークンを推定して出力するように学習された言語モデルであってよい。例えば、機械学習モデルM1は、大規模言語モデル(LLM)であってよい。例えば、機械学習モデルM1は、OpenAI社のgpt-3.5やgpt-4などであってよい。
(Instruction unit 131)
The instruction unit 131 instructs the machine learning model M1 to identify the search target desired by the user of the search system, generate a search query corresponding to the identified search target, and obtain search results corresponding to the generated search query. Specifically, the instruction unit 131 may instruct the machine learning model M1, which is a language model that generates and outputs information according to the input information, to identify the search target desired by the user, generate a search query corresponding to the identified search target, and obtain search results corresponding to the generated search query. More specifically, the machine learning model M1 may be a language model that has been trained to estimate and output the next token from an input token sequence. For example, the machine learning model M1 may be a large-scale language model (LLM). For example, the machine learning model M1 may be OpenAI's gpt-3.5 or gpt-4.

図5は、実施形態に係る情報処理の一例について説明するための図である。図5では、指示部131は、機械学習モデルM1に対して、検索システム200を利用する利用者U1が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示する(ステップS11)。図5では、機械学習モデルM1が大規模言語モデルである場合について説明する。具体的には、指示部131は、利用者U1が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示するプロンプトを機械学習モデルM1に入力することにより、利用者U1が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示する。以下では、「検索システム200を利用する利用者U1が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示する」ことを「上記のように指示する」と記載する場合がある。 Figure 5 is a diagram illustrating an example of information processing according to the embodiment. In Figure 5, the instruction unit 131 instructs the machine learning model M1 to identify the search target desired by user U1 using the search system 200, generate a search query corresponding to the identified search target, and obtain search results corresponding to the generated search query (step S11). Figure 5 illustrates the case where the machine learning model M1 is a large-scale language model. Specifically, the instruction unit 131 inputs a prompt to the machine learning model M1 instructing it to identify the search target desired by user U1, generate a search query corresponding to the identified search target, and obtain search results corresponding to the generated search query. Hereafter, "instructing the model to identify the search target desired by user U1 using the search system 200, generate a search query corresponding to the identified search target, and obtain search results corresponding to the generated search query" may be referred to as "instructing as described above."

例えば、指示部131は、プロンプトとしてシステムプロンプトと利用者プロンプトとに分けて入力できる機械学習モデルM1(例えば、OpenAI社のgpt-3.5やgpt-4など)に対して、上記のように指示する。例えば、指示部131は、利用者U1が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示するシステムプロンプトを機械学習モデルM1に入力することにより、上記のように指示する。例えば、指示部131は、図6に示すプロンプトP1を機械学習モデルM1に入力することにより、上記のように指示してよい。図6は、実施形態に係るプロンプトの一例を示す図である。図6に示すプロンプトP1は、「検索システムを利用する利用者を補助すること。利用者と会話をすることで利用者が検索したい対象を明確化すること。明確化した対象を正確に表現する検索情報を検討・構成した後に、検索システムを呼び出すこと。利用者との会話や検索情報の検討・構成に当たっては、下記のツールを利用することができる。画像認識ツール(入力:画像のファイル名、出力:画像に写っているものを説明する文章)。画像生成ツール(入力:文章、出力:文章の内容に基づいた画像)。利用者から検索したい情報の入力が合った場合は自分の検討過程を明記しながら会話をすること。」という内容の文章を含むシステムプロンプトである。 For example, the instruction unit 131 gives the above-described instructions to a machine learning model M1 (for example, OpenAI's gpt-3.5 or gpt-4) that can receive system prompts and user prompts separately. For example, the instruction unit 131 gives the above-described instructions by inputting a system prompt to the machine learning model M1 that instructs it to identify the search target desired by user U1, generate a search query corresponding to the identified search target, and obtain the search results corresponding to the generated search query. For example, the instruction unit 131 may give the above-described instructions by inputting the prompt P1 shown in Figure 6 to the machine learning model M1. Figure 6 is a diagram showing an example of a prompt according to the embodiment. The prompt P1 shown in Figure 6 is a system prompt containing the following text: "Assist users of the search system. Engage in conversation with the user to clarify the object they wish to search for. After considering and structuring search information that accurately represents the clarified object, call the search system. The following tools can be used in conversation with the user and in considering and structuring search information: Image recognition tool (Input: Image file name, Output: Text describing what is in the image). Image generation tool (Input: Text, Output: Image based on the text). When the user provides information they wish to search for, engage in conversation while clearly stating your own consideration process."

例えば、指示部131は、図6に示す「検索システムを利用する利用者を補助すること。利用者と会話をすることで利用者が検索したい対象を明確化すること。」という内容の文章を含むプロンプトP1を機械学習モデルM1に入力することにより、機械学習モデルM1に対して、利用者U1が所望する検索対象を特定するよう指示する。また、指示部131は、図6に示す「明確化した対象を正確に表現する検索情報を検討・構成した後に、検索システムを呼び出すこと。」という内容の文章を含むプロンプトP1を機械学習モデルM1に入力することにより、機械学習モデルM1に対して、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示する。 For example, the instruction unit 131 instructs the machine learning model M1 to identify the search target desired by user U1 by inputting a prompt P1 containing the text shown in Figure 6, "Assist users of the search system. Clarify the target the user wishes to search for by engaging in conversation with the user." Furthermore, the instruction unit 131 instructs the machine learning model M1 to generate a search query corresponding to the identified search target and retrieve search results corresponding to the generated search query by inputting another prompt P1 containing the text shown in Figure 6, "Consider and configure search information that accurately represents the clarified target."

(受付部132)
受付部132は、検索システムを利用する利用者によって入力された入力情報を受け付ける。図5では、受付部132は、検索システム200を利用する利用者U1によって入力された入力情報を受け付ける(ステップS12)。例えば、受付部132は、利用者U1の端末装置10から入力情報を受け付けてよい。例えば、受付部132は、入力情報として、利用者U1によって入力された入力テキストを受け付けてよい。例えば、入力テキストは、文章であってよい。また、受付部132は、入力情報を受け付けた場合、入力情報を生成部133に出力してよい。
(Reception desk 132)
The reception unit 132 receives input information entered by users of the search system. In Figure 5, the reception unit 132 receives input information entered by user U1 of the search system 200 (step S12). For example, the reception unit 132 may receive input information from user U1's terminal device 10. For example, the reception unit 132 may receive input text entered by user U1 as input information. For example, the input text may be a sentence. Also, when the reception unit 132 receives input information, it may output the input information to the generation unit 133.

(生成部133)
生成部133は、入力情報を機械学習モデルに入力して、利用者が所望する検索対象を特定するための質問を示す質問情報を機械学習モデルに生成させ、質問情報に対する応答を示す応答情報を取得し、応答情報に応じた検索クエリを生成し、検索クエリに対応する検索結果に応じた出力情報を生成する。例えば、生成部133は、受付部132から入力情報を取得してよい。生成部133は、入力情報を取得した場合、入力情報に基づいて、入力情報に応じた質問情報を生成する。生成部133は、入力情報に対応する質問情報を生成する。具体的には、生成部133は、入力情報を機械学習モデルに入力して、利用者が所望する検索対象を特定するための質問を示す質問情報を機械学習モデルに生成させる。図5では、生成部133は、入力情報を機械学習モデルM1に入力して、利用者U1が所望する検索対象を特定するための質問を示す質問情報を機械学習モデルM1に生成させる(ステップS13)。より具体的には、生成部133は、入力情報とともに、利用者が所望する検索対象を特定するための質問を示す質問情報を生成するよう指示するプロンプトを機械学習モデルM1に入力して、入力情報に対応する質問情報を機械学習モデルM1に生成させる。例えば、生成部133は、入力情報として、利用者U1によって入力された入力テキストを機械学習モデルM1に入力して、質問情報として、入力テキストに応じた質問テキストを機械学習モデルM1に生成させてよい。例えば、質問テキストは、文章であってよい。また、生成部133は、質問情報を機械学習モデルM1に生成させた場合、質問情報を出力制御部134に出力してよい。
(Generation unit 133)
The generation unit 133 inputs the input information into a machine learning model, causes the machine learning model to generate question information indicating a question to identify the search target desired by the user, obtains response information indicating a response to the question information, generates a search query according to the response information, and generates output information corresponding to the search results that correspond to the search query. For example, the generation unit 133 may obtain the input information from the reception unit 132. When the generation unit 133 obtains the input information, it generates question information according to the input information. The generation unit 133 generates question information corresponding to the input information. Specifically, the generation unit 133 inputs the input information into a machine learning model, causing the machine learning model to generate question information indicating a question to identify the search target desired by the user. In Figure 5, the generation unit 133 inputs the input information into the machine learning model M1, causing the machine learning model M1 to generate question information indicating a question to identify the search target desired by user U1 (step S13). More specifically, the generation unit 133 inputs a prompt to the machine learning model M1, along with the input information, instructing it to generate question information that indicates a question for identifying the search target desired by the user, causing the machine learning model M1 to generate question information corresponding to the input information. For example, the generation unit 133 may input the input text entered by the user U1 as input information to the machine learning model M1, and cause the machine learning model M1 to generate question text corresponding to the input text as question information. For example, the question text may be a sentence. Furthermore, if the generation unit 133 has caused the machine learning model M1 to generate question information, it may output the question information to the output control unit 134.

例えば、生成部133は、入力情報とともに、図7の上段に示す「利用者が入力した情報は検索を実行するのに十分か。Yes or Noで答える。」という内容の文章を含むプロンプトP2を機械学習モデルM1に入力してよい。図7は、実施形態に係るプロンプトの一例を示す図である。また、生成部133は、プロンプトP2の入力に応じて機械学習モデルM1から「No」が出力された場合、図7の中段に示す「利用者に聞き返すのにツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP3を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP3の入力に応じて機械学習モデルM1から「No」が出力された場合、図9の上段に示す「利用者に聞き返すべき情報は何か。利用者へ問いかける文言を記載する。」という内容の文章を含むプロンプトP7を機械学習モデルM1に入力してよい。例えば、生成部133は、利用者が所望する検索対象を特定するための質問を示す質問情報を生成するよう指示するプロンプトとして、プロンプトP7を機械学習モデルM1に入力してよい。図9は、実施形態に係るプロンプトの一例を示す図である。また、生成部133は、プロンプトP7の入力に応じて機械学習モデルM1から出力された文章を質問情報として得てよい。このようにして、生成部133は、文章である質問情報を機械学習モデルM1に生成させてよい。このようにして、生成部133は、文章である質問情報を生成してよい。なお、生成部133は、プロンプトP2~P11をシステムプロンプトとして機械学習モデルM1に入力してよい。 For example, the generation unit 133 may input a prompt P2 to the machine learning model M1 along with the input information, which includes the text shown in the upper part of Figure 7: "Is the information entered by the user sufficient to perform the search? Answer Yes or No." Figure 7 is a diagram showing an example of a prompt according to the embodiment. Furthermore, if the machine learning model M1 outputs "No" in response to the input of prompt P2, the generation unit 133 may input a prompt P3 to the machine learning model M1, which includes the text shown in the middle part of Figure 7: "Is it necessary to use a tool to ask the user for clarification? Answer Yes or No." Furthermore, if the machine learning model M1 outputs "No" in response to the input of prompt P3, the generation unit 133 may input a prompt P7 to the machine learning model M1, which includes the text shown in the upper part of Figure 9: "What information should be asked of the user for clarification? Write the wording to ask the user." For example, the generation unit 133 may input prompt P7 to the machine learning model M1 as a prompt instructing it to generate question information indicating a question to identify the search target desired by the user. Figure 9 shows an example of a prompt according to the embodiment. The generation unit 133 may obtain the text output from the machine learning model M1 in response to the input of prompt P7 as question information. In this way, the generation unit 133 may cause the machine learning model M1 to generate question information in the form of text. The generation unit 133 may then generate question information in the form of text. The generation unit 133 may also input prompts P2 to P11 as system prompts to the machine learning model M1.

なお、生成部133は、プロンプトP2の入力に応じて機械学習モデルM1から「Yes」が出力された場合、図7の下段に示す「検索を実行するのにツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP4を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP4の入力に応じて機械学習モデルM1から「No」が出力された場合、図9の中段に示す「検索する情報は何か。文章やファイル名を出力する。」という内容の文章を含むプロンプトP8を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP8の入力に応じて機械学習モデルM1から出力された文章やファイル名を検索クエリとして取得してよい。このようにして、生成部133は、文章である検索クエリを機械学習モデルM1に生成させてよい。このようにして、生成部133は、文章である検索クエリを機械学習モデルM1に生成させてよい。このようにして、生成部133は、文章である検索クエリを生成してよい。 Furthermore, if the machine learning model M1 outputs "Yes" in response to prompt P2, the generation unit 133 may input prompt P4 to the machine learning model M1 containing the text "Do you need to use a tool to perform the search? Answer Yes or No." as shown in the lower part of Figure 7. Also, if the machine learning model M1 outputs "No" in response to prompt P4, the generation unit 133 may input prompt P8 to the machine learning model M1 containing the text "What information are you searching for? Output text or file names." as shown in the middle part of Figure 9. The generation unit 133 may also obtain the text or file names output by the machine learning model M1 as a search query in response to prompt P8. In this way, the generation unit 133 may cause the machine learning model M1 to generate a search query in text form. In this way, the generation unit 133 may cause the machine learning model M1 to generate a search query in text form. In this way, the generation unit 133 may generate a search query in text form.

(出力制御部134)
出力制御部134は、各種情報を出力する。例えば、出力制御部134は、生成部133から各種情報を取得してよい。出力制御部134は、各種情報を取得した場合、各種情報を出力してよい。図5では、出力制御部134は、生成部133から質問情報を取得する。また、出力制御部134は、質問情報を出力する。図5では、出力制御部134は、質問情報を取得した場合、質問情報を出力する(ステップS14)。例えば、出力制御部134は、利用者U1の端末装置10に質問情報を出力してよい。出力制御部134は、利用者U1の端末装置10に質問情報を送信してよい。端末装置10は、質問情報を受信した場合、質問情報を画面に表示してよい。また、端末装置10は、質問情報を画面に表示してから所定時間内に利用者U1によって入力された情報を情報処理装置100に送信してよい。
(Output control unit 134)
The output control unit 134 outputs various information. For example, the output control unit 134 may acquire various information from the generation unit 133. When the output control unit 134 acquires various information, it may output the various information. In Figure 5, the output control unit 134 acquires question information from the generation unit 133. The output control unit 134 also outputs the question information. In Figure 5, when the output control unit 134 acquires question information, it outputs the question information (step S14). For example, the output control unit 134 may output the question information to the terminal device 10 of user U1. The output control unit 134 may transmit the question information to the terminal device 10 of user U1. When the terminal device 10 receives the question information, it may display the question information on the screen. The terminal device 10 may also transmit the information entered by user U1 to the information processing device 100 within a predetermined time after displaying the question information on the screen.

また、受付部132は、質問情報に対する応答を示す応答情報を受け付ける。具体的には、受付部132は、利用者によって入力された応答情報を受け付ける。図5では、受付部132は、利用者U1によって入力された応答情報を受け付ける(ステップS15)。例えば、受付部132は、利用者U1の端末装置10から応答情報を受け付けてよい。例えば、受付部132は、端末装置10が質問情報を画面に表示してから所定時間内に端末装置10に入力された情報を応答情報として受け付けてよい。例えば、受付部132は、応答情報として、利用者U1によって入力された応答テキストを受け付けてよい。また、受付部132は、応答情報を受け付けた場合、応答情報を生成部133に出力してよい。 Furthermore, the reception unit 132 receives response information indicating a response to the question information. Specifically, the reception unit 132 receives response information entered by the user. In Figure 5, the reception unit 132 receives response information entered by user U1 (step S15). For example, the reception unit 132 may receive response information from user U1's terminal device 10. For example, the reception unit 132 may receive information entered into the terminal device 10 as response information within a predetermined time after the terminal device 10 displays the question information on the screen. For example, the reception unit 132 may receive the response text entered by user U1 as response information. Also, when the reception unit 132 receives response information, it may output the response information to the generation unit 133.

また、生成部133は、受付部132から応答情報を取得する。生成部133は、応答情報を取得した場合、応答情報に基づいて、応答情報に応じた検索クエリを生成する。生成部133は、応答情報に対応する検索クエリを生成する。具体的には生成部133は、応答情報を機械学習モデルに入力して、検索クエリを機械学習モデルに生成させる。図5では、生成部133は、応答情報を機械学習モデルM1に入力して、検索クエリを機械学習モデルM1に生成させる(ステップS16)。より具体的には、生成部133は、応答情報とともに、応答情報に対応する検索クエリを生成するよう指示するプロンプトを機械学習モデルM1に入力して、応答情報に対応する検索クエリを機械学習モデルM1に生成させる。例えば、生成部133は、応答情報として、利用者U1によって入力された応答テキストを機械学習モデルM1に入力して、検索クエリとして、応答テキストに応じた検索テキストを機械学習モデルM1に生成させてよい。例えば、検索テキストは、文章であってよい。 Furthermore, the generation unit 133 acquires response information from the reception unit 132. When the generation unit 133 acquires response information, it generates a search query based on that information. Specifically, the generation unit 133 inputs the response information into a machine learning model to cause the machine learning model to generate the search query. In Figure 5, the generation unit 133 inputs the response information into the machine learning model M1 to cause the machine learning model M1 to generate the search query (step S16). More specifically, the generation unit 133 inputs a prompt to the machine learning model M1 along with the response information, instructing it to generate a search query corresponding to the response information, causing the machine learning model M1 to generate the search query corresponding to the response information. For example, the generation unit 133 may input the response text entered by user U1 as the response information into the machine learning model M1, and cause the machine learning model M1 to generate search text corresponding to the response text as the search query. For example, the search text may be a sentence.

例えば、生成部133は、応答情報とともに、図7の上段に示す「利用者が入力した情報は検索を実行するのに十分か。Yes or Noで答える。」という内容の文章を含むプロンプトP2を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP2の入力に応じて機械学習モデルM1から「Yes」が出力された場合、図7の下段に示す「検索を実行するのにツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP4を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP4の入力に応じて機械学習モデルM1から「No」が出力された場合、図9の中段に示す「検索する情報は何か。文章やファイル名を出力する。」という内容の文章を含むプロンプトP8を機械学習モデルM1に入力してよい。例えば、生成部133は、応答情報に対応する検索クエリを生成するよう指示するプロンプトとして、プロンプトP8を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP8の入力に応じて機械学習モデルM1から出力された文章やファイル名を検索クエリとして取得してよい。このようにして、生成部133は、文章である検索クエリを機械学習モデルM1に生成させてよい。このようにして、生成部133は、文章である検索クエリを機械学習モデルM1に生成させてよい。このようにして、生成部133は、文章である検索クエリを生成してよい。 For example, the generation unit 133 may input a prompt P2 to the machine learning model M1 along with the response information, which includes the text shown in the upper part of Figure 7: "Is the information entered by the user sufficient to perform the search? Answer Yes or No." Furthermore, if the machine learning model M1 outputs "Yes" in response to the input of prompt P2, the generation unit 133 may input a prompt P4 to the machine learning model M1, which includes the text shown in the lower part of Figure 7: "Is it necessary to use a tool to perform the search? Answer Yes or No." Furthermore, if the machine learning model M1 outputs "No" in response to the input of prompt P4, the generation unit 133 may input a prompt P8 to the machine learning model M1, which includes the text shown in the middle part of Figure 9: "What information are you searching for? Output text or file names." For example, the generation unit 133 may input prompt P8 to the machine learning model M1 as a prompt instructing it to generate a search query corresponding to the response information. Furthermore, the generation unit 133 may obtain the text and filename output from the machine learning model M1 as search queries in response to the input of prompt P8. In this way, the generation unit 133 may cause the machine learning model M1 to generate search queries in the form of text. In this way, the generation unit 133 may cause the machine learning model M1 to generate search queries in the form of text. In this way, the generation unit 133 may generate search queries in the form of text.

なお、生成部133は、プロンプトP2の入力に応じて機械学習モデルM1から「No」が出力された場合、図7の中段に示す「利用者に聞き返すのにツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP3を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP3の入力に応じて機械学習モデルM1から「No」が出力された場合、図9の上段に示す「利用者に聞き返すべき情報は何か。利用者へ問いかける文言を記載する。」という内容の文章を含むプロンプトP7を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP7の入力に応じて機械学習モデルM1から出力された文章を新たな質問情報として得てよい。また、生成部133は、新たな質問情報を機械学習モデルM1に生成させた場合、新たな質問情報を出力制御部134に出力してよい。 Furthermore, if the machine learning model M1 outputs "No" in response to prompt P2, the generation unit 133 may input prompt P3 to the machine learning model M1 containing the text shown in the middle of Figure 7, "Is it necessary to use a tool to ask the user for clarification? Answer with Yes or No." Also, if the machine learning model M1 outputs "No" in response to prompt P3, the generation unit 133 may input prompt P7 to the machine learning model M1 containing the text shown in the upper part of Figure 9, "What information should be asked of the user for clarification? Write the wording to ask the user." The generation unit 133 may also obtain the text output by the machine learning model M1 in response to prompt P7 as new question information. Furthermore, if the generation unit 133 has caused the machine learning model M1 to generate new question information, it may output the new question information to the output control unit 134.

また、図5では、生成部133は、応答情報に応じた検索クエリを生成した場合、生成した検索クエリを検索システム200に入力する(ステップS17)。例えば、生成部133は、生成された検索クエリを検索システム200に送信してよい。また、生成部133は、検索クエリに対応する検索結果を取得する(ステップS18)。例えば、生成部133は、検索クエリに対応する検索結果を検索システム200から取得してよい。生成部133は、検索クエリに対応する検索結果を検索システム200から受信してよい。 Furthermore, in Figure 5, when the generation unit 133 generates a search query corresponding to the response information, it inputs the generated search query to the search system 200 (step S17). For example, the generation unit 133 may transmit the generated search query to the search system 200. The generation unit 133 also obtains the search results corresponding to the search query (step S18). For example, the generation unit 133 may obtain the search results corresponding to the search query from the search system 200. The generation unit 133 may receive the search results corresponding to the search query from the search system 200.

また、生成部133は、検索結果を取得した場合、検索結果に基づいて、検索結果に応じた出力情報を生成する。具体的には、生成部133は、検索結果を機械学習モデルに入力して、検索結果に応じた出力情報を機械学習モデルに生成させる。図5では、生成部133は、検索結果を機械学習モデルM1に入力して、検索結果に応じた出力情報を機械学習モデルM1に生成させる(ステップS19)。より具体的には、生成部133は、検索結果とともに、検索結果に対応する出力情報を生成するよう指示するプロンプトを機械学習モデルM1に入力して、検索結果に対応する出力情報を機械学習モデルM1に生成させる。例えば、生成部133は、検索結果を取得した場合、検索結果とともに、図9の下段に示す「検索結果が検索意図に沿うか判断するのにツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP9を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP9の入力に応じて機械学習モデルM1から「No」が出力された場合、検索クエリと検索結果との類似度が所定の閾値を超えるか否かを判定してよい。例えば、生成部133は、テキストである検索クエリとテキストである検索結果との類似度が所定の閾値以上であるか否かを判定してよい。生成部133は、テキストである検索クエリとテキストである検索結果との類似度が所定の閾値以上であると判定した場合、検索結果が検索意図に沿うと判定してよい。また、生成部133は、検索結果が検索意図に沿うと判定した場合、図10の下段に示す「検索結果を利用者へ返すために、要約や言い換えなどを実施する。検索結果として利用者に返答する文言を記載する。」という内容の文章を含むプロンプトP11を機械学習モデルM1に入力してよい。図10は、実施形態に係るプロンプトの一例を示す図である。例えば、生成部133は、検索結果に対応する出力情報を生成するよう指示するプロンプトとして、プロンプトP11を機械学習モデルM1に入力してよい。生成部133は、プロンプトP11の入力に応じて機械学習モデルM1から出力された文章を出力情報として得てよい。例えば、生成部133は、文章である検索結果を要約した文章を出力情報として得てよい。また、生成部133は、文章である検索結果を言い換えた文章を出力情報として得てよい。このようにして、生成部133は、文章である出力情報を機械学習モデルM1に生成させてよい。このようにして、生成部133は、文章である出力情報を生成してよい。 Furthermore, when the generation unit 133 obtains search results, it generates output information corresponding to the search results based on those results. Specifically, the generation unit 133 inputs the search results into a machine learning model and causes the machine learning model to generate output information corresponding to the search results. In Figure 5, the generation unit 133 inputs the search results into the machine learning model M1 and causes the machine learning model M1 to generate output information corresponding to the search results (step S19). More specifically, along with the search results, the generation unit 133 inputs a prompt to the machine learning model M1 instructing it to generate output information corresponding to the search results, causing the machine learning model M1 to generate output information corresponding to the search results. For example, when the generation unit 133 obtains search results, it may input a prompt P9 to the machine learning model M1 along with the search results, which includes the sentence "Is it necessary to use a tool to determine whether the search results are in line with your search intent? Answer Yes or No," as shown in the lower part of Figure 9. Also, if the machine learning model M1 outputs "No" in response to the input of prompt P9, the generation unit 133 may determine whether the similarity between the search query and the search results exceeds a predetermined threshold. For example, the generation unit 133 may determine whether the similarity between the text search query and the text search result is above a predetermined threshold. If the generation unit 133 determines that the similarity between the text search query and the text search result is above a predetermined threshold, it may determine that the search result is in line with the search intent. Furthermore, if the generation unit 133 determines that the search result is in line with the search intent, it may input a prompt P11 to the machine learning model M1 that includes the following text, as shown in the lower part of Figure 10: "Summarize or paraphrase the search results to return them to the user. Include the wording to be returned to the user as the search result." Figure 10 is a diagram showing an example of a prompt according to the embodiment. For example, the generation unit 133 may input prompt P11 to the machine learning model M1 as a prompt instructing it to generate output information corresponding to the search result. The generation unit 133 may obtain the text output from the machine learning model M1 in response to the input of prompt P11 as output information. For example, the generation unit 133 may obtain a text that summarizes the text search result as output information. Furthermore, the generation unit 133 may obtain output information that paraphrases the search results, which are text. In this way, the generation unit 133 may cause the machine learning model M1 to generate the output information, which is text. In this way, the generation unit 133 may generate the output information, which is text.

また、生成部133は、テキストである検索クエリとテキストである検索結果との類似度が所定の閾値以上でない(所定の閾値未満である)と判定した場合、検索結果が検索意図に沿わないと判定してよい。また、生成部133は、検索結果が検索意図に沿わないと判定した場合、図10の上段に示す「検索結果を適切なものにするために検索情報を修正する。ツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP10を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP10の入力に応じて機械学習モデルM1から「No」が出力された場合、新たな検索クエリを生成してよい。例えば、生成部133は、検索結果との類似度が所定の閾値以上でないと判定された検索クエリとは異なる検索クエリを生成してよい。例えば、生成部133は、図9の中段に示す「検索する情報は何か。文章やファイル名を出力する。」という内容の文章を含むプロンプトP8を機械学習モデルM1に再び入力してよい。また、生成部133は、プロンプトP8の入力に応じて機械学習モデルM1から再び出力された文章やファイル名を新たな検索クエリとして取得してよい。 Furthermore, if the generation unit 133 determines that the similarity between the text search query and the text search results is not above a predetermined threshold (i.e., below a predetermined threshold), it may determine that the search results do not conform to the search intent. If the generation unit 133 determines that the search results do not conform to the search intent, it may input a prompt P10 to the machine learning model M1 containing the text shown in the upper part of Figure 10, "Modify the search information to make the search results appropriate. Do you need to use a tool? Answer Yes or No." Also, if the machine learning model M1 outputs "No" in response to the input of prompt P10, the generation unit 133 may generate a new search query. For example, the generation unit 133 may generate a search query different from the search query for which the similarity to the search results was determined to be below a predetermined threshold. For example, the generation unit 133 may again input a prompt P8 to the machine learning model M1 containing the text shown in the middle part of Figure 9, "What information are you searching for? Output text or file names." Furthermore, the generation unit 133 may acquire the text and filename output again from the machine learning model M1 in response to the input of prompt P8 as a new search query.

また、出力制御部134は、検索結果に基づく出力情報を出力する。図5では、出力制御部134は、生成部133から出力情報を取得してよい。出力制御部134は、出力情報を取得した場合、利用者U1の端末装置10に出力情報を出力する(ステップS20)。例えば、出力制御部134は、利用者U1の端末装置10に出力情報を送信してよい。 Furthermore, the output control unit 134 outputs output information based on the search results. In Figure 5, the output control unit 134 may acquire output information from the generation unit 133. When the output control unit 134 acquires output information, it outputs the output information to the user U1's terminal device 10 (step S20). For example, the output control unit 134 may transmit the output information to the user U1's terminal device 10.

〔4.処理手順〕
図11は、実施形態に係る情報処理装置による情報処理の手順を示すフローチャートである。図11では、情報処理装置100の指示部131は、機械学習モデルに対して、利用者が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示する(ステップS101)。また、情報処理装置100の受付部132は、検索システムを利用する利用者によって入力された入力情報を受け付ける(ステップS102)。また、情報処理装置100の生成部133は、入力情報を機械学習モデルに入力して、質問情報を機械学習モデルに生成させる(ステップS103)。また、生成部133は、応答情報を取得する(ステップS104)。また、生成部133は、応答情報を機械学習モデルに入力して、検索クエリを機械学習モデルに生成させる(ステップS105)。また、生成部133は、検索結果を機械学習モデルに入力して、出力情報を機械学習モデルに生成させる(ステップS106)。また、情報処理装置100の出力制御部134は、出力情報を出力する(ステップS107)。
[4. Processing Procedure]
Figure 11 is a flowchart showing the information processing procedure by the information processing device according to the embodiment. In Figure 11, the instruction unit 131 of the information processing device 100 instructs the machine learning model to identify the search target desired by the user, generate a search query corresponding to the identified search target, and obtain search results corresponding to the generated search query (step S101). The reception unit 132 of the information processing device 100 receives input information entered by the user using the search system (step S102). The generation unit 133 of the information processing device 100 inputs the input information into the machine learning model to cause the machine learning model to generate question information (step S103). The generation unit 133 also obtains response information (step S104). The generation unit 133 also inputs the response information into the machine learning model to cause the machine learning model to generate a search query (step S105). The generation unit 133 also inputs the search results into the machine learning model to cause the machine learning model to generate output information (step S106). Furthermore, the output control unit 134 of the information processing device 100 outputs output information (step S107).

〔5.変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。
[5. Variations]
The processing according to the above-described embodiment may be carried out in various other forms besides those described above.

上述した実施形態では、生成部133が文章を生成する場合について説明したが、生成部133が生成する情報は文章に限られない。例えば、生成部133は、文章に加えて、画像を生成してもよい。例えば、生成部133は、テキストからテキストに対応する画像を生成する画像生成モデルM2に画像を生成させてもよい。生成部133は、画像生成モデルM2に画像を生成させることで、画像を生成してよい。具体的には、生成部133は、テキストからテキストに対応する画像を生成する画像生成モデルM2に入力するテキストである第1の入力テキストを機械学習モデルM1に生成させ、第1の入力テキストを画像生成モデルM2に入力して、第1の入力テキストに対応する画像である第1の生成画像を画像生成モデルM2に生成させ、第1の生成画像を機械学習モデルM1に入力して、質問情報を機械学習モデルM1に生成させる。例えば、生成部133は、質問情報を生成するために利用すべきツールを判断し、ツールの入力情報を生成して、生成した入力情報をツールに入力して、ツールの出力情報に基づいて質問情報を生成するよう指示するプロンプトを入力してよい。例えば、生成部133は、指示部131によって利用可能なツールとしてあらかじめ指定されたツールの中から質問情報を生成するために利用すべきツールを判断するよう指示するプロンプトを入力してよい。例えば、生成部133は、画像生成モデルおよび画像認識モデルの中から質問情報を生成するために利用すべきツールを判断するよう指示するプロンプトを入力してよい。 In the embodiment described above, the case in which the generation unit 133 generates text was explained, but the information generated by the generation unit 133 is not limited to text. For example, the generation unit 133 may generate images in addition to text. For example, the generation unit 133 may have an image generation model M2, which generates images corresponding to text from text, generate an image. The generation unit 133 may generate an image by having the image generation model M2 generate an image. Specifically, the generation unit 133 may have a machine learning model M1 generate a first input text, which is text to be input to an image generation model M2 that generates images corresponding to text from text, input the first input text to the image generation model M2, have the image generation model M2 generate a first generated image, which is an image corresponding to the first input text, input the first generated image to the machine learning model M1, and have the machine learning model M1 generate question information. For example, the generation unit 133 may determine which tool should be used to generate question information, generate input information for the tool, input the generated input information to the tool, and input a prompt instructing the tool to generate question information based on the output information of the tool. For example, the generation unit 133 may input a prompt instructing it to determine which tool to use to generate question information from among the tools pre-specified as available tools by the instruction unit 131. For example, the generation unit 133 may input a prompt instructing it to determine which tool to use to generate question information from among the image generation model and image recognition model.

例えば、生成部133は、入力情報とともに、図7の上段に示す「利用者が入力した情報は検索を実行するのに十分か。Yes or Noで答える。」という内容の文章を含むプロンプトP2を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP2の入力に応じて機械学習モデルM1から「No」が出力された場合、図7の中段に示す「利用者に聞き返すのにツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP3を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP3の入力に応じて機械学習モデルM1から「Yes」が出力された場合、図8の上段に示す「利用すべきツールは何か。ツール名と入力を答える。」という内容の文章を含むプロンプトP5を機械学習モデルM1に入力してよい。図8は、実施形態に係るプロンプトの一例を示す図である。例えば、生成部133は、質問情報を生成するために利用すべきツールを判断し、ツールの入力情報を生成して、生成した入力情報をツールに入力して、ツールの出力情報に基づいて質問情報を生成するよう指示するプロンプトとして、プロンプトP5を機械学習モデルM1に入力してよい。 For example, the generation unit 133 may input a prompt P2 to the machine learning model M1 along with the input information, which includes the text shown in the upper part of Figure 7: "Is the information entered by the user sufficient to perform the search? Answer Yes or No." Furthermore, if the machine learning model M1 outputs "No" in response to the input of prompt P2, the generation unit 133 may input a prompt P3 to the machine learning model M1, which includes the text shown in the middle part of Figure 7: "Is it necessary to use a tool to ask the user again? Answer Yes or No." Furthermore, if the machine learning model M1 outputs "Yes" in response to the input of prompt P3, the generation unit 133 may input a prompt P5 to the machine learning model M1, which includes the text shown in the upper part of Figure 8: "What tool should be used? Answer with the tool name and input." Figure 8 is a diagram showing an example of prompts according to the embodiment. For example, the generation unit 133 may determine which tool to use to generate question information, generate input information for the tool, input the generated input information into the tool, and input prompt P5 to the machine learning model M1 as a prompt instructing the model to generate question information based on the tool's output information.

また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1から出力されたツール名である画像生成モデルM2を識別可能なテキストを取得してよい。また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1から画像生成モデルM2の入力として出力された第1の入力テキストを取得してよい。また、生成部133は、画像生成モデルM2を識別可能なテキストを取得した場合、画像生成モデルM2を識別可能なテキストに基づいて記憶部120を参照して、画像生成モデルM2を取得してよい。また、生成部133は、第1の入力テキストを画像生成モデルM2に入力して、第1の入力テキストに対応する画像である第1の生成画像を画像生成モデルM2に生成させてよい。 Furthermore, the generation unit 133 may obtain text that identifies the image generation model M2, which is the tool name output from the machine learning model M1 in response to the input of prompt P5. The generation unit 133 may also obtain the first input text output from the machine learning model M1 as input to the image generation model M2 in response to the input of prompt P5. If the generation unit 133 obtains text that identifies the image generation model M2, it may refer to the storage unit 120 based on the text that identifies the image generation model M2 to obtain the image generation model M2. The generation unit 133 may also input the first input text to the image generation model M2 and cause the image generation model M2 to generate a first generated image, which is the image corresponding to the first input text.

また、生成部133は、第1の生成画像とともに、図8の下段に示す「さらにツールを利用する必要はあるか?Yes or Noで答える。」という内容の文章を含むプロンプトP6を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP6の入力に応じて機械学習モデルM1から「No」が出力された場合、第1の生成画像とともに、図9の上段に示す「利用者に聞き返すべき情報は何か。利用者へ問いかける文言を記載する。」という内容の文章を含むプロンプトP7を機械学習モデルM1に入力してよい。また、生成部133は、第1の生成画像およびプロンプトP7の入力に応じて機械学習モデルM1から出力された質問文章を質問情報として得てよい。このように、生成部133は、画像生成モデルM2が生成した画像に基づいて質問情報を生成してよい。また、出力制御部134は、第1の生成画像とともに質問文章を出力してよい。 Furthermore, the generation unit 133 may input a prompt P6 to the machine learning model M1 along with the first generated image, containing the text shown in the lower part of Figure 8: "Is it necessary to use any further tools? Answer Yes or No." Also, if the machine learning model M1 outputs "No" in response to the input of prompt P6, the generation unit 133 may input a prompt P7 to the machine learning model M1 along with the first generated image, containing the text shown in the upper part of Figure 9: "What information should be asked of the user? Write the question to ask the user." The generation unit 133 may also obtain the question text output by the machine learning model M1 in response to the input of the first generated image and prompt P7 as question information. In this way, the generation unit 133 may generate question information based on the image generated by the image generation model M2. Furthermore, the output control unit 134 may output the question text along with the first generated image.

図12は、変形例に係る情報処理の一例について説明するための図である。図12では、利用者U1が、テレビで見た珍しい犬を飼える店を探したいという検索意図を持っている。しかしながら、利用者U1は、テレビで見た珍しい犬の犬種がわからないため、利用者U1の端末装置10に「珍しい犬を飼える店」という曖昧な検索クエリを入力する。端末装置10は、「珍しい犬を飼える店」という曖昧な検索クエリを情報処理装置100に送信する。情報処理装置100の受付部132は、「珍しい犬を飼える店」という曖昧な検索クエリを入力情報として受け付ける。また、情報処理装置100の生成部133は、「珍しい犬を飼える店」という曖昧な検索クエリを大規模言語モデルである機械学習モデルM1に入力して、画像生成モデルM2に入力する「〇〇と××の画像」というテキストを機械学習モデルM1に生成させる。ここで、〇〇と××は、珍しい犬の犬種名である。また、生成部133は、「〇〇と××の画像」というテキストを画像生成モデルM2に入力して、〇〇に対応する画像および××に対応する画像を画像生成モデルM2に生成させる。また、生成部133は、画像生成モデルM2が生成した〇〇に対応する画像および××に対応する画像を機械学習モデルM1に入力して、「どちらかの画像の犬でしょうか?」という質問文章を機械学習モデルM1に生成させる。また、出力制御部134は、画像生成モデルM2が生成した〇〇に対応する画像および××に対応する画像とともに「どちらかの画像の犬でしょうか?」という質問文章を端末装置10に出力する。また、端末装置10は、利用者U1によって入力された「右の画像!」という応答文章を情報処理装置100に送信する。ここで、右の画像は、〇〇の画像に対応する。また、生成部133は、「右の画像!」という応答文章を機械学習モデルM1に入力して、「〇〇を購入できるペットショップ」という検索クエリを機械学習モデルM1に生成させる。また、生成部133は、「〇〇を購入できるペットショップ」という検索クエリを検索システム200に入力して、〇〇という犬種の犬を購入できるペットショップの店舗一覧情報を検索結果として取得する。また、生成部133は、検索結果として取得した店舗一覧情報を機械学習モデルM1に入力して、「YYにあるZZという店舗が良さそうです!」という出力情報を機械学習モデルM1に生成させる。情報処理装置100の出力制御部134は、「YYにあるZZという店舗が良さそうです!」という出力情報を端末装置10に出力する。 Figure 12 is a diagram illustrating an example of information processing related to a modified example. In Figure 12, user U1 has a search intent to find a shop where they can keep a rare dog they saw on television. However, since user U1 does not know the breed of the rare dog they saw on television, user U1 inputs the vague search query "shop where I can keep a rare dog" into their terminal device 10. Terminal device 10 transmits the vague search query "shop where I can keep a rare dog" to the information processing device 100. The receiving unit 132 of the information processing device 100 receives the vague search query "shop where I can keep a rare dog" as input information. The generation unit 133 of the information processing device 100 inputs the vague search query "shop where I can keep a rare dog" into a large-scale language model, which is a machine learning model M1, and causes the machine learning model M1 to generate the text "images of XX and YY" to be input into the image generation model M2. Here, XX and YY are the names of rare dog breeds. Furthermore, the generation unit 133 inputs the text "Images of XX and XX" to the image generation model M2, causing the image generation model M2 to generate images corresponding to XX and XX. The generation unit 133 also inputs the images corresponding to XX and XX generated by the image generation model M2 to the machine learning model M1, causing the machine learning model M1 to generate the question sentence "Is it the dog in either of the images?". The output control unit 134 outputs the question sentence "Is it the dog in either of the images?" along with the images corresponding to XX and XX generated by the image generation model M2 to the terminal device 10. The terminal device 10 also transmits the response sentence "The image on the right!" input by user U1 to the information processing device 100. Here, the image on the right corresponds to the image of XX. The generation unit 133 also inputs the response sentence "The image on the right!" to the machine learning model M1, causing the machine learning model M1 to generate the search query "Pet shops where I can buy XX". Furthermore, the generation unit 133 inputs the search query "Pet shops where I can buy XX" into the search system 200 and obtains a list of pet shops where dogs of the XX breed can be purchased as search results. The generation unit 133 then inputs the obtained list of shops into the machine learning model M1 and causes the machine learning model M1 to generate the output information "The shop ZZ in YY seems good!". The output control unit 134 of the information processing device 100 outputs the output information "The shop ZZ in YY seems good!" to the terminal device 10.

また、上述した変形例では、生成部133が、画像生成モデルM2が生成した画像に基づいて質問情報を生成する場合について説明したが、生成部133は、画像生成モデルM2が生成した画像に基づいて検索クエリを生成してもよい。具体的には、生成部133は、テキストからテキストに対応する画像を生成する画像生成モデルに入力するテキストである第2の入力テキストを機械学習モデルに生成させ、第2の入力テキストを画像生成モデルに入力して、第2の入力テキストに対応する画像である第2の生成画像を画像生成モデルに生成させ、第2の生成画像を機械学習モデルに入力して、検索クエリを機械学習モデルに生成させる。例えば、生成部133は、検索クエリを生成するために利用すべきツールを判断し、ツールの入力情報を生成して、生成した入力情報をツールに入力して、ツールの出力情報に基づいて検索クエリを生成するよう指示するプロンプトを入力してよい。例えば、生成部133は、指示部131によって利用可能なツールとしてあらかじめ指定されたツールの中から検索クエリを生成するために利用すべきツールを判断するよう指示するプロンプトを入力してよい。例えば、生成部133は、画像生成モデルおよび画像認識モデルの中から検索クエリを生成するために利用すべきツールを判断するよう指示するプロンプトを入力してよい。 Furthermore, in the above-described modification, the generation unit 133 was described as generating question information based on an image generated by the image generation model M2. However, the generation unit 133 may also generate a search query based on an image generated by the image generation model M2. Specifically, the generation unit 133 causes a machine learning model to generate a second input text, which is text to be input to an image generation model that generates an image corresponding to text from text. The generation unit 133 inputs the second input text to the image generation model to generate a second generated image, which is an image corresponding to the second input text. The generation unit 133 inputs the second generated image to the machine learning model to generate a search query. For example, the generation unit 133 may determine which tool should be used to generate the search query, generate input information for the tool, input the generated input information into the tool, and input a prompt instructing the tool to generate a search query based on the tool's output information. For example, the generation unit 133 may input a prompt instructing the tool to determine which tool should be used to generate the search query from among the tools pre-specified as available tools by the instruction unit 131. For example, the generation unit 133 may receive a prompt instructing it to determine which tool should be used to generate the search query from among the image generation model and image recognition model.

例えば、生成部133は、応答情報とともに、図7の上段に示す「利用者が入力した情報は検索を実行するのに十分か。Yes or Noで答える。」という内容の文章を含むプロンプトP2を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP2の入力に応じて機械学習モデルM1から「Yes」が出力された場合、図7の下段に示す「検索を実行するのにツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP4を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP4の入力に応じて機械学習モデルM1から「Yes」が出力された場合、図8に示す「利用すべきツールは何か。ツール名と入力を答える。」という内容の文章を含むプロンプトP5を機械学習モデルM1に入力してよい。例えば、生成部133は、検索クエリを生成するために利用すべきツールを判断し、ツールの入力情報を生成して、生成した入力情報をツールに入力して、ツールの出力情報に基づいて検索クエリを生成するよう指示するプロンプトとして、プロンプトP5を機械学習モデルM1に入力してよい。例えば、生成部133は、画像生成モデルM2に入力するテキストである第2の入力テキストを生成するよう指示するプロンプトとして、プロンプトP5を機械学習モデルM1に入力してよい。 For example, the generation unit 133 may input a prompt P2 to the machine learning model M1 along with the response information, which includes the text shown in the upper part of Figure 7: "Is the information entered by the user sufficient to perform the search? Answer Yes or No." Furthermore, if the machine learning model M1 outputs "Yes" in response to the input of prompt P2, the generation unit 133 may input a prompt P4 to the machine learning model M1, which includes the text shown in the lower part of Figure 7: "Is it necessary to use a tool to perform the search? Answer Yes or No." Furthermore, if the machine learning model M1 outputs "Yes" in response to the input of prompt P4, the generation unit 133 may input a prompt P5 to the machine learning model M1, which includes the text shown in Figure 8: "What tool should be used? Answer with the tool name and input." For example, the generation unit 133 may determine which tool to use to generate the search query, generate input information for the tool, input the generated input information into the tool, and input prompt P5 to the machine learning model M1 as a prompt instructing the model to generate the search query based on the tool's output information. For example, the generation unit 133 may input prompt P5 to the machine learning model M1 as a prompt instructing the model to generate a second input text, which is text to be input to the image generation model M2.

また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1から出力されたツール名である画像生成モデルM2を識別可能なテキストを取得してよい。また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1から画像生成モデルM2の入力として出力された第2の入力テキストを取得してよい。また、生成部133は、画像生成モデルM2を識別可能なテキストを取得した場合、画像生成モデルM2を識別可能なテキストに基づいて記憶部120を参照して、画像生成モデルM2を取得してよい。また、生成部133は、第2の入力テキストを画像生成モデルM2に入力して、第2の入力テキストに対応する画像である第2の生成画像を画像生成モデルM2に生成させてよい。 Furthermore, the generation unit 133 may acquire text that identifies the image generation model M2, which is the tool name output from the machine learning model M1 in response to the input of prompt P5. The generation unit 133 may also acquire a second input text output from the machine learning model M1 as input to the image generation model M2 in response to the input of prompt P5. If the generation unit 133 has acquired text that identifies the image generation model M2, it may refer to the storage unit 120 based on the text that identifies the image generation model M2 to acquire the image generation model M2. The generation unit 133 may also input the second input text to the image generation model M2 and have the image generation model M2 generate a second generated image, which is the image corresponding to the second input text.

また、生成部133は、第2の生成画像とともに、図8の下段に示す「さらにツールを利用する必要はあるか?Yes or Noで答える。」という内容の文章を含むプロンプトP6を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP6の入力に応じて機械学習モデルM1から「No」が出力された場合、第2の生成画像とともに、図9の中段に示す「検索する情報は何か。文章やファイル名を出力する。」という内容の文章を含むプロンプトP8を機械学習モデルM1に入力してよい。また、生成部133は、第2の生成画像およびプロンプトP8の入力に応じて機械学習モデルM1から出力された検索文章やファイル名(例えば、第2の生成画像に対応するファイル名)を検索クエリとして得てよい。このように、生成部133は、画像生成モデルM2が生成した画像に基づいて検索クエリを生成してよい。また、生成部133は、検索文章やファイル名を検索システム200に入力してよい。 Furthermore, the generation unit 133 may input a prompt P6 to the machine learning model M1 along with the second generated image, containing the text shown in the lower part of Figure 8, "Is it necessary to use any further tools? Answer Yes or No." Also, if the machine learning model M1 outputs "No" in response to prompt P6, the generation unit 133 may input a prompt P8 to the machine learning model M1 along with the second generated image, containing the text shown in the middle part of Figure 9, "What information are you searching for? Output text or file names." The generation unit 133 may also obtain the search text and file names (for example, the file names corresponding to the second generated image) output by the machine learning model M1 in response to the input of the second generated image and prompt P8 as a search query. In this way, the generation unit 133 may generate a search query based on the image generated by the image generation model M2. The generation unit 133 may also input the search text and file names to the search system 200.

また、上述した実施形態では、生成部133が、入力情報として、利用者U1によって入力された入力テキストを機械学習モデルM1に入力して、質問情報を生成する場合について説明したが、生成部133は、入力情報として、テキスト以外の情報を機械学習モデルM1に入力してもよい。例えば、生成部133は、入力情報として、画像を機械学習モデルM1に入力してもよい。具体的には、生成部133は、画像から画像の内容を説明する文章を生成する画像認識モデルM3に対して入力情報に含まれる画像である入力画像を入力して、入力画像に対応する文章である入力文章を画像認識モデルM3に生成させ、入力文章を機械学習モデルM1に入力して、質問情報を機械学習モデルM1に生成させる。例えば、画像認識モデルM3は、視覚言語モデル(VLM)であってよい。例えば、生成部133は、質問情報を生成するために利用すべきツールを判断し、ツールの入力情報を生成して、生成した入力情報をツールに入力して、ツールの出力情報に基づいて質問情報を生成するよう指示するプロンプトを入力してよい。 Furthermore, in the embodiment described above, the generation unit 133 inputs input text entered by user U1 as input information to the machine learning model M1 to generate question information. However, the generation unit 133 may input information other than text as input information to the machine learning model M1. For example, the generation unit 133 may input an image as input information to the machine learning model M1. Specifically, the generation unit 133 inputs an input image, which is an image included in the input information, to an image recognition model M3 that generates text that describes the content of an image from an image. The image recognition model M3 generates text that corresponds to the input image, and the generation unit 133 inputs the text to the machine learning model M1 to generate question information. For example, the image recognition model M3 may be a visual language model (VLM). For example, the generation unit 133 may determine the tool to be used to generate question information, generate input information for the tool, input the generated input information into the tool, and input a prompt instructing the tool to generate question information based on the output information of the tool.

例えば、受付部132は、入力情報として、利用者U1によって入力された入力画像を受け付けてよい。例えば、受付部132は、入力情報として、入力画像および入力テキストを受け付けてもよい。受付部132は、入力情報に含まれる画像である入力画像を受け付けてよい。また、受付部132は、入力情報を受け付けた場合、入力情報を生成部133に出力してよい。また、生成部133は、入力画像とともに、図7の上段に示す「利用者が入力した情報は検索を実行するのに十分か。Yes or Noで答える。」という内容の文章を含むプロンプトP2を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP2の入力に応じて機械学習モデルM1から「No」が出力された場合、図7の中段に示す「利用者に聞き返すのにツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP3を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP3の入力に応じて機械学習モデルM1から「Yes」が出力された場合、図8に示す「利用すべきツールは何か。ツール名と入力を答える。」という内容の文章を含むプロンプトP5を機械学習モデルM1に入力してよい。例えば、生成部133は、質問情報を生成するために利用すべきツールを判断し、ツールの入力情報を生成して、生成した入力情報をツールに入力して、ツールの出力情報に基づいて質問情報を生成するよう指示するプロンプトとして、プロンプトP5を機械学習モデルM1に入力してよい。 For example, the reception unit 132 may accept an input image entered by user U1 as input information. For example, the reception unit 132 may accept an input image and input text as input information. The reception unit 132 may accept an input image which is an image included in the input information. Also, when the reception unit 132 accepts input information, it may output the input information to the generation unit 133. Also, the generation unit 133 may input a prompt P2 to the machine learning model M1 along with the input image, which includes the text shown in the upper part of Figure 7, "Is the information entered by the user sufficient to perform a search? Answer Yes or No." Also, if the machine learning model M1 outputs "No" in response to the input of prompt P2, the generation unit 133 may input a prompt P3 to the machine learning model M1 which includes the text shown in the middle part of Figure 7, "Is it necessary to use a tool to ask the user again? Answer Yes or No." Furthermore, if the machine learning model M1 outputs "Yes" in response to prompt P3, the generation unit 133 may input prompt P5 to the machine learning model M1, which includes the text "Which tool should be used? Please answer with the tool name and input." as shown in Figure 8. For example, the generation unit 133 may determine which tool should be used to generate the question information, generate the tool's input information, input the generated input information into the tool, and input prompt P5 to the machine learning model M1 as a prompt instructing it to generate the question information based on the tool's output information.

また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1から出力されたツール名である画像認識モデルM3を識別可能なテキストを取得してよい。また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1から画像認識モデルM3の入力として出力された入力画像のファイル名を取得してよい。また、生成部133は、画像認識モデルM3を識別可能なテキストを取得した場合、画像認識モデルM3を識別可能なテキストに基づいて記憶部120を参照して、画像認識モデルM3を取得してよい。また、生成部133は、入力画像のファイル名を取得した場合、入力画像のファイル名に基づいて記憶部120を参照して、入力画像を取得してよい。また、生成部133は、入力画像を画像認識モデルM3に入力して、入力画像に対応する文章である入力文章を画像認識モデルM3に生成させてよい。 Furthermore, the generation unit 133 may obtain text that identifies the image recognition model M3, which is the tool name output from the machine learning model M1 in response to the input of prompt P5. The generation unit 133 may also obtain the filename of the input image output from the machine learning model M1 as input to the image recognition model M3 in response to the input of prompt P5. If the generation unit 133 obtains text that identifies the image recognition model M3, it may refer to the storage unit 120 based on the text that identifies the image recognition model M3 to obtain the image recognition model M3. If the generation unit 133 obtains the filename of the input image, it may refer to the storage unit 120 based on the filename to obtain the input image. The generation unit 133 may also input the input image to the image recognition model M3 and have the image recognition model M3 generate an input sentence corresponding to the input image.

また、生成部133は、入力文章とともに、図8の下段に示す「さらにツールを利用する必要はあるか?Yes or Noで答える。」という内容の文章を含むプロンプトP6を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP6の入力に応じて機械学習モデルM1から「No」が出力された場合、入力文章とともに、図9の上段に示す「利用者に聞き返すべき情報は何か。利用者へ問いかける文言を記載する。」という内容の文章を含むプロンプトP7を機械学習モデルM1に入力してよい。また、生成部133は、入力文章およびプロンプトP7の入力に応じて機械学習モデルM1から出力された質問文章を質問情報として得てよい。このように、生成部133は、画像認識モデルM3が生成した入力文章に基づいて質問情報を生成してよい。 Furthermore, the generation unit 133 may input a prompt P6 to the machine learning model M1 along with the input text, which includes the text shown in the lower part of Figure 8: "Is it necessary to use any further tools? Answer Yes or No." Also, if the machine learning model M1 outputs "No" in response to prompt P6, the generation unit 133 may input a prompt P7 to the machine learning model M1 along with the input text, which includes the text shown in the upper part of Figure 9: "What information should be asked of the user? Write the wording to ask the user." The generation unit 133 may also obtain the question text output by the machine learning model M1 in response to the input text and prompt P7 as question information. In this way, the generation unit 133 may generate question information based on the input text generated by the image recognition model M3.

また、上述した変形例では、生成部133が、画像認識モデルM3が生成した文章に基づいて質問情報を生成する場合について説明したが、生成部133は、画像認識モデルM3が生成した文章に基づいて検索クエリを生成してもよい。具体的には、生成部133は、画像から画像の内容を説明する文章を生成する画像認識モデルM3に対して応答情報に含まれる画像である応答画像を入力して、応答画像に対応する文章である応答文章を画像認識モデルM3に生成させ、応答文章を機械学習モデルに入力して、検索クエリを機械学習モデルに生成させる。例えば、生成部133は、検索クエリを生成するために利用すべきツールを判断し、ツールの入力情報を生成して、生成した入力情報をツールに入力して、ツールの出力情報に基づいて検索クエリを生成するよう指示するプロンプトを入力してよい。 Furthermore, while the above-described modification explained a case where the generation unit 133 generates question information based on the text generated by the image recognition model M3, the generation unit 133 may also generate a search query based on the text generated by the image recognition model M3. Specifically, the generation unit 133 inputs a response image, which is an image included in the response information, to the image recognition model M3, which generates text describing the content of an image from an image. The generation unit 133 then causes the image recognition model M3 to generate a response text, which is text corresponding to the response image, and inputs the response text into a machine learning model to cause the machine learning model to generate a search query. For example, the generation unit 133 may determine the tool to be used to generate the search query, generate input information for the tool, input the generated input information into the tool, and input a prompt instructing the tool to generate a search query based on the output information of the tool.

例えば、受付部132は、応答情報として、利用者U1によって入力された応答画像を受け付けてよい。例えば、受付部132は、応答情報として、応答画像および応答テキストを受け付けてもよい。受付部132は、応答情報に含まれる画像である応答画像を受け付けてよい。また、受付部132は、応答情報を受け付けた場合、応答情報を生成部133に出力してよい。また、生成部133は、応答画像とともに、図7の上段に示す「利用者が入力した情報は検索を実行するのに十分か。Yes or Noで答える。」という内容の文章を含むプロンプトP2を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP2の入力に応じて機械学習モデルM1から「Yes」が出力された場合、図7の下段に示す「検索を実行するのにツールを使う必要はあるか。Yes or Noで答える。」という内容の文章を含むプロンプトP4を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP4の入力に応じて機械学習モデルM1から「Yes」が出力された場合、図8に示す「利用すべきツールは何か。ツール名と入力を答える。」という内容の文章を含むプロンプトP5を機械学習モデルM1に入力してよい。例えば、生成部133は、検索クエリを生成するために利用すべきツールを判断し、ツールの入力情報を生成して、生成した入力情報をツールに入力して、ツールの出力情報に基づいて検索クエリを生成するよう指示するプロンプトとして、プロンプトP5を機械学習モデルM1に入力してよい。 For example, the reception unit 132 may receive a response image input by user U1 as response information. For example, the reception unit 132 may receive a response image and a response text as response information. The reception unit 132 may receive a response image, which is an image included in the response information. Also, when the reception unit 132 receives response information, it may output the response information to the generation unit 133. The generation unit 133 may also input a prompt P2 to the machine learning model M1 along with the response image, which includes the text shown in the upper part of Figure 7, "Is the information entered by the user sufficient to perform the search? Answer Yes or No." Also, if the machine learning model M1 outputs "Yes" in response to the input of prompt P2, the generation unit 133 may input a prompt P4 to the machine learning model M1, which includes the text shown in the lower part of Figure 7, "Is it necessary to use a tool to perform the search? Answer Yes or No." Furthermore, if the machine learning model M1 outputs "Yes" in response to prompt P4, the generation unit 133 may input prompt P5 to the machine learning model M1, which includes the text shown in Figure 8: "Which tool should be used? Please provide the tool name and input." For example, the generation unit 133 may determine which tool should be used to generate the search query, generate input information for that tool, input the generated input information into the tool, and input prompt P5 to the machine learning model M1 as a prompt instructing the model to generate the search query based on the tool's output information.

また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1から出力されたツール名である画像認識モデルM3を識別可能なテキストを取得してよい。また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1から画像認識モデルM3の入力として出力された応答画像のファイル名を取得してよい。また、生成部133は、画像認識モデルM3を識別可能なテキストを取得した場合、画像認識モデルM3を識別可能なテキストに基づいて記憶部120を参照して、画像認識モデルM3を取得してよい。また、生成部133は、応答画像のファイル名を取得した場合、応答画像のファイル名に基づいて記憶部120を参照して、応答画像を取得してよい。また、生成部133は、応答画像を画像認識モデルM3に入力して、応答画像に対応する文章である応答文章を画像認識モデルM3に生成させてよい。 Furthermore, the generation unit 133 may obtain text that identifies the image recognition model M3, which is the tool name output from the machine learning model M1 in response to the input of prompt P5. The generation unit 133 may also obtain the filename of the response image output from the machine learning model M1 as input to the image recognition model M3 in response to the input of prompt P5. If the generation unit 133 obtains text that identifies the image recognition model M3, it may refer to the storage unit 120 based on the text to obtain the image recognition model M3. If the generation unit 133 obtains the filename of the response image, it may refer to the storage unit 120 based on the filename to obtain the response image. The generation unit 133 may also input the response image to the image recognition model M3 and have the image recognition model M3 generate a response sentence corresponding to the response image.

また、生成部133は、応答文章とともに、図8の下段に示す「さらにツールを利用する必要はあるか?Yes or Noで答える。」という内容の文章を含むプロンプトP6を機械学習モデルM1に入力してよい。また、生成部133は、プロンプトP6の入力に応じて機械学習モデルM1から「No」が出力された場合、応答文章とともに、図9の中段に示す「検索する情報は何か。文章やファイル名を出力する。」という内容の文章を含むプロンプトP8を機械学習モデルM1に入力してよい。また、生成部133は応答文章およびプロンプトP8の入力に応じて機械学習モデルM1から出力された検索文章やファイル名(例えば、応答画像に対応するファイル名)を検索クエリとして得てよい。このように、生成部133は、画像認識モデルM3が生成した応答文章に基づいて検索クエリを生成してよい。 Furthermore, the generation unit 133 may input a prompt P6 to the machine learning model M1 along with the response text, which includes the text shown in the lower part of Figure 8: "Is it necessary to use any further tools? Answer Yes or No." Also, if the machine learning model M1 outputs "No" in response to prompt P6, the generation unit 133 may input a prompt P8 to the machine learning model M1 along with the response text, which includes the text shown in the middle part of Figure 9: "What information are you searching for? Output text or file names." The generation unit 133 may also obtain the search text and file names (for example, file names corresponding to the response image) output by the machine learning model M1 in response to the response text and prompt P8 as a search query. In this way, the generation unit 133 may generate a search query based on the response text generated by the image recognition model M3.

また、生成部133は、画像認識モデルM3の場合と同様にして、音声データから音声データの認識結果を示す認識情報を生成する音声認識モデルM4が生成した認識情報に基づいて質問情報を生成してよい。例えば、生成部133は、音声データから音声データの内容を示すテキストである認識情報を生成する音声認識モデルM4が生成したテキストに基づいて質問情報を生成してよい。例えば、生成部133は、音声データから音声データの認識結果を示す認識情報を生成する音声認識モデルM4に対して入力情報に含まれる音声データである入力音声データを入力して、入力音声データに対応する認識情報である入力認識情報を音声認識モデルM4に生成させ、入力認識情報を機械学習モデルM1に入力して、質問情報を機械学習モデルM1に生成させる。例えば、生成部133は、音声データから音声データの内容を示すテキストである認識情報を生成する音声認識モデルM4に対して入力音声データを入力して、入力音声データに対応するテキストである入力音声テキストを音声認識モデルM4に生成させ、入力音声テキストを機械学習モデルM1に入力して、質問情報を機械学習モデルM1に生成させてよい。 Furthermore, the generation unit 133 may generate question information based on the recognition information generated by the speech recognition model M4, which generates recognition information indicating the recognition result of the speech data from the speech data, in the same manner as in the case of the image recognition model M3. For example, the generation unit 133 may generate question information based on the text generated by the speech recognition model M4, which generates recognition information that is text indicating the content of the speech data from the speech data. For example, the generation unit 133 may input input speech data, which is the speech data included in the input information, to the speech recognition model M4, which generates recognition information corresponding to the input speech data, and then input the input recognition information to the machine learning model M1, causing the machine learning model M1 to generate question information. For example, the generation unit 133 may input input speech data to the speech recognition model M4, which generates recognition information that is text indicating the content of the speech data from the speech data, causing the speech recognition model M4 to generate input speech text, which is text corresponding to the input speech data, and then input the input speech text to the machine learning model M1, causing the machine learning model M1 to generate question information.

また、生成部133は、画像認識モデルM3の場合と同様にして、音声データから音声データの認識結果を示す認識情報を生成する音声認識モデルM4が生成した認識情報に基づいて検索クエリを生成してよい。例えば、生成部133は、音声データから音声データの内容を示すテキストである認識情報を生成する音声認識モデルM4が生成したテキストに基づいて検索クエリを生成してよい。生成部133は、音声データから音声データの認識結果を示す認識情報を生成する音声認識モデルM4に対して応答情報に含まれる音声データである応答音声データを入力して、応答音声データに対応する認識情報である応答認識情報を音声認識モデルM4に生成させ、応答認識情報を機械学習モデルM1に入力して、検索クエリを機械学習モデルM1に生成させる。例えば、生成部133は、音声データから音声データの内容を示すテキストである認識情報を生成する音声認識モデルM4に対して応答音声データを入力して、応答音声データに対応するテキストである応答音声テキストを音声認識モデルM4に生成させ、応答音声テキストを機械学習モデルM1に入力して、検索クエリを機械学習モデルM1に生成させてよい。 Furthermore, the generation unit 133 may generate a search query based on the recognition information generated by the speech recognition model M4, which generates recognition information indicating the recognition result of the speech data from the speech data, in the same manner as in the case of the image recognition model M3. For example, the generation unit 133 may generate a search query based on the text generated by the speech recognition model M4, which generates recognition information that is text indicating the content of the speech data from the speech data. The generation unit 133 inputs response speech data, which is speech data included in the response information, to the speech recognition model M4, which generates recognition information corresponding to the response speech data, and inputs the response recognition information to the machine learning model M1, causing the machine learning model M1 to generate a search query. For example, the generation unit 133 may input response speech data to the speech recognition model M4, which generates recognition information that is text indicating the content of the speech data from the speech data, and causes the speech recognition model M4 to generate response speech text, which is text corresponding to the response speech data, and inputs the response speech text to the machine learning model M1, causing the machine learning model M1 to generate a search query.

また、上述した実施形態では、生成部133が、テキストである検索クエリとテキストである検索結果との類似度が所定の閾値以上であるか否かを判定する場合について説明したが、生成部133は、モーダルが異なる検索クエリと検索結果との類似度が所定の閾値以上であるか否かを判定してよい。ここで、検索クエリと検索結果とのモーダルが異なる場合とは、検索クエリまたは検索結果のいずれか一方がテキストであり、他方がテキスト以外のモーダル(例えば、画像や音声データ等)である場合を含む。具体的には、記憶部120は、テキストとテキスト以外のモーダルとの類似度を判定する機械学習モデルであるマルチモーダルモデルM5に関する情報を記憶してよい。例えば、生成部133は、プロンプトP9の入力に応じて機械学習モデルM1から「Yes」が出力された場合、図8に示す「利用すべきツールは何か。ツール名と入力を答える。」という内容の文章を含むプロンプトP5を機械学習モデルM1に入力してよい。 Furthermore, in the embodiment described above, the generation unit 133 determined whether the similarity between a text-based search query and a text-based search result is above a predetermined threshold. However, the generation unit 133 may also determine whether the similarity between a search query and a search result with different modals is above a predetermined threshold. Here, the case where the modals of the search query and the search result are different includes cases where either the search query or the search result is text, and the other is a modal other than text (e.g., image or audio data). Specifically, the storage unit 120 may store information about the multimodal model M5, which is a machine learning model that determines the similarity between text and non-text modals. For example, if the machine learning model M1 outputs "Yes" in response to the input of prompt P9, the generation unit 133 may input prompt P5 to the machine learning model M1 containing the text "What tool should be used? Answer with the tool name and input," as shown in Figure 8.

また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1から出力されたツール名であるマルチモーダルモデルM5を識別可能なテキストを取得してよい。また、生成部133は、プロンプトP5の入力に応じて機械学習モデルM1からマルチモーダルモデルM5の入力として出力された検索クエリおよび検索結果のファイル名を取得してよい。また、生成部133は、マルチモーダルモデルM5を識別可能なテキストを取得した場合、マルチモーダルモデルM5を識別可能なテキストに基づいて記憶部120を参照して、マルチモーダルモデルM5を取得してよい。また、生成部133は、検索クエリおよび検索結果のファイル名を取得した場合、検索クエリおよび検索結果をマルチモーダルモデルM5に入力して、検索クエリと検索結果との類似度を判定してよい。また、生成部133は、検索クエリと検索結果との類似度が所定の閾値以上であるか否かを判定してよい。 Furthermore, the generation unit 133 may obtain text that identifies the multimodal model M5, which is the tool name output from the machine learning model M1 in response to the input of prompt P5. The generation unit 133 may also obtain the filenames of the search query and search results output from the machine learning model M1 as input to the multimodal model M5 in response to the input of prompt P5. If the generation unit 133 obtains text that identifies the multimodal model M5, it may refer to the storage unit 120 based on the text that identifies the multimodal model M5 to obtain the multimodal model M5. If the generation unit 133 obtains the filenames of the search query and search results, it may input the search query and search results into the multimodal model M5 and determine the similarity between the search query and the search results. The generation unit 133 may also determine whether the similarity between the search query and the search results is above a predetermined threshold.

また、上述した実施形態では、機械学習モデルM1が大規模言語モデルである場合について説明したが、機械学習モデルM1は、入力された画像およびトークン列から次のトークンを推定して出力するように学習された言語モデルであってよい。例えば、機械学習モデルM1は、視覚言語モデル(VLM:Visual Language Model)であってよい。例えば、生成部133は、入力情報として入力画像を受け付けた場合、画像認識モデルM3を用いることなく、入力画像を視覚言語モデルである機械学習モデルM1に入力して、入力画像に対応する質問情報を生成することができる。また、生成部133は、応答情報として応答画像を受け付けた場合、画像認識モデルM3を用いることなく、応答画像を機械学習モデルM1に入力して、応答情報に対応する検索クエリを生成することができる。例えば、機械学習モデルM1は、CoCa(Contrastive Captioners are Image-Text Foundation Models)、BLIP(Bootstrapping Language-Image Pre-training)、BLIP2、GIT(Generative Image to Text Transformer)等であってよい。 Furthermore, while the above-described embodiment explained the case where the machine learning model M1 is a large-scale language model, the machine learning model M1 may be a language model trained to estimate and output the next token from the input image and token sequence. For example, the machine learning model M1 may be a Visual Language Model (VLM). For instance, when the generation unit 133 receives an input image as input information, it can input the input image into the machine learning model M1, which is a visual language model, without using the image recognition model M3, and generate question information corresponding to the input image. Similarly, when the generation unit 133 receives a response image as response information, it can input the response image into the machine learning model M1, without using the image recognition model M3, and generate a search query corresponding to the response information. For example, the machine learning model M1 may be CoCa (Contrastive Captioners are Image-Text Foundation Models), BLIP (Bootstrapping Language-Image Pre-training), BLIP2, GIT (Generative Image to Text Transformer), etc.

〔6.効果〕
上述したように、実施形態に係る情報処理装置100は、受付部132と生成部133と出力制御部134を有する。受付部132は、検索システムを利用する利用者によって入力された入力情報を受け付ける。生成部133は、入力情報を機械学習モデルに入力して、利用者が所望する検索対象を特定するための質問を示す質問情報を機械学習モデルに生成させ、質問情報に対する応答を示す応答情報を取得し、応答情報に応じた検索クエリを生成し、検索クエリに対応する検索結果に応じた出力情報を生成する。出力制御部134は、出力情報を出力する。
[6. Effects]
As described above, the information processing device 100 according to the embodiment includes a reception unit 132, a generation unit 133, and an output control unit 134. The reception unit 132 receives input information entered by a user using the search system. The generation unit 133 inputs the input information into a machine learning model, causes the machine learning model to generate question information indicating a question to identify the search target desired by the user, obtains response information indicating a response to the question information, generates a search query according to the response information, and generates output information corresponding to the search results that correspond to the search query. The output control unit 134 outputs the output information.

このように、情報処理装置100は、検索システムを利用する利用者によって入力された入力情報に応じた質問情報を生成し、生成した質問情報を出力することにより、利用者が所望する検索対象の曖昧性を補完することを可能とすることができる。また、情報処理装置100は、質問情報に応じた応答情報を取得し、応答情報に応じた検索クエリを生成することにより、利用者が所望する検索対象の曖昧性を補完したうえでの検索クエリを生成することができる。これにより、情報処理装置100は、利用者が所望する検索対象の曖昧性を補完したうえでの検索結果を利用者に対して提供することができる。また、情報処理装置100は、利用者が所望する検索対象の曖昧性を補完したうえでの検索結果を利用者に対して提供することができるので、持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」の達成に貢献できる。 Thus, the information processing device 100 can generate question information in response to input information entered by a user of the search system, and output the generated question information, thereby enabling it to compensate for the ambiguity of the search target desired by the user. Furthermore, the information processing device 100 can acquire response information in response to the question information and generate a search query in response to the response information, thereby generating a search query that compensates for the ambiguity of the search target desired by the user. As a result, the information processing device 100 can provide the user with search results that compensate for the ambiguity of the search target desired by the user. Moreover, because the information processing device 100 can provide the user with search results that compensate for the ambiguity of the search target desired by the user, it can contribute to achieving Sustainable Development Goal (SDG) 9, "Build resilient infrastructure, promote inclusive and sustainable industrialization and foster innovation."

また、出力制御部134は、質問情報を出力する。受付部132は、利用者によって入力された応答情報を受け付ける。生成部133は、応答情報を機械学習モデルに入力して、検索クエリを機械学習モデルに生成させる。 Furthermore, the output control unit 134 outputs the question information. The reception unit 132 receives the response information entered by the user. The generation unit 133 inputs the response information into the machine learning model and causes the machine learning model to generate a search query.

これにより、情報処理装置100は、利用者によって入力された応答情報に基づいて、利用者が所望する検索対象の曖昧性を補完したうえでの検索クエリを生成することができる。 This allows the information processing device 100 to generate a search query that complements the ambiguity of the search target desired by the user, based on the response information entered by the user.

また、生成部133は、検索結果を機械学習モデルに入力して、出力情報を機械学習モデルに生成させる。 Furthermore, the generation unit 133 inputs the search results into a machine learning model, causing the machine learning model to generate output information.

これにより、情報処理装置100は、利用者が所望する検索対象の曖昧性を補完したうえでの検索結果を利用者に対して提供することができる。 This allows the information processing device 100 to provide the user with search results that compensate for any ambiguity in the search target desired by the user.

また、生成部133は、テキストからテキストに対応する画像を生成する画像生成モデルに入力するテキストである第1の入力テキストを機械学習モデルに生成させ、第1の入力テキストを画像生成モデルに入力して、第1の入力テキストに対応する画像である第1の生成画像を画像生成モデルに生成させ、第1の生成画像を機械学習モデルに入力して、質問情報を機械学習モデルに生成させる。 Furthermore, the generation unit 133 causes a machine learning model to generate a first input text, which is text to be input to an image generation model that generates images corresponding to text from text. The first input text is then input to the image generation model to generate a first generated image, which is an image corresponding to the first input text. Finally, the first generated image is input to the machine learning model to generate question information.

これにより、情報処理装置100は、例えば、利用者によって入力された入力情報に応じた画像を生成し、生成した画像に基づいて質問情報を生成することができるので、利用者が所望する検索対象の曖昧性を適切に補完することを可能とすることができる。 This allows the information processing device 100 to, for example, generate an image corresponding to the input information entered by the user, and generate question information based on the generated image. Therefore, it can appropriately compensate for the ambiguity of the search target desired by the user.

また、生成部133は、テキストからテキストに対応する画像を生成する画像生成モデルに入力するテキストである第2の入力テキストを機械学習モデルに生成させ、第2の入力テキストを画像生成モデルに入力して、第2の入力テキストに対応する画像である第2の生成画像を画像生成モデルに生成させ、第2の生成画像を機械学習モデルに入力して、検索クエリを機械学習モデルに生成させる。 Furthermore, the generation unit 133 causes a machine learning model to generate a second input text, which is text to be input to an image generation model that generates images corresponding to text from text. The second input text is then input to the image generation model to generate a second generated image, which corresponds to the second input text. Finally, the second generated image is input to the machine learning model to generate a search query.

これにより、情報処理装置100は、例えば、利用者によって入力された応答情報に応じた画像を生成し、生成した画像に基づいて検索クエリを生成することができるので、利用者が所望する検索対象の曖昧性を適切に補完することを可能とすることができる。 This allows the information processing device 100 to, for example, generate an image corresponding to the response information input by the user, and generate a search query based on the generated image. Therefore, it can appropriately compensate for the ambiguity of the search target desired by the user.

また、生成部133は、画像から画像の内容を説明する文章を生成する画像認識モデルに対して入力情報に含まれる画像である入力画像を入力して、入力画像に対応する文章である入力文章を画像認識モデルに生成させ、入力文章を機械学習モデルに入力して、質問情報を機械学習モデルに生成させる。 Furthermore, the generation unit 133 receives the input image, which is an image included in the input information, as input to an image recognition model that generates text describing the content of an image from an image. The image recognition model generates the input text, which is text corresponding to the input image. The input text is then input to a machine learning model, which generates the question information.

これにより、情報処理装置100は、例えば、利用者によって入力された画像の内容を認識して適切な質問情報を生成することができる。 This allows the information processing device 100 to, for example, recognize the content of an image input by the user and generate appropriate question information.

また、生成部133は、画像から画像の内容を説明する文章を生成する画像認識モデルに対して応答情報に含まれる画像である応答画像を入力して、応答画像に対応する文章である応答文章を画像認識モデルに生成させ、応答文章を機械学習モデルに入力して、検索クエリを機械学習モデルに生成させる。 Furthermore, the generation unit 133 inputs a response image, which is an image included in the response information, to an image recognition model that generates text describing the content of an image from an image. The image recognition model generates a response text, which is text corresponding to the response image. The response text is then input to a machine learning model, which generates a search query.

これにより、情報処理装置100は、例えば、利用者によって入力された画像の内容を認識して適切な検索クエリを生成することができる。 This allows the information processing device 100 to, for example, recognize the content of an image input by the user and generate an appropriate search query.

また、機械学習モデルは、大規模言語モデル(LLM:Large Language Model)または視覚言語モデル(VLM:Visual Language Model)である。 Furthermore, machine learning models are either Large Language Models (LLMs) or Visual Language Models (VLMs).

これにより、情報処理装置100は、大規模言語モデルまたは視覚言語モデルを用いることで適切な質問情報および検索クエリを生成することができる。 This allows the information processing device 100 to generate appropriate question information and search queries using a large-scale language model or a visual language model.

また、情報処理装置100は、指示部131をさらに備える。指示部131は、機械学習モデルに対して、利用者が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得するよう指示する。 Furthermore, the information processing device 100 also includes an instruction unit 131. The instruction unit 131 instructs the machine learning model to identify the search target desired by the user, generate a search query corresponding to the identified search target, and obtain search results corresponding to the generated search query.

これにより、情報処理装置100は、機械学習モデルに対して、利用者が所望する検索対象を特定し、特定した検索対象に対応する検索クエリを生成し、生成した検索クエリに対応する検索結果を取得する役割を担わせることができる。 This allows the information processing device 100 to assign the machine learning model the roles of identifying the search target desired by the user, generating a search query corresponding to the identified search target, and obtaining search results corresponding to the generated search query.

〔7.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置100は、例えば図13に示すような構成のコンピュータ1000によって実現される。図13は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
[7. Hardware Configuration]
Furthermore, the information processing device 100 according to the above-described embodiment is realized by a computer 1000 having a configuration such as that shown in Figure 13. Figure 13 is a hardware configuration diagram showing an example of a computer that realizes the functions of the information processing device 100. The computer 1000 includes a CPU 1100, RAM 1200, ROM 1300, HDD 1400, communication interface (I/F) 1500, input/output interface (I/F) 1600, and media interface (I/F) 1700.

CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。 The CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400, controlling various components. The ROM 1300 stores boot programs executed by the CPU 1100 when the computer 1000 starts up, as well as programs dependent on the computer 1000's hardware.

HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。 The HDD 1400 stores programs executed by the CPU 1100, as well as data used by such programs. The communication interface 1500 receives data from other devices via a predetermined communication network and sends it to the CPU 1100, and transmits data generated by the CPU 1100 to other devices via the predetermined communication network.

CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。 The CPU 1100 controls output devices such as displays and printers, and input devices such as keyboards and mice, via the input/output interface 1600. The CPU 1100 acquires data from input devices via the input/output interface 1600. Furthermore, the CPU 1100 outputs the generated data to output devices via the input/output interface 1600.

メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。 The media interface 1700 reads programs or data stored in the recording medium 1800 and provides them to the CPU 1100 via the RAM 1200. The CPU 1100 loads such programs from the recording medium 1800 onto the RAM 1200 via the media interface 1700 and executes the loaded programs. The recording medium 1800 can be, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase Change Rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical Disk), tape media, magnetic recording media, or semiconductor memory.

例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。 For example, when the computer 1000 functions as an information processing device 100 according to the embodiment, the CPU 1100 of the computer 1000 realizes the functions of the control unit 130 by executing a program loaded onto the RAM 1200. The CPU 1100 of the computer 1000 reads and executes these programs from the recording medium 1800, but as another example, these programs may be obtained from other devices via a predetermined communication network.

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 Although several embodiments of this application have been described in detail based on the drawings, these are illustrative examples, and the present invention can be implemented in various modified and improved forms based on the knowledge of those skilled in the art, starting with the embodiments described in the disclosure section of the invention.

〔8.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[8. Other]
Furthermore, among the processes described in the above embodiments and modifications, all or part of the processes described as being performed automatically can be performed manually, or all or part of the processes described as being performed manually can be performed automatically by known methods. In addition, the processing procedures, specific names, and information including various data and parameters shown in the above document and drawings can be changed at will unless otherwise specified. For example, the various information shown in each figure is not limited to the information shown.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Furthermore, the components of each illustrated device are functionally conceptual and do not necessarily need to be physically configured as shown. In other words, the specific forms of distribution and integration of each device are not limited to those illustrated; all or part of them can be functionally or physically distributed and integrated in any unit according to various loads and usage conditions.

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Furthermore, the embodiments and modifications described above can be combined as appropriate, provided that the processing content remains consistent.

100 情報処理装置
110 通信部
120 記憶部
130 制御部
131 指示部
132 受付部
133 生成部
134 出力制御部
100 Information processing device 110 Communication unit 120 Storage unit 130 Control unit 131 Instruction unit 132 Reception unit 133 Generation unit 134 Output control unit

Claims (12)

検索システムを利用する利用者によって入力された入力情報を受け付ける受付部と、
前記入力情報を機械学習モデルに入力して、前記利用者が所望する検索対象を特定するための質問を示す質問情報を前記機械学習モデルに生成させ、前記質問情報に対する応答を示す応答情報を取得し、前記応答情報に応じた検索クエリを生成し、前記検索クエリに対応する検索結果に応じた出力情報を生成する生成部と、
前記出力情報を出力する出力制御部と、
を備え、
前記生成部は、
前記検索クエリと前記検索結果との類似度が所定の閾値以上であるか否かを判定し、前記類似度が所定の閾値以上でないと判定した場合、前記検索クエリとは異なる新たな検索クエリを生成する、
情報処理装置。
A reception unit that receives input information entered by users of the search system,
A generation unit inputs the aforementioned input information into a machine learning model, causes the machine learning model to generate question information indicating a question for identifying the search target desired by the user, obtains response information indicating a response to the question information, generates a search query according to the response information, and generates output information according to the search results corresponding to the search query.
An output control unit that outputs the aforementioned output information,
Equipped with,
The generating unit is
The system determines whether the similarity between the search query and the search results is above a predetermined threshold , and if it determines that the similarity is below the predetermined threshold , it generates a new search query different from the previous search query.
Information processing device.
検索システムを利用する利用者によって入力された入力情報を受け付ける受付部と、
前記入力情報を機械学習モデルに入力して、前記利用者が所望する検索対象を特定するための質問を示す質問情報を前記機械学習モデルに生成させ、前記質問情報に対する応答を示す応答情報を取得し、前記応答情報に応じた検索クエリを生成し、前記検索クエリに対応する検索結果に応じた出力情報を生成する生成部と、
前記出力情報を出力する出力制御部と、
を備え、
前記生成部は、
利用可能なツールとしてあらかじめ提示されたツールの中から、前記質問情報または前記検索クエリを生成するために利用すべきツールを判断するよう指示するプロンプトであって、前記ツールの入力情報を生成して、生成した前記ツールの入力情報を前記ツールに入力して、前記ツールの出力情報に基づいて前記質問情報または前記検索クエリを生成するよう指示するプロンプトを前記機械学習モデルに入力する、
情報処理装置。
A reception unit that receives input information entered by users of the search system,
A generation unit inputs the aforementioned input information into a machine learning model, causes the machine learning model to generate question information indicating a question for identifying the search target desired by the user, obtains response information indicating a response to the question information, generates a search query according to the response information, and generates output information according to the search results corresponding to the search query.
An output control unit that outputs the aforementioned output information,
Equipped with,
The generating unit is
A prompt instructing the machine learning model to determine which tool to use to generate the question information or search query from among the tools presented in advance as available tools, wherein the prompt instructs the machine learning model to generate input information for the tool, input the generated input information for the tool into the tool, and generate the question information or search query based on the output information of the tool.
Information processing device.
前記出力制御部は、
前記質問情報を出力し、
前記受付部は、
前記利用者によって入力された前記応答情報を受け付け、
前記生成部は、
前記応答情報を前記機械学習モデルに入力して、前記検索クエリを前記機械学習モデルに生成させる、
請求項1または2に記載の情報処理装置。
The output control unit,
Output the aforementioned question information,
The aforementioned reception unit is
The response information entered by the user is received,
The generating unit is
The response information is input to the machine learning model to cause the machine learning model to generate the search query.
The information processing apparatus according to claim 1 or 2.
前記生成部は、
前記検索結果を前記機械学習モデルに入力して、前記出力情報を前記機械学習モデルに生成させる、
請求項1または2に記載の情報処理装置。
The generating unit is
The search results are input to the machine learning model, and the machine learning model generates the output information.
The information processing apparatus according to claim 1 or 2.
前記生成部は、
テキストから前記テキストに対応する画像を生成する画像生成モデルに入力するテキストである第1の入力テキストを前記機械学習モデルに生成させ、前記第1の入力テキストを前記画像生成モデルに入力して、前記第1の入力テキストに対応する画像である第1の生成画像を前記画像生成モデルに生成させ、前記第1の生成画像を前記機械学習モデルに入力して、前記質問情報を前記機械学習モデルに生成させる、
請求項1または2に記載の情報処理装置。
The generating unit is
The machine learning model generates a first input text, which is text to be input to an image generation model that generates an image corresponding to the text from the text; the machine learning model generates a first generated image, which is an image corresponding to the first input text, by inputting the first input text into the image generation model; and the machine learning model generates the question information by inputting the first generated image into the machine learning model.
The information processing apparatus according to claim 1 or 2.
前記生成部は、
テキストから前記テキストに対応する画像を生成する画像生成モデルに入力するテキストである第2の入力テキストを前記機械学習モデルに生成させ、前記第2の入力テキストを前記画像生成モデルに入力して、前記第2の入力テキストに対応する画像である第2の生成画像を前記画像生成モデルに生成させ、前記第2の生成画像を前記機械学習モデルに入力して、前記検索クエリを前記機械学習モデルに生成させる、
請求項1または2に記載の情報処理装置。
The generating unit is
The machine learning model generates a second input text, which is text to be input to an image generation model that generates an image corresponding to the text from the text; the machine learning model generates a second generated image, which is an image corresponding to the second input text, by inputting the second generated image into the machine learning model, and the machine learning model generates the search query.
The information processing apparatus according to claim 1 or 2.
前記生成部は、
画像から前記画像の内容を説明する文章を生成する画像認識モデルに対して前記入力情報に含まれる画像である入力画像を入力して、前記入力画像に対応する文章である入力文章を前記画像認識モデルに生成させ、前記入力文章を前記機械学習モデルに入力して、前記質問情報を前記機械学習モデルに生成させる、
請求項1または2に記載の情報処理装置。
The generating unit is
An image recognition model that generates text describing the content of an image is input an input image, which is an image included in the input information, to cause the image recognition model to generate text corresponding to the input image, and the input text is input to the machine learning model to cause the machine learning model to generate the question information.
The information processing apparatus according to claim 1 or 2.
前記生成部は、
画像から前記画像の内容を説明する文章を生成する画像認識モデルに対して前記応答情報に含まれる画像である応答画像を入力して、前記応答画像に対応する文章である応答文章を前記画像認識モデルに生成させ、前記応答文章を前記機械学習モデルに入力して、前記検索クエリを前記機械学習モデルに生成させる、
請求項1または2に記載の情報処理装置。
The generating unit is
A response image, which is an image included in the response information, is input to an image recognition model that generates text describing the content of an image from an image; a response text, which is text corresponding to the response image, is generated by the image recognition model; the response text is input to the machine learning model; and the machine learning model generates the search query.
The information processing apparatus according to claim 1 or 2.
前記機械学習モデルは、大規模言語モデル(LLM:Large Language Model)または視覚言語モデル(VLM:Visual Language Model)である、
請求項1または2に記載の情報処理装置。
The aforementioned machine learning model is either a Large Language Model (LLM) or a Visual Language Model (VLM).
The information processing apparatus according to claim 1 or 2.
前記機械学習モデルに対して、前記利用者が所望する検索対象を特定し、特定した前記検索対象に対応する検索クエリを生成し、生成した前記検索クエリに対応する検索結果を取得するよう指示する指示部をさらに備える、
請求項1または2に記載の情報処理装置。
The machine learning model further includes an instruction unit that instructs the model to identify a search target desired by the user, generate a search query corresponding to the identified search target, and obtain search results corresponding to the generated search query.
The information processing apparatus according to claim 1 or 2.
検索システムを利用する利用者によって入力された入力情報を受け付ける受付手順と、
前記入力情報を機械学習モデルに入力して、前記利用者が所望する検索対象を特定するための質問を示す質問情報を前記機械学習モデルに生成させ、前記質問情報に対する応答を示す応答情報を取得し、前記応答情報に応じた検索クエリを生成し、前記検索クエリに対応する検索結果に応じた出力情報を生成する生成手順と、
前記出力情報を出力する出力制御手順と、
をコンピュータに実行させ、
前記生成手順は、
前記検索クエリと前記検索結果との類似度が所定の閾値以上であるか否かを判定し、前記類似度が所定の閾値以上でないと判定した場合、前記検索クエリとは異なる新たな検索クエリを生成する、
情報処理プログラム。
A reception procedure for receiving input information entered by users of the search system,
A generation procedure comprising: inputting the aforementioned input information into a machine learning model; causing the machine learning model to generate question information indicating a question for identifying the search target desired by the user; obtaining response information indicating a response to the question information; generating a search query corresponding to the response information; and generating output information corresponding to the search results that correspond to the search query;
An output control procedure for outputting the aforementioned output information,
Have the computer run it,
The aforementioned generation procedure is:
The system determines whether the similarity between the search query and the search results is above a predetermined threshold , and if it determines that the similarity is below the predetermined threshold , it generates a new search query different from the previous search query.
Information processing program.
検索システムを利用する利用者によって入力された入力情報を受け付ける受付手順と、
前記入力情報を機械学習モデルに入力して、前記利用者が所望する検索対象を特定するための質問を示す質問情報を前記機械学習モデルに生成させ、前記質問情報に対する応答を示す応答情報を取得し、前記応答情報に応じた検索クエリを生成し、前記検索クエリに対応する検索結果に応じた出力情報を生成する生成手順と、
前記出力情報を出力する出力制御手順と、
をコンピュータに実行させ、
前記生成手順は、
利用可能なツールとしてあらかじめ提示されたツールの中から、前記質問情報または前記検索クエリを生成するために利用すべきツールを判断するよう指示するプロンプトであって、前記ツールの入力情報を生成して、生成した前記ツールの入力情報を前記ツールに入力して、前記ツールの出力情報に基づいて前記質問情報または前記検索クエリを生成するよう指示するプロンプトを前記機械学習モデルに入力する、
情報処理プログラム。
A reception procedure for receiving input information entered by users of the search system,
A generation procedure comprising: inputting the aforementioned input information into a machine learning model; causing the machine learning model to generate question information indicating a question for identifying the search target desired by the user; obtaining response information indicating a response to the question information; generating a search query corresponding to the response information; and generating output information corresponding to the search results that correspond to the search query;
An output control procedure for outputting the aforementioned output information,
Have the computer run it,
The aforementioned generation procedure is:
A prompt instructing the machine learning model to determine which tool to use to generate the question information or search query from among the tools presented in advance as available tools, wherein the prompt instructs the machine learning model to generate input information for the tool, input the generated input information for the tool into the tool, and generate the question information or search query based on the output information of the tool.
Information processing program.
JP2024033380A 2024-03-05 2024-03-05 Information processing device and information processing program Active JP7828590B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024033380A JP7828590B2 (en) 2024-03-05 2024-03-05 Information processing device and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2024033380A JP7828590B2 (en) 2024-03-05 2024-03-05 Information processing device and information processing program

Publications (2)

Publication Number Publication Date
JP2025135490A JP2025135490A (en) 2025-09-18
JP7828590B2 true JP7828590B2 (en) 2026-03-12

Family

ID=97065819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024033380A Active JP7828590B2 (en) 2024-03-05 2024-03-05 Information processing device and information processing program

Country Status (1)

Country Link
JP (1) JP7828590B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050192946A1 (en) 2003-12-29 2005-09-01 Yahoo! Inc. Lateral search
JP2009087345A (en) 2007-09-30 2009-04-23 Nec (China) Co Ltd Natural language based service selection system and method, and service query system and method
US20220237406A1 (en) 2021-01-28 2022-07-28 Adobe Inc. Text conditioned image search based on dual-disentangled feature composition
JP2024006799A (en) 2022-07-04 2024-01-17 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program
JP7441366B1 (en) 2023-09-19 2024-02-29 株式会社東芝 Information processing device, information processing method, and computer program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050192946A1 (en) 2003-12-29 2005-09-01 Yahoo! Inc. Lateral search
JP2009087345A (en) 2007-09-30 2009-04-23 Nec (China) Co Ltd Natural language based service selection system and method, and service query system and method
US20220237406A1 (en) 2021-01-28 2022-07-28 Adobe Inc. Text conditioned image search based on dual-disentangled feature composition
JP2024006799A (en) 2022-07-04 2024-01-17 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program
JP7441366B1 (en) 2023-09-19 2024-02-29 株式会社東芝 Information processing device, information processing method, and computer program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
澤田一正ほか3名,"条件付き画像検索と画像生成の統合",第16回データ工学と情報マネジメントに関するフォーラム(第22回日本データベース学会年次大会)[online],日本,日本データベース学会,2024年02月29日,[検索日:2025年4月7日], インターネット<URL:https://confit.atlas.jp/guide/event-img/deim2024/T3-B-4-01/public/pdf?type=in>

Also Published As

Publication number Publication date
JP2025135490A (en) 2025-09-18

Similar Documents

Publication Publication Date Title
US20240038220A1 (en) Expediting interaction with a digital assistant by predicting user responses
EP3782150B1 (en) Skill discovery for computerized personal assistant
KR102400995B1 (en) Method and system for extracting product attribute for shopping search
WO2022217708A1 (en) Artificial intelligence-based question and answer method and apparatus, server, and storage medium
JP7578348B1 (en) Program, method, information processing device, and system
CN109326284A (en) Voice search method, device and storage medium
WO2025194644A1 (en) Reading interaction method and apparatus, device, and medium
WO2022050060A1 (en) Information processing device and information processing method
CN105550217A (en) Scene music searching method and scene music searching apparatus
JP7828590B2 (en) Information processing device and information processing program
US12293060B1 (en) Machine learning model access control
JP2026511840A (en) Methods, apparatus, devices, and storage media for application processing.
US20200012688A1 (en) Method and device for retrieving content
CN106599082A (en) Retrieval method, related device and electronic equipment
CN116881518B (en) Information processing method and device for user terminal
CN113486643B (en) Lyric synthesizing method, terminal device and readable storage medium
CN117992592A (en) Information processing method and device, electronic equipment and storage medium
JP2025025808A (en) Information processing device, information processing system, information processing method, and program
CN118210407A (en) Virtual interactive object configuration method, device, equipment and medium
CN117610539A (en) Intention execution method, device, electronic equipment and storage medium
CN110971983A (en) A video question answering method, device and storage medium
CN113707145A (en) Display device and voice search method
WO2022227677A1 (en) Method, system and apparatus for deploying solution, and server
JP2023014678A (en) Information processing system, chatbot system, information provision method, program
JP7799364B1 (en) System, method, and program for generating a response to a user&#39;s voice

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250415

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20250613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20251104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20260105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20260120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20260218

R150 Certificate of patent or registration of utility model

Ref document number: 7828590

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150