Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7583082B2 - Natural language processing system, natural language processing method, and natural language processing program - Google Patents
[go: Go Back, main page]

JP7583082B2 - Natural language processing system, natural language processing method, and natural language processing program - Google Patents

Natural language processing system, natural language processing method, and natural language processing program Download PDF

Info

Publication number
JP7583082B2
JP7583082B2 JP2023026001A JP2023026001A JP7583082B2 JP 7583082 B2 JP7583082 B2 JP 7583082B2 JP 2023026001 A JP2023026001 A JP 2023026001A JP 2023026001 A JP2023026001 A JP 2023026001A JP 7583082 B2 JP7583082 B2 JP 7583082B2
Authority
JP
Japan
Prior art keywords
building type
building
address information
natural language
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023026001A
Other languages
Japanese (ja)
Other versions
JP2024119239A (en
Inventor
科 田
ジュリアン オニヤリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Priority to JP2023026001A priority Critical patent/JP7583082B2/en
Priority to TW113100587A priority patent/TWI890261B/en
Publication of JP2024119239A publication Critical patent/JP2024119239A/en
Application granted granted Critical
Publication of JP7583082B2 publication Critical patent/JP7583082B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、自然言語処理システム、自然言語処理方法、および自然言語処理プログラムに関し、特に、住所情報に基づいて当該住所情報に関する情報を推定する技術に関する。 The present invention relates to a natural language processing system, a natural language processing method, and a natural language processing program, and in particular to a technology for estimating information related to address information based on the address information.

従来、住所情報と学習済みモデルとを用いて、当該住所情報に関する情報を推定する技術が開発されている。例えば、特許文献1には、住所情報と学習済みモデルとを用いて、当該住所情報が偽住所情報か否かを決定する技術が開示されている。 Conventionally, technology has been developed that uses address information and a trained model to estimate information related to the address information. For example, Patent Literature 1 discloses a technology that uses address information and a trained model to determine whether the address information is false address information.

特表2020-502673号公報Special Publication No. 2020-502673

特許文献1に開示の技術によれば、住所情報が偽住所情報か否かが決定されることにより、住所情報の信頼性が確保され、物流サービスのサービス実行安全性が向上しうる。一方で、物流サービスの場合、住所情報が示す住所に位置する建物の建物タイプ(例えば、ビルや一軒家等)の情報も、サービス実行安全性に寄与しうる。また、物流サービスに限らず、例えば、同類の建物タイプの建物に居住する複数のユーザが任意のサービスの加入あるいは解約を同時期に行った場合に、その建物タイプを把握することにより、ユーザの行動と建物タイプとの関係を分析でき、更なるサービスの展開に役立ちうる。しかしながら、従来では、住所情報から、学習済みモデルを用いて、当該住所情報が示す住所に位置する建物タイプを推定するための技術は存在しなかった。 According to the technology disclosed in Patent Document 1, by determining whether the address information is false or not, the reliability of the address information is ensured, and the safety of the service execution of the logistics service can be improved. Meanwhile, in the case of logistics services, information on the building type (e.g., a building, a house, etc.) of the building located at the address indicated by the address information can also contribute to the safety of the service execution. In addition, not limited to logistics services, for example, when multiple users living in buildings of the same building type subscribe to or cancel any service at the same time, by understanding the building type, the relationship between the user behavior and the building type can be analyzed, which can be useful for further service development. However, conventionally, there was no technology for estimating the building type located at the address indicated by the address information using a trained model from the address information.

本発明は上記課題に鑑みてなされたものであり、住所に位置する建物の建物タイプを、学習モデルを用いて推定することを目的とする。 The present invention was made in consideration of the above problems, and aims to estimate the building type of a building located at an address using a learning model.

上記課題を解決するために、本発明による自然言語処理システムの一態様は、住所情報を取得する取得部と、前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定する推定部と、を有する。 In order to solve the above problem, one aspect of the natural language processing system according to the present invention includes an acquisition unit that acquires address information, and an estimation unit that estimates the building type of a building located at an address indicated by the address information by inputting the address information into a learning model that has been trained by machine learning.

上記課題を解決するために、本発明による自然言語処理方法の一態様は、住所情報を取得する取得ことと、前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定すること、を含む。 In order to solve the above problem, one aspect of the natural language processing method according to the present invention includes acquiring address information, and inputting the address information into a learning model that has been trained by machine learning, thereby estimating the building type of the building located at the address indicated by the address information.

上記課題を解決するために、本発明による自然言語処理プログラムの一態様は、自然言語処理をコンピュータに実行させるための自然言語処理プログラムであって、該プログラムは、該コンピュータに、住所情報を取得する取得処理と、前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定する推定処理と、を含む処理を実行させるためのものである。 In order to solve the above problem, one aspect of the natural language processing program according to the present invention is a natural language processing program for causing a computer to execute natural language processing, the program causing the computer to execute processes including an acquisition process for acquiring address information, and an estimation process for estimating the building type of a building located at an address indicated by the address information by inputting the address information into a learning model that has been trained by machine learning.

本発明によれば、住所に位置する建物の建物タイプを、学習モデルを用いて推定することが可能となる。
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
According to the present invention, it is possible to estimate the building type of a building located at an address using a learning model.
The above-mentioned objects, aspects, and advantages of the present invention, as well as objects, aspects, and advantages of the present invention not described above, will be understood by those skilled in the art from the following detailed description of the invention by referring to the accompanying drawings and the claims.

図1は、実施形態による自然言語処理システムの構成例を示す。FIG. 1 shows an example of the configuration of a natural language processing system according to an embodiment. 図2は、実施形態による情報処理装置のハードウェア構成例を示す。FIG. 2 shows an example of a hardware configuration of an information processing device according to an embodiment. 図3Aは、建物タイプ推定モデルを用いた推定手順の一例を示す。FIG. 3A shows an example of an estimation procedure using a building type estimation model. 図3Bは、建物タイプ推定モデルを用いた推定手順の別の例を示す。FIG. 3B shows another example of an estimation procedure using a building type estimation model. 図3Cは、建物タイプ推定モデルを用いた推定手順の別の例を示す。FIG. 3C shows another example of an estimation procedure using a building type estimation model. 図4は、住所情報から建物タイプを推定する具体例を示す。FIG. 4 shows a specific example of estimating a building type from address information. 図5は、住所情報により識別される建物タイプの例を示すFIG. 5 shows examples of building types identified by address information. 図6は、自然言語処理システムにより実行される全体の処理のフローチャートを示す。FIG. 6 shows a flowchart of the overall process executed by the natural language processing system. 図7Aは、建物タイプ決定処理の第1の例のフローチャートを示す。FIG. 7A shows a flowchart of a first example of a building type determination process. 図7Bは、建物タイプ決定処理の第2の例のフローチャートを示す。FIG. 7B shows a flowchart of a second example of the building type determination process. 図7Cは、建物タイプ決定処理の第3の例のフローチャートを示す。FIG. 7C shows a flowchart of a third example of the building type determination process.

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。 Below, an embodiment for carrying out the present invention will be described in detail with reference to the attached drawings. Among the components disclosed below, those having the same functions are given the same reference numerals, and their description will be omitted. Note that the embodiment disclosed below is one example of a means for realizing the present invention, and should be appropriately modified or changed depending on the configuration of the device to which the present invention is applied and various conditions, and the present invention is not limited to the following embodiment. Furthermore, not all of the combinations of features described in this embodiment are necessarily essential to the solution of the present invention.

[自然言語処理システムの構成]
図1に、本実施形態による自然言語処理(Natural Language Processing(NLP))システム10の構成例を示す。図1に示す自然言語処理システム10は、住所情報取得部100、第1処理部110、第2処理部120、学習処理部130、および建物タイプ決定部140を含んで構成される。
[Configuration of natural language processing system]
1 shows an example of the configuration of a natural language processing (NLP) system 10 according to this embodiment. The natural language processing system 10 shown in FIG. 1 includes an address information acquisition unit 100, a first processing unit 110, a second processing unit 120, a learning processing unit 130, and a building type determination unit 140.

自然言語処理システム10は、1つ以上の情報処理装置を用いて構成される。図1に示す住所情報取得部100、第1処理部110、第2処理部120、学習処理部130、および建物タイプ決定部140は、1つの情報処理装置で構成されてよいし、複数の情報処理装置に分散して構成されてもよい。情報処理装置は、例えば、デスクトップ型のPC(Personal Computer)、ノート型のPC、タブレット、汎用機といったデバイスであってもよい。また、情報処理装置の全てまたは一部は、例えば、クラウドサーバに構築された仮想サーバにおいて実現されてもよい。 The natural language processing system 10 is configured using one or more information processing devices. The address information acquisition unit 100, first processing unit 110, second processing unit 120, learning processing unit 130, and building type determination unit 140 shown in FIG. 1 may be configured in one information processing device, or may be distributed across multiple information processing devices. The information processing device may be a device such as a desktop PC (Personal Computer), a notebook PC, a tablet, or a general-purpose machine. In addition, all or part of the information processing device may be realized, for example, in a virtual server constructed on a cloud server.

住所情報取得部100は、住所を含む入力情報を受け付け、住所情報を取得する。例えば、住所情報取得部100は、操作者(ユーザ)による入力情報を受け付け、住所情報を取得する。あるいは、住所情報取得部100は、あらかじめ自然言語処理システム10において設定されている入力情報を、所定のプログラムに従って受け付け、住所情報を取得してもよい。 The address information acquisition unit 100 accepts input information including an address and acquires address information. For example, the address information acquisition unit 100 accepts input information from an operator (user) and acquires address information. Alternatively, the address information acquisition unit 100 may accept input information that has been set in advance in the natural language processing system 10 according to a predetermined program and acquire address information.

なお、住所情報は、自然言語処理システム10を構成する情報処理装置と相互に通信可能な情報処理装置によって構成される電子商取引システム(電子商取引プラットフォーム)において商取引処理の対象となる商品情報と対応する配送先住所を示してよい。このとき、住所情報取得部100は、ユーザによる住所を含む入力情報の受け付けに代えて、当該電子商取引システムから住所情報を取得してよく、当該電子商取引システムによる住所情報の入力を受け付けてよい。また、このとき、住所情報取得部100は、当該電子商取引システムにおける取引成立を条件として商品と対応する住所情報を取得してよい。 The address information may indicate a delivery address corresponding to product information that is the subject of transaction processing in an electronic commerce system (electronic commerce platform) that is composed of information processing devices that can communicate with the information processing devices that constitute the natural language processing system 10. In this case, the address information acquisition unit 100 may acquire address information from the electronic commerce system instead of accepting input information including an address from a user, and may accept input of address information by the electronic commerce system. In addition, the address information acquisition unit 100 may acquire address information corresponding to the product on the condition that a transaction is concluded in the electronic commerce system.

本実施形態において、住所情報取得部100は、テキスト情報(文字列)で構成された住所情報を取得するように構成される。そのため、住所情報取得部100は、受け付けた入力情報が住所を表すテキスト情報で構成されている場合は、受け付けた情報自体を、住所情報として取得する。また、受け付けた入力情報が、住所を表すテキスト情報と、住所以外のテキスト情報や画像情報を含んで構成される場合、住所情報取得部100は、受け付けた入力情報から、住所を表すテキスト情報(テキスト部分)を切り出して、住所情報を取得しうる。また、住所情報取得部100は、受け付けた入力情報が音声情報である場合は、受け付けた音声情報からテキスト情報に変換し(すなわち、文字起こしを行い)、当該変換した情報を住所情報として取得する。音声情報からテキスト情報への変換は、既知の音声認識機能等を利用して実行されうる。 In this embodiment, the address information acquisition unit 100 is configured to acquire address information composed of text information (character strings). Therefore, when the accepted input information is composed of text information representing an address, the address information acquisition unit 100 acquires the accepted information itself as address information. When the accepted input information is composed of text information representing an address and text information other than the address or image information, the address information acquisition unit 100 may extract the text information (text portion) representing the address from the accepted input information to acquire the address information. When the accepted input information is voice information, the address information acquisition unit 100 converts the accepted voice information into text information (i.e., transcribes it) and acquires the converted information as address information. The conversion from voice information to text information may be performed using a known voice recognition function or the like.

住所情報取得部100は、取得した住所情報を、第1処理部110と第2処理部120へ出力する。第1処理部110は、住所情報取得部100より入力された住所情報と学習モデルに基づいて、当該住所情報が示す住所に位置する建物の建物タイプを推定するように構成される。一方、第2処理部120は、住所情報取得部100より入力された住所情報から、ルールベースで、当該住所情報が示す住所に位置する建物の建物タイプを識別するように構成される。 The address information acquisition unit 100 outputs the acquired address information to the first processing unit 110 and the second processing unit 120. The first processing unit 110 is configured to estimate the building type of the building located at the address indicated by the address information input from the address information acquisition unit 100, based on the learning model. Meanwhile, the second processing unit 120 is configured to identify the building type of the building located at the address indicated by the address information, based on the address information input from the address information acquisition unit 100, on a rule basis.

第1処理部110は、住所情報取得部100より入力された住所情報と学習モデルに基づいて、当該住所情報が示す住所に位置する建物の建物タイプを推定する処理部である。第1処理部110は、建物タイプ推定部111、位置情報取得部112、エリア情報取得部113、および学習モデル記憶部114を含んで構成される。学習モデル記憶部114には、建物タイプ推定モデル115が格納される。建物タイプ推定モデル115は、機械学習のための学習モデルである。 The first processing unit 110 is a processing unit that estimates the building type of a building located at the address indicated by the address information input from the address information acquisition unit 100, based on the address information and the learning model. The first processing unit 110 is configured to include a building type estimation unit 111, a location information acquisition unit 112, an area information acquisition unit 113, and a learning model storage unit 114. The learning model storage unit 114 stores a building type estimation model 115. The building type estimation model 115 is a learning model for machine learning.

建物タイプ推定部111は、建物タイプ推定モデル115を用いて、住所情報取得部100より入力された住所情報が示す住所に位置する建物の建物タイプを推定する。建物タイプ推定モデル115は、住所情報取得部100より入力された住所情報に基づいて、当該住所情報が示す住所に位置する建物の建物タイプを推定(予測)して出力するように構成された学習モデルである。本実施形態では、建物タイプは、「ビジネスビル」、「ユニットビル」、および「家」の3タイプを想定する。「ビジネスビル」は、オフィスを主な用途とする建物であり、事業所や会社のビルを含む。「ユニットビル」は、複数世帯の居住を主な用途とする建物であり、複数の居住区画(個別占有空間)を有するビルやマンションやアパートメント(レジデンス)を含む。「家」は、単独世帯の居住を主な用途とする建物であり、個人宅や一戸建を含む。 The building type estimation unit 111 uses the building type estimation model 115 to estimate the building type of the building located at the address indicated by the address information input by the address information acquisition unit 100. The building type estimation model 115 is a learning model configured to estimate (predict) and output the building type of the building located at the address indicated by the address information input by the address information acquisition unit 100, based on the address information. In this embodiment, the building types are assumed to be three types: "business building", "unit building", and "house". "Business building" is a building whose main purpose is as an office, and includes business offices and company buildings. "Unit building" is a building whose main purpose is as a residence for multiple households, and includes buildings, condominiums, and apartments (residences) with multiple residential sections (individually occupied spaces). "House" is a building whose main purpose is as a residence for a single household, and includes individual homes and detached houses.

位置情報取得部112は、住所情報取得部100より入力された住所情報から、当該住所情報が示す住所の位置情報を取得する。例えば、位置情報取得部112は、インターネット上の地図サービスや位置情報サービスを用いて、当該住所に対応する緯度と経度を、位置情報として取得しうる。もしくは、位置情報取得部112は、予め設定された2次元または3次元空間における当該住所に対応する座標を、位置情報として取得してもよい。位置情報は数値情報でありうる。 The location information acquisition unit 112 acquires location information of the address indicated by the address information input by the address information acquisition unit 100. For example, the location information acquisition unit 112 may use an internet map service or location information service to acquire the latitude and longitude corresponding to the address as location information. Alternatively, the location information acquisition unit 112 may acquire the coordinates corresponding to the address in a preset two-dimensional or three-dimensional space as location information. The location information may be numerical information.

エリア情報取得部113は、住所情報取得部100より入力された住所情報から、当該住所情報が示す住所のエリアに関する情報を、エリア情報として取得する。例えば、エリア情報取得部113は、当該住所が属する用途地域、当該住所の最寄り駅、および当該最寄り駅からの当該住所までの距離の少なくともいずれかを、エリア情報として取得する。当該用途地域は、建築可能な建物の用途等を定めた地域を意味し、例えば、当該住所の地域が、住居系用途地域、商業系用途地域、あるいは工業系用途地域のいずれかであるかを示す。エリア情報取得部113は、当該用途地域を、当該住所を用いて所定のデータベースを検索することにより取得しうる。また、エリア情報取得部113は、当該住所の最寄り駅や、当該最寄り駅からの当該住所までの距離を、インターネット上の地図サービスや位置情報サービスを用いて取得しうる。最寄り駅は、当該住所から所定の距離以内にあるという条件を満たす駅である。当該条件を満たす駅が複数ある場合、すなわち、複数の最寄り駅が存在する場合は、エリア情報取得部113は、当該複数の最寄り駅や、それぞれの最寄り駅から当該住所までの距離を、エリア情報として取得してよい。 The area information acquisition unit 113 acquires, from the address information input by the address information acquisition unit 100, information on the area of the address indicated by the address information as area information. For example, the area information acquisition unit 113 acquires at least one of the zoning to which the address belongs, the nearest station to the address, and the distance from the nearest station to the address as area information. The zoning means an area that specifies the use of buildings that can be constructed, and indicates, for example, whether the area of the address is a residential zoning, a commercial zoning, or an industrial zoning. The area information acquisition unit 113 can acquire the zoning by searching a specified database using the address. The area information acquisition unit 113 can also acquire the nearest station to the address and the distance from the nearest station to the address using a map service or a location information service on the Internet. The nearest station is a station that satisfies the condition that it is within a specified distance from the address. If there are multiple stations that satisfy the condition, i.e., if there are multiple nearest stations, the area information acquisition unit 113 may acquire the multiple nearest stations and the distance from each of the nearest stations to the address as area information.

建物タイプ推定部111は、住所情報に加えて、位置情報取得部112により取得された位置情報と、エリア情報取得部113により取得されたエリア情報の少なくとも一方を用いて、建物タイプを推定するように構成されてよい。建物タイプ推定モデル115、および建物タイプ推定モデル115を用いた推定手順については後述する。建物タイプ推定部111は、推定した建物タイプを、建物タイプ決定部140へ出力する。 The building type estimation unit 111 may be configured to estimate the building type using at least one of the location information acquired by the location information acquisition unit 112 and the area information acquired by the area information acquisition unit 113 in addition to the address information. The building type estimation model 115 and the estimation procedure using the building type estimation model 115 will be described later. The building type estimation unit 111 outputs the estimated building type to the building type determination unit 140.

第2処理部120は、住所情報取得部100より入力された住所情報から、ルールベースで、当該住所情報が示す住所に位置する建物の建物タイプを識別する処理部である。第2処理部120は、建物タイプ識別部121とルール記憶部122を含んで構成される。ルール記憶部122には、建物タイプ識別ルール123が格納される。 The second processing unit 120 is a processing unit that identifies, based on rules, the building type of the building located at the address indicated by the address information input by the address information acquisition unit 100. The second processing unit 120 includes a building type identification unit 121 and a rule memory unit 122. The rule memory unit 122 stores building type identification rules 123.

建物タイプ識別部121は、住所情報取得部100より入力された住所情報を解析し、ルール記憶部122に記憶されている建物タイプ識別ルール123に基づいて、当該住所に位置する建物の建物タイプを識別する。ルールベースでの建物タイプの識別手順については後述する。建物タイプ識別部121は、識別した建物タイプを、建物タイプ決定部140へ出力する。さらに、建物タイプ識別部121は、識別した建物タイプを、第1処理部110へ出力してもよい。 The building type identification unit 121 analyzes the address information input by the address information acquisition unit 100, and identifies the building type of the building located at the address based on the building type identification rules 123 stored in the rule storage unit 122. The rule-based building type identification procedure will be described later. The building type identification unit 121 outputs the identified building type to the building type determination unit 140. Furthermore, the building type identification unit 121 may output the identified building type to the first processing unit 110.

学習処理部130は、建物タイプ推定モデル115を学習させる処理部である。学習処理部130は、学習データ取得部131、学習部132、および学習データ記憶部133を含んで構成される。学習データ記憶部133は、学習データ取得部131により取得された学習データが格納される。 The learning processing unit 130 is a processing unit that trains the building type estimation model 115. The learning processing unit 130 includes a learning data acquisition unit 131, a learning unit 132, and a learning data storage unit 133. The learning data storage unit 133 stores the learning data acquired by the learning data acquisition unit 131.

学習データ取得部131は、建物タイプ推定モデル115を学習させるために必要な学習データ134を取得し、学習データ記憶部133に格納する。本実施形態では、学習データ134は、過去に自然言語処理システム10により取得されたデータと、正解データとしての建物タイプを含む。例えば、学習データ134は、過去に住所情報取得部100により取得された住所情報と、当該住所情報が示す住所に位置する建物の建物タイプの正解データを含む。さらに、学習データ134は、当該住所情報に基づいて、位置情報取得部112により取得された位置情報と、エリア情報取得部113により取得されたエリア情報を含みうる。さらに、学習データ134は、当該住所情報に基づいて、建物タイプ識別部121により識別された建物タイプを含みうる。学習データ取得部131は、学習データ134を、住所情報取得部100,第1処理部110、および第2処理部120から取得してもよいし、操作者(ユーザ)からの入力により取得してもよいし、外部の装置から取得してもよい。学習部132は、学習データ134を用いて建物タイプ推定モデル115を学習させる。 The learning data acquisition unit 131 acquires learning data 134 necessary for training the building type estimation model 115 and stores it in the learning data storage unit 133. In this embodiment, the learning data 134 includes data previously acquired by the natural language processing system 10 and a building type as correct answer data. For example, the learning data 134 includes address information previously acquired by the address information acquisition unit 100 and correct answer data of the building type of a building located at the address indicated by the address information. Furthermore, the learning data 134 may include location information acquired by the location information acquisition unit 112 based on the address information and area information acquired by the area information acquisition unit 113. Furthermore, the learning data 134 may include a building type identified by the building type identification unit 121 based on the address information. The learning data acquisition unit 131 may acquire the learning data 134 from the address information acquisition unit 100, the first processing unit 110, and the second processing unit 120, may acquire the learning data 134 by input from an operator (user), or may acquire the learning data 134 from an external device. The learning unit 132 uses the learning data 134 to train the building type estimation model 115.

建物タイプ決定部140は、第1処理部110の建物タイプ推定部111により推定された建物タイプと、第2処理部120の建物タイプ識別部121により識別された建物タイプに基づいて、最終的な建物タイプを決定する。建物タイプの決定手順については後述する。また、建物タイプ決定部140は、決定した建物タイプを出力するように構成されてよい。 The building type determination unit 140 determines the final building type based on the building type estimated by the building type estimation unit 111 of the first processing unit 110 and the building type identified by the building type identification unit 121 of the second processing unit 120. The procedure for determining the building type will be described later. The building type determination unit 140 may also be configured to output the determined building type.

[情報処理装置のハードウェア構成]
自然言語処理システム10は、1つ以上の情報処理装置を用いて構成される。図2は、本実施形態による情報処理装置20のハードウェア構成の一例を示すブロック図である。情報処理装置20は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図2を参照して、情報処理装置20は、単一のコンピュータに実装される例が示されているが、本実施形態による情報処理装置20は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
[Hardware configuration of information processing device]
The natural language processing system 10 is configured using one or more information processing devices. Fig. 2 is a block diagram showing an example of a hardware configuration of an information processing device 20 according to this embodiment. The information processing device 20 can be implemented on a single or multiple computers, mobile devices, or any other processing platform.
2, the information processing device 20 is illustrated as being implemented in a single computer, but the information processing device 20 according to the present embodiment may be implemented in a computer system including multiple computers. The multiple computers may be connected to each other via a wired or wireless network so as to be able to communicate with each other.

図2に示すように、情報処理装置20は、CPU(Central Processing Unit)21と、ROM(Read Only Memory)22と、RAM(Random Access Memory)23と、HDD(Hard Disk Drive)24と、入力部25と、表示部26と、通信I/F27と、システムバス28とを備えてよい。情報処理装置20はまた、外部メモリを備えてよい。
CPU21は、情報処理装置20における動作を統括的に制御するものであり、データ伝送路であるシステムバス28を介して、各構成部(22~27)を制御する。
2, the information processing device 20 may include a CPU (Central Processing Unit) 21, a ROM (Read Only Memory) 22, a RAM (Random Access Memory) 23, a HDD (Hard Disk Drive) 24, an input unit 25, a display unit 26, a communication I/F 27, and a system bus 28. The information processing device 20 may also include an external memory.
The CPU 21 generally controls the operation of the information processing device 20, and controls each of the components (22 to 27) via a system bus 28 which is a data transmission path.

ROM22は、CPU21が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、HDD24、SSD(Solid State Drive)等の不揮発性メモリや着脱可能な記憶媒体(不図示)等の外部メモリに記憶されていてもよい。
RAM23は、揮発性メモリであり、CPU21の主メモリ、ワークエリア等として機能する。すなわち、CPU21は、処理の実行に際してROM22から必要なプログラム等をRAM23にロードし、当該プログラム等を実行することで各種の機能動作を実現する。図1に示す学習モデル記憶部114、ルール記憶部122、および学習データ記憶部133は、RAM23で構成されうる。
The ROM 22 is a non-volatile memory that stores control programs and the like necessary for the CPU 21 to execute processes. Note that the programs may be stored in a non-volatile memory such as the HDD 24 or an SSD (Solid State Drive) or an external memory such as a removable storage medium (not shown).
The RAM 23 is a volatile memory and functions as a main memory, a work area, etc. of the CPU 21. That is, when executing a process, the CPU 21 loads necessary programs, etc. from the ROM 22 into the RAM 23 and executes the programs, etc. to realize various functional operations. The learning model storage unit 114, the rule storage unit 122, and the learning data storage unit 133 shown in FIG. 1 can be configured by the RAM 23.

HDD24は、例えば、CPU21がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、HDD24には、例えば、CPU21がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部25は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部26は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部26は、入力部25と組み合わせて構成されることにより、GUI(Graphical User Interface)として機能してもよい。
The HDD 24 stores, for example, various data and various information required when the CPU 21 performs processing using a program. The HDD 24 also stores, for example, various data and various information obtained when the CPU 21 performs processing using a program.
The input unit 25 is composed of a keyboard and a pointing device such as a mouse.
The display unit 26 is configured with a monitor such as a liquid crystal display (LCD). The display unit 26 may be configured in combination with the input unit 25 to function as a GUI (Graphical User Interface).

通信I/F27は、情報処理装置20と外部装置との通信を制御するインタフェースである。
通信I/F27は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F27を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信I/F27は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、3GPP(Third Generation Partnership Project)(登録商標)で規定される4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
The communication I/F 27 is an interface that controls communication between the information processing device 20 and external devices.
The communication I/F 27 provides an interface with a network and executes communication with an external device via the network. Various data, various parameters, etc. are transmitted and received between the external device and the communication I/F 27. In this embodiment, the communication I/F 27 may execute communication via a wired LAN (Local Area Network) or a dedicated line that complies with a communication standard such as Ethernet (registered trademark). However, the network that can be used in this embodiment is not limited to this, and may be configured as a wireless network. This wireless network includes wireless PANs (Personal Area Networks) such as Bluetooth (registered trademark), ZigBee (registered trademark), and UWB (Ultra Wide Band). It also includes wireless LANs (Local Area Networks) such as Wi-Fi (Wireless Fidelity) (registered trademark) and wireless MANs (Metropolitan Area Networks) such as WiMAX (registered trademark). It also includes wireless WANs (Wide Area Networks) such as 4G and 5G defined by 3GPP (Third Generation Partnership Project) (registered trademark). Note that the network only needs to be able to connect devices to each other and communicate with each other, and the communication standard, scale, and configuration are not limited to those described above.

図1に示す自然言語処理システム10の少なくとも一部の機能は、情報処理装置20におけるCPU21がプログラムを実行することで実現することができる。ただし、図1に示す自然言語処理システム10の少なくとも一部の機能が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、CPU21の制御に基づいて動作しうる。 At least some of the functions of the natural language processing system 10 shown in FIG. 1 can be realized by the CPU 21 in the information processing device 20 executing a program. However, at least some of the functions of the natural language processing system 10 shown in FIG. 1 may be operated as dedicated hardware. In this case, the dedicated hardware may operate under the control of the CPU 21.

[建物タイプ推定モデルを用いた推定手順]
次に、建物タイプ推定モデル115、および建物タイプ推定モデル115を用いた推定手順について説明する。図3Aに、建物タイプ推定モデル115を用いた推定手順の一例を示す。図3Aに示す建物タイプ推定モデル115は、学習部132により、学習データ134に含まれる住所情報と建物タイプとを用いて、機械学習(Fine-tuningを含む)が実行された、学習済みの学習モデルである。図3Aに示すように、建物タイプ推定モデル115は、エンコーダ(エンコーダモデル)116と、分類器(分類モデル)117から構成される。エンコーダ116は、入力された住所情報(すなわち、テキスト情報)の各トークン(単語といった小さな単位)の分散表現(ベクトル表現、単語埋め込み(Word Embedding)等とも称される)を生成する。分類器117は、当該分散表現から、建物タイプ21を推定する。
[Estimation procedure using building type estimation model]
Next, the building type estimation model 115 and an estimation procedure using the building type estimation model 115 will be described. FIG. 3A shows an example of an estimation procedure using the building type estimation model 115. The building type estimation model 115 shown in FIG. 3A is a trained learning model in which machine learning (including fine-tuning) is performed by the learning unit 132 using the address information and building type included in the training data 134. As shown in FIG. 3A, the building type estimation model 115 is composed of an encoder (encoder model) 116 and a classifier (classification model) 117. The encoder 116 generates a distributed representation (also called a vector representation, word embedding, etc.) of each token (small unit such as a word) of the input address information (i.e., text information). The classifier 117 estimates the building type 21 from the distributed representation.

具体的には、エンコーダ116は、住所情報を複数のトークン(単語といった小さな単位)に分割し(トークン化し)、各トークンの分散表現を生成する。分散表現は、例えば、BERT(Bidirectional Encoder Representations from Transformers)、Word2Vec、GloVe(Global Vectors for Word Representation)、FastText等の自然言語処理(NLP)モデルを用いて生成することができる。すなわち、建物タイプ推定モデル115は、自然言語処理モデルを用いて構成されうる。
分類器117は、エンコーダ116により生成された分散表現から、建物タイプを推定し、出力する。本実施形態では、分類器117は、当該分散表現から、「ビジネスビル」、「ユニットビル」、あるいは「家」それぞれに該当する確率(尤度、確からしさ)を推定(分類)する。そして、分類器117は、最も高い確率を有する建物タイプが、入力された住所情報が示す住所に位置する建物タイプと推定して、出力する。分類器117は、例えば、FFNN(Feed-Forward Neural Network)モデルで構成される。
Specifically, the encoder 116 divides (tokenizes) the address information into multiple tokens (small units such as words) and generates a distributed representation of each token. The distributed representation can be generated using a natural language processing (NLP) model such as BERT (Bidirectional Encoder Representations from Transformers), Word2Vec, GloVe (Global Vectors for Word Representation), FastText, etc. In other words, the building type estimation model 115 can be configured using a natural language processing model.
The classifier 117 estimates and outputs a building type from the distributed representation generated by the encoder 116. In this embodiment, the classifier 117 estimates (classifies) the probability (likelihood, probability) that the building corresponds to each of a "business building", a "unit building", and a "house" from the distributed representation. The classifier 117 then estimates and outputs the building type with the highest probability as the building type located at the address indicated by the input address information. The classifier 117 is configured, for example, with a FFNN (Feed-Forward Neural Network) model.

図4に、住所情報から建物タイプを推定する具体例を示す。まず、建物タイプ推定部111が、「東京都ABC区D町1-2-3株式会社abc内」という住所情報40を、建物タイプ推定モデル115に入力する。建物タイプ推定モデル115におけるエンコーダ116は、住所情報40を複数のトークン41に分割する。例えば、住所情報40を、「東京都」、「ABC区」、「D町」、「1-2-3」、「株式会社」、「abc」、「内」を含む複数のトークン41に分割する。エンコーダ116は、さらに、複数のトークン41に対して、BERTといった自然言語処理を施して、各トークンの分散表現42を生成する。分散表現の生成のためにBERTを用いる場合、住所情報(文字列)が双方向で学習されるため、住所情報の文脈を分析した上で分散表現を生成することが可能となる。さらに、分類器117は、分散表現42から、建物タイプ43を推定する。本実施形態では、分類器117は、「ビジネスビル」、「ユニットビル」、「家」の3つの建物タイプから、住所情報40が示す住所に位置する建物タイプを推定する。図では、住所情報40から「ビジネスビル」が推定された例が示されている。 FIG. 4 shows a specific example of estimating a building type from address information. First, the building type estimation unit 111 inputs address information 40, such as "1-2-3, D Town, ABC Ward, Tokyo, inside abc Co., Ltd.", into the building type estimation model 115. The encoder 116 in the building type estimation model 115 divides the address information 40 into a plurality of tokens 41. For example, the address information 40 is divided into a plurality of tokens 41 including "Tokyo", "ABC Ward", "D Town", "1-2-3", "Inc.", "abc", and "inside". The encoder 116 further performs natural language processing such as BERT on the plurality of tokens 41 to generate a distributed representation 42 of each token. When BERT is used to generate a distributed representation, the address information (character string) is learned in both directions, so that it is possible to generate a distributed representation after analyzing the context of the address information. Furthermore, the classifier 117 estimates a building type 43 from the distributed representation 42. In this embodiment, the classifier 117 estimates the type of building located at the address indicated by the address information 40 from three building types, namely, "business building,""unitbuilding," and "house." FIG. 4 shows an example in which "business building" is estimated from the address information 40.

図3Aに示す建物タイプ推定モデル115は、入力データとしての住所情報30から、建物タイプ31を推定するように構成されているが、追加的な入力データを用いて、建物タイプ31を推定するように構成されてもよい。ここでは2つの例を説明する。 The building type estimation model 115 shown in FIG. 3A is configured to estimate the building type 31 from address information 30 as input data, but may also be configured to estimate the building type 31 using additional input data. Two examples are described here.

追加的な入力データを用いた推定処理の第1の例を、図3Bを参照して説明する。図3Bは、建物タイプ推定モデル115を用いた推定手順の別の例を示す。図3Bに示すように、分類器117は、追加入力データ32として、住所情報30に基づいて建物タイプ識別部121により識別された建物タイプ33を用いて、建物タイプ31を推定するように構成されている。すなわち、分類器117は、エンコーダ116からの入力(分散表現)に加えて、識別された建物タイプ33を用いて、建物タイプ31を推定するように構成されている。図3Bに示す建物タイプ推定モデル115は、学習部132により機械学習(Fine-tuningを含む)が実行された、学習済みの学習モデルである。学習段階では、学習データ134に含まれる住所情報、建物タイプ、および識別された建物タイプを用いて、機械学習が実行される。 A first example of an estimation process using additional input data will be described with reference to FIG. 3B. FIG. 3B shows another example of an estimation procedure using the building type estimation model 115. As shown in FIG. 3B, the classifier 117 is configured to estimate the building type 31 using the building type 33 identified by the building type identification unit 121 based on the address information 30 as the additional input data 32. That is, the classifier 117 is configured to estimate the building type 31 using the identified building type 33 in addition to the input (distributed representation) from the encoder 116. The building type estimation model 115 shown in FIG. 3B is a trained learning model in which machine learning (including fine-tuning) has been performed by the learning unit 132. In the learning stage, machine learning is performed using the address information, building type, and identified building type included in the learning data 134.

図3Bに示す建物タイプ推定モデル115を用いることにより、建物タイプ識別部121により識別された建物タイプも考慮した建物タイプの推定が可能となる。すなわち、分類器117は、建物タイプ識別部121により識別された建物タイプによる重み(勾配)に従って、建物タイプを推定することが可能となる。 By using the building type estimation model 115 shown in FIG. 3B, it becomes possible to estimate the building type taking into account the building type identified by the building type identification unit 121. In other words, the classifier 117 becomes able to estimate the building type according to the weight (gradient) of the building type identified by the building type identification unit 121.

追加的な入力データを用いた推定処理の第2の例を、図3Cを参照して説明する。図3Cは、建物タイプ推定モデル115を用いた推定手順の別の例を示す。図3Cに示すように、分類器117は、追加入力データ32として、住所情報30に基づいて、位置情報取得部112により取得された位置情報34と、エリア情報取得部113により取得されたエリア情報35を用いて、建物タイプ31を推定するように構成されている。すなわち、分類器117は、エンコーダ116からの入力(分散表現)に加えて、位置情報34とエリア情報35を用いて、建物タイプ31を推定するように構成されている。図3Cに示す建物タイプ推定モデル115は、学習部132により機械学習(Fine Tuningを含む)が実行された、学習済みの学習モデルである。学習段階では、学習データ134に含まれる住所情報、建物タイプ、位置情報、およびエリア情報を用いて、機械学習が実行される。 A second example of the estimation process using additional input data will be described with reference to FIG. 3C. FIG. 3C shows another example of the estimation procedure using the building type estimation model 115. As shown in FIG. 3C, the classifier 117 is configured to estimate the building type 31 based on the address information 30 using the location information 34 acquired by the location information acquisition unit 112 and the area information 35 acquired by the area information acquisition unit 113 as the additional input data 32. That is, the classifier 117 is configured to estimate the building type 31 using the location information 34 and the area information 35 in addition to the input (distributed representation) from the encoder 116. The building type estimation model 115 shown in FIG. 3C is a trained learning model in which machine learning (including fine tuning) has been performed by the learning unit 132. In the learning stage, machine learning is performed using the address information, building type, location information, and area information included in the learning data 134.

図3Cに示す建物タイプ推定モデル115を用いることにより、位置情報取得部112により取得された位置情報と、エリア情報取得部113により取得されたエリアも考慮した建物タイプの推定が可能となる。すなわち、分類器117は、位置情報取得部112により取得された位置情報と、エリア情報取得部113により取得されたエリアによる重み(勾配)に従って、建物タイプを推定することが可能となる。なお、図3Cでは、位置情報とエリア情報の両方が、追加入力データ32として分類器117に入力されているが、いずれかの情報が分類器117に入力されるように構成されてもよい。 By using the building type estimation model 115 shown in FIG. 3C, it becomes possible to estimate the building type taking into account the location information acquired by the location information acquisition unit 112 and the area acquired by the area information acquisition unit 113. That is, the classifier 117 is able to estimate the building type according to the location information acquired by the location information acquisition unit 112 and the weight (gradient) of the area acquired by the area information acquisition unit 113. Note that, although both the location information and the area information are input to the classifier 117 as additional input data 32 in FIG. 3C, it may be configured so that either information is input to the classifier 117.

また、上記に限定されず、建物タイプ推定モデル115が、図3Bに示す識別された建物タイプ33と、図3Cに示す位置情報34とエリア情報35のあらゆる組み合わせが、分類器117に入力されるように構成されてもよい。この場合、学習段階では、学習データ134に含まれる、建物タイプ推定モデル115に入力されるデータに対応する情報を用いて、機械学習が実行される。 In addition, without being limited to the above, the building type estimation model 115 may be configured so that any combination of the identified building type 33 shown in FIG. 3B and the location information 34 and area information 35 shown in FIG. 3C is input to the classifier 117. In this case, in the learning stage, machine learning is performed using information included in the learning data 134 that corresponds to the data input to the building type estimation model 115.

[ルールベースでの建物タイプの識別手順]
次に、建物タイプ識別部121による、建物タイプ識別処理の手順について説明する。本実施形態では、建物タイプ識別部121は、ルール記憶部122に記憶されている建物タイプ識別ルール123に基づいて、建物タイプを識別する。具体的には、建物タイプ識別部121は、住所情報(すなわち、住所の文字列)を建物タイプ識別ルール123に適用することにより、建物タイプを識別する。
[Rule-based building type identification procedure]
Next, a description will be given of the procedure of the building type identification process by the building type identification unit 121. In this embodiment, the building type identification unit 121 identifies the building type based on the building type identification rules 123 stored in the rule storage unit 122. Specifically, the building type identification unit 121 identifies the building type by applying the address information (i.e., the character string of the address) to the building type identification rules 123.

建物タイプ識別ルール123は、住所情報が有する特徴に基づいて建物タイプを識別するための、あらかじめ作成されているルールである。なお、本実施形態で説明する建物タイプ識別ルール123は一例であり、住所と建物タイプの組み合わせの実例に合致しない場合が生じうるものの、建物タイプが識別可能なあらゆるルールを使用することが可能である。例えば、住所情報が所定のキーワードを有するか否かに応じて、建物タイプが識別されてもよい。また、新たなルールが建物タイプ識別ルール123に追加されてもよい。 The building type identification rule 123 is a pre-created rule for identifying a building type based on the characteristics of the address information. Note that the building type identification rule 123 described in this embodiment is an example, and although there may be cases where it does not match actual examples of combinations of addresses and building types, any rule capable of identifying a building type can be used. For example, a building type may be identified depending on whether or not the address information has a specified keyword. Furthermore, new rules may be added to the building type identification rule 123.

本実施形態による建物タイプ識別ルール123は、(1)から(9)の9種類のルールを有する。(1)から(9)のルールは、住所情報が有する特徴により、建物タイプが識別されるように構成されている。
(1)住所情報が「株式会社」を含む場合、建物タイプは、「ビジネスビル」と識別される。
例:「大阪府ABC市D町1-2-3 株式会社abc内」は、「ビジネスビル」と識別される。
The building type identification rules 123 according to this embodiment include nine types of rules, (1) to (9). The rules (1) to (9) are configured to identify building types based on the characteristics of address information.
(1) If the address information includes "Inc.", the building type is identified as "Business Building."
For example, "1-2-3 D-cho, ABC-shi, Osaka Prefecture, inside ABC Co., Ltd." is identified as a "business building."

(2)住所情報が「ビル」を含み、「ビル」の後に3桁の数字を含む場合、建物タイプは、「ユニットビル」と識別される。
例:「東京都ABC区D町1-2-3 abcビル303」は「ユニットビル」と識別される。
(2) If the address information includes "building" and includes three digits after the "building," the building type is identified as "unit building."
For example, "abc building 303, 1-2-3, D-cho, ABC-ku, Tokyo" is identified as a "unit building."

(3)住所情報が「ビル」を含み、「ビル」の後に3桁の数字を含まない場合、建物タイプは、「ビジネスビル」と識別される。
例:「東京都ABC区D町1-2-3 abcビル5階」は、「ビジネスビル」と識別される。
(3) If the address information includes "building" but does not include three digits after the "building," the building type is identified as "business building."
For example, "abc building, 5th floor, 1-2-3 D-cho, ABC-ku, Tokyo" is identified as a "business building."

(4)住所情報が「号」を最後に含む場合、建物タイプは、「ユニットビル」と識別される。
例:「大阪府ABC市D町1-2-3 レジデンスabc 303号」は「ユニットビル」と識別される。
(4) If the address information includes the final part "number", the building type is identified as "unit building".
For example, "Residence abc 303, 1-2-3, D-cho, ABC-shi, Osaka Prefecture" is identified as a "unit building."

(5)住所情報が「×1-×2-×3」形式を含み、「×3」が3桁または4桁の数字でない場合、建物タイプは、「家」と識別される。
例:「埼玉県ABC市D町1-234-5」は「家」と識別される。
(5) If the address information contains an "x1-x2-x3" format, where "x3" is not a three or four digit number, then the building type is identified as "home."
Example: "1-234-5 D-cho, ABC-shi, Saitama-ken" is identified as a "house."

(6)住所情報が「×1-×2」形式を含む場合、建物タイプは「ユニットビル」と識別される。
例:「神奈川県ABC町DE123-4」は「ユニットビル」と識別される。
(6) If the address information contains an "x1-x2" format, the building type is identified as "unit building."
For example, "DE123-4, ABC-cho, Kanagawa Prefecture" is identified as a "unit building."

(7)住所情報が単一の数字を含み、当該数字を末尾に含む場合、建物タイプは「家」と識別される。
例:「千葉県ABC市D町1234」は「家」と識別される。
(7) If the address information contains a single digit and includes that digit at the end, the building type is identified as "home."
For example, "1234 D-cho, ABC-shi, Chiba Prefecture" is identified as a "house."

(8)住所情報が「×1-×2-×3」または「×1-×2-×3-×4」形式を含み、「×3」または「×4」が3桁または4桁の数字である場合、建物タイプは「ユニットビル」と識別される。
例:「福岡県ABC市DE区FG1-2-3-303」は「ユニットビル」と識別される。
(8) If the address information contains an “x1-x2-x3” or “x1-x2-x3-x4” format, where “x3” or “x4” is a three or four digit number, the building type is identified as a “unit building.”
Example: "FG1-2-3-303 DE ward, ABC city, Fukuoka prefecture" is identified as a "unit building."

(9)住所情報が「×1-×2-×3」または「×1-×2-×3-×4」形式を含み、当該形式と別に末尾に数字を含む場合、建物タイプは「ユニットビル」と識別される。
例:「神奈川県ABC市DE1-2-3 レジデンスabc 303」は「ユニットビル」と識別される。
(9) If the address information includes an “x1-x2-x3” or “x1-x2-x3-x4” format and includes a trailing number in addition to the format, the building type is identified as a “unit building.”
For example, "Residence abc 303, DE1-2-3, ABC City, Kanagawa Prefecture" is identified as a "unit building."

なお、建物タイプ識別部121は、上記ルールにおいて「×1-×2-×3」は、「×1丁目×2番地×3号」や「×1丁目×2-×3」のような変形と同じ文字列として認識するように構成されうる。
また、建物タイプ識別部121は、上記ルールにおいて「×1-×2-×3-×4」は、「×1丁目×2番地×3号(建物の名称)×4」や「×1丁目×2-×3(建物の名称)×4」のような変形と同じ文字列として認識するように構成されうる。
In addition, the building type identification unit 121 can be configured to recognize "x1-x2-x3" in the above rules as the same string as variations such as "x1-chome x2-no. x3" or "x1-chome x2-x3."
In addition, the building type identification unit 121 can be configured to recognize, in the above rules, "x1-x2-x3-x4" as the same string as variations such as "x1-chome x no. 2 x no. 3 (building name) x 4" or "x1-chome x 2-x3 (building name) x 4."

図5に、上記ルール(1)から(9)において挙げた住所情報50と当該住所情報により識別される建物タイプ51の例を示す。図5に示すように、住所情報50は、当該住所情報が有する特徴に従って、「ビジネスビル」、「ユニットビル」、および「家」のいずれかの建物タイプ51に分類される。 Figure 5 shows examples of address information 50 listed in rules (1) to (9) above and building types 51 identified by the address information. As shown in Figure 5, the address information 50 is classified into one of the building types 51, "business building," "unit building," and "house," according to the characteristics of the address information.

なお、上記の(1)から(9)のルールで建物タイプが識別されない住所については、建物タイプ識別部105は、当該住所の建物タイプを、「家」といった所定の建物タイプと識別してもよい。あるいは、(1)から(9)のルールで建物タイプが識別されない住所については、建物タイプ識別部105は、当該住所の建物タイプを「不明タイプ」と識別してもよい。 For an address whose building type cannot be identified by the above rules (1) to (9), the building type identification unit 105 may identify the building type of the address as a predetermined building type such as "house." Alternatively, for an address whose building type cannot be identified by the above rules (1) to (9), the building type identification unit 105 may identify the building type of the address as "unknown type."

また、ルール(1)から(9)は、東京都といった、いくつかのエリアに適用可能であるが、その他のエリアには適用可能でない場合もある。そのため、他のエリアに対してはルール(1)から(9)とは別のルールを作成して、適用してもよい。また、東京都内におけるエリアであっても、ルール(1)から(9)とは別のルールを作成して、適用してもよい。 In addition, rules (1) to (9) may be applicable to some areas, such as Tokyo, but may not be applicable to other areas. Therefore, rules other than rules (1) to (9) may be created and applied to other areas. Furthermore, rules other than rules (1) to (9) may be created and applied even to areas within Tokyo.

[全体の処理の流れ]
図6に、本実施形態による自然言語処理システム10において実行される全体の処理のフローチャートを示す。なお、学習モデル記憶部114には、学習部132により機械学習が実行された、学習済みの建物タイプ推定モデル115が格納されているものとする。また、本例において、建物タイプは、「ビジネスビル」、「ユニットビル」、および「家」の3タイプを想定する。
[Overall processing flow]
6 shows a flowchart of the overall process executed in the natural language processing system 10 according to this embodiment. It is assumed that the learning model storage unit 114 stores a trained building type estimation model 115 that has been machine-learned by the learning unit 132. In this example, it is assumed that there are three building types: "business building", "unit building", and "house".

S61において、住所情報取得部100は、住所を含む入力情報を受け付け、テキスト情報で構成される住所情報を取得する。住所情報取得部100は、受け付けた入力情報が住所を表すテキスト情報で構成されている場合は、受け付けた情報自体を、住所情報として取得する。また、受け付けた入力情報が、住所を表すテキスト情報と、住所以外のテキスト情報や画像情報を含んで構成される場合、住所情報取得部100は、受け付けた入力情報から、住所を表すテキスト情報(テキスト部分)を切り出して、住所情報を取得しうる。また、住所情報取得部100は、受け付けた入力情報が音声情報である場合は、受け付けた音声情報からテキスト情報に変換し(すなわち、文字起こしを行い)、当該変換した情報を住所情報として取得する。住所情報取得部100は、取得した住所情報を、第1処理部110と第2処理部120へ出力する。 In S61, the address information acquisition unit 100 accepts input information including an address and acquires address information consisting of text information. When the accepted input information is composed of text information representing an address, the address information acquisition unit 100 acquires the accepted information itself as address information. When the accepted input information is composed of text information representing an address and text information other than the address or image information, the address information acquisition unit 100 may extract text information (text portion) representing the address from the accepted input information to acquire address information. When the accepted input information is audio information, the address information acquisition unit 100 converts the accepted audio information into text information (i.e., transcribes it) and acquires the converted information as address information. The address information acquisition unit 100 outputs the acquired address information to the first processing unit 110 and the second processing unit 120.

S62において、第1処理部110における建物タイプ推定部111は、住所情報取得部100から取得した住所情報を、建物タイプ推定モデル115へ入力して、当該住所情報が示す住所に位置する建物の建物タイプを推定する。建物タイプの推定手順は、上記の通りであり、例えば、図3Aに示すように、建物タイプ推定部111は、当該住所情報を建物タイプ推定モデル115に入力して、建物タイプを推定する。あるいは、図3Bに示すように、建物タイプ推定部111は、当該住所情報と、後述するS63で識別された建物タイプを、建物タイプ推定モデル115に入力して、建物タイプを推定してよい。あるいは、図3Cに示すように、建物タイプ推定部111は、当該住所情報と、当該推定された建物タイプ、位置情報取得部112により取得された位置情報、エリア情報取得部113により取得されたエリア情報の少なくとも1つとを、建物タイプ推定モデル115に入力して、建物タイプを推定してよい。さらに、建物タイプ推定部111は、当該住所情報と、当該建物タイプ、当該位置情報、当該エリア情報の少なくとも1つとの組み合わせを、建物タイプ推定モデル115に入力して、建物タイプを推定してよい。
建物タイプ推定部111は、S62で推定した建物タイプを、推定建物タイプとして、建物タイプ決定部140に出力する。
In S62, the building type estimation unit 111 in the first processing unit 110 inputs the address information acquired from the address information acquisition unit 100 to the building type estimation model 115 to estimate the building type of the building located at the address indicated by the address information. The procedure for estimating the building type is as described above. For example, as shown in FIG. 3A, the building type estimation unit 111 inputs the address information to the building type estimation model 115 to estimate the building type. Alternatively, as shown in FIG. 3B, the building type estimation unit 111 may input the address information and the building type identified in S63 described later to the building type estimation model 115 to estimate the building type. Alternatively, as shown in FIG. 3C, the building type estimation unit 111 may input the address information and at least one of the estimated building type, the location information acquired by the location information acquisition unit 112, and the area information acquired by the area information acquisition unit 113 to the building type estimation model 115 to estimate the building type. Furthermore, the building type estimation unit 111 may input a combination of the address information and at least one of the building type, the location information, and the area information to the building type estimation model 115 to estimate the building type.
The building type estimation unit 111 outputs the building type estimated in S62 to the building type determination unit 140 as an estimated building type.

S63において、第2処理部120における建物タイプ識別部121は、建物タイプ識別ルール123を用いて、住所情報取得部100から取得した住所情報が示す住所に位置する建物タイプを識別する。建物タイプの識別手順は上記の通りである。建物タイプ識別部121は、当該住所情報から、「ビジネスビル」、「ユニットビル」、および「家」のいずれかを識別する。
建物タイプ識別部121は、S63で識別した建物タイプを、識別建物タイプとして、建物タイプ決定部140に出力する。
In S63, the building type identification unit 121 in the second processing unit 120 uses the building type identification rule 123 to identify the type of building located at the address indicated by the address information acquired from the address information acquisition unit 100. The building type identification procedure is as described above. The building type identification unit 121 identifies one of a "business building", a "unit building", and a "house" from the address information.
The building type identification unit 121 outputs the building type identified in S63 to the building type determination unit 140 as an identified building type.

なお、S62の建物タイプ推定処理とS63の建物タイプ識別処理は、同時に行われてもよいし、一方が先に行われてもよい。ただし、S62の建物タイプ推定処理において、S63で識別された建物タイプを用いる場合は、S63の処理が先に行われる。 The building type estimation process in S62 and the building type identification process in S63 may be performed simultaneously, or one may be performed first. However, if the building type identified in S63 is used in the building type estimation process in S62, the process in S63 is performed first.

S64において、建物タイプ決定部140は、推定建物タイプと識別建物タイプに基づいて、最終的な建物タイプを決定する。図7A~図7Cを参照して、S64における建物タイプ決定処理について説明する。 In S64, the building type determination unit 140 determines the final building type based on the estimated building type and the identified building type. The building type determination process in S64 will be described with reference to Figures 7A to 7C.

図7Aは、建物タイプ決定処理の第1の例のフローチャートを示す。当該第1の例では、推定建物タイプと識別建物タイプが取りうる建物タイプに予め優先度が設定され、推定建物タイプと識別建物タイプが異なる場合に、当該優先度に従って建物タイプが決定される。建物タイプ決定部140は、当該優先度に関する設定情報を予め取得しているものとする。本実施形態では、建物タイプに対する優先度は、「家」がもっとも高い優先度を有し、「ビジネスビル」が2番目の優先度を有し、「ユニットビル」が3番目の優先度を有するように設定されているものとする。 Figure 7A shows a flowchart of a first example of the building type determination process. In this first example, priorities are set in advance for the building types that the estimated building type and the identified building type can take, and when the estimated building type and the identified building type differ, the building type is determined according to the priorities. It is assumed that the building type determination unit 140 has acquired setting information regarding the priorities in advance. In this embodiment, it is assumed that the priorities for the building types are set so that "house" has the highest priority, "business building" has the second priority, and "unit building" has the third priority.

図7Aにおいて、建物タイプ決定部140は、推定建物タイプと識別建物タイプが同じか否かを判定する(S71)。推定建物タイプと識別建物タイプが同じ場合(S71でYes)、建物タイプ決定部140は、推定建物タイプ(または、識別建物タイプ)を、最終的な建物タイプとして決定する(S72)。一方、推定建物タイプと識別建物タイプが異なる場合(S71でNo)、建物タイプ決定部140は、予め設定されている優先度に従って、推定建物タイプと識別建物タイプのうち、高い優先度の建物タイプを、最終的な建物タイプとして決定する(S73)。例えば、推定建物タイプが「ユニットビル」であり、識別建物タイプが「ビジネスビル」の場合は、予め設定されている優先度に従って、「ビジネスビル」が最終的な建物タイプとして決定される。 In FIG. 7A, the building type determination unit 140 determines whether the estimated building type and the identified building type are the same (S71). If the estimated building type and the identified building type are the same (Yes in S71), the building type determination unit 140 determines the estimated building type (or the identified building type) as the final building type (S72). On the other hand, if the estimated building type and the identified building type are different (No in S71), the building type determination unit 140 determines the building type with the higher priority between the estimated building type and the identified building type as the final building type according to a preset priority (S73). For example, if the estimated building type is a "unit building" and the identified building type is a "business building", then "business building" is determined as the final building type according to a preset priority.

図7Bは、建物タイプ決定処理の第2の例のフローチャートを示す。当該第2の例では、推定建物タイプと識別建物タイプが異なる場合に推定建物タイプと識別建物タイプのいずれかを優先するかが予め設定され、当該優先度に関する設定に従って建物タイプが決定される。建物タイプ決定部140は、当該優先度に関する設定情報を予め取得しているものとする。本実施形態では、識別建物タイプを優先すると設定されているものとする。すなわち、推定建物タイプと識別建物タイプが異なる場合に、推定建物タイプより、識別建物タイプが優先される。 Figure 7B shows a flowchart of a second example of the building type determination process. In this second example, it is set in advance which of the estimated building type and the identified building type will be prioritized when the estimated building type and the identified building type differ, and the building type is determined according to the setting regarding the priority. It is assumed that the building type determination unit 140 has acquired setting information regarding the priority in advance. In this embodiment, it is assumed that the setting is such that the identified building type is prioritized. In other words, when the estimated building type and the identified building type differ, the identified building type is prioritized over the estimated building type.

図7Bにおいて、S71とS72の処理は、図7Aと同じであるため、説明を省略する。推定建物タイプと識別建物タイプが異なる場合(S71でNo)、建物タイプ決定部140は、優先度に関する設定に従って、識別建物タイプを、最終的な建物タイプとして決定する(S74)。 In Fig. 7B, the processes of S71 and S72 are the same as those in Fig. 7A, and therefore the description thereof will be omitted. If the estimated building type and the identified building type are different (No in S71), the building type determination unit 140 determines the identified building type as the final building type in accordance with the setting regarding the priority (S74).

図7Cは、建物タイプ決定処理の第3の例のフローチャートを示す。当該第3の例では、推定建物タイプと識別建物タイプが異なる場合に、推定建物タイプと識別建物タイプが異なることを操作者に通知し、操作者により、最終的な建物タイプが決定される。 Figure 7C shows a flowchart of a third example of the building type determination process. In this third example, if the estimated building type and the identified building type differ, the operator is notified that the estimated building type and the identified building type differ, and the operator determines the final building type.

図7Cにおいて、S71とS72の処理は、図7Aと同じであるため、説明を省略する。推定建物タイプと識別建物タイプが異なる場合(S71でNo)、建物タイプ決定部140は、操作者によるマニュアル操作を促すメッセージを出力する(S75)。当該メッセージには、住所情報が含まれうる。操作者は、例えば、S75で出力されたメッセージにおける住所情報から、地図サービス等を用いて、当該住所情報が示す住所に位置する建物タイプを、視覚的に判断することができる。当該メッセージを出力後に操作者により指示された(例えば、操作者により建物タイプが入力された)場合、建物タイプ決定部140は、当該指示された建物タイプを、最終的な建物タイプとして決定する(S76)。 In FIG. 7C, the processes of S71 and S72 are the same as those in FIG. 7A, and therefore will not be described. If the estimated building type and the identified building type are different (No in S71), the building type determination unit 140 outputs a message prompting the operator to perform a manual operation (S75). The message may include address information. For example, the operator can visually determine the building type located at the address indicated by the address information in the message output in S75 using a map service or the like. If an instruction is given by the operator after the message is output (for example, the operator inputs a building type), the building type determination unit 140 determines the specified building type as the final building type (S76).

図6の説明に戻り、S64で最終的な建物タイプが決定されると、処理はS65へ進む。S65では、建物タイプ決定部140は、最終的な建物タイプを出力する。例えば、建物タイプ決定部140は、最終的な建物タイプを、外部装置(不図示)へ出力してもよい。 Returning to the explanation of FIG. 6, once the final building type is determined in S64, the process proceeds to S65. In S65, the building type determination unit 140 outputs the final building type. For example, the building type determination unit 140 may output the final building type to an external device (not shown).

このように、本実施形態によれば、自然言語処理モデルを用いて構成された、学習済みの学習モデルを用いて、テキストで構成された住所情報から、当該住所情報が示す住所に位置する建物の建物タイプを推定することができる。さらに、当該推定処理を補完するように、ルールベースで、当該住所情報報が示す住所に位置する建物の建物タイプを識別し、推定結果と識別結果とに基づいて、最終的な建物タイプを決定する。これにより、住所情報に基づいて決定される建物タイプの精度が高まり、これにより、当該建物タイプを利用したサービスに対する信頼性の向上が期待される。 In this way, according to this embodiment, the building type of the building located at the address indicated by the address information, which is composed of text, can be estimated from the address information using a trained learning model constructed using a natural language processing model. Furthermore, to complement the estimation process, the building type of the building located at the address indicated by the address information is identified on a rule-based basis, and the final building type is determined based on the estimation result and the identification result. This increases the accuracy of the building type determined based on the address information, which is expected to improve the reliability of services that use the building type.

なお、上記において識別の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。 Although an embodiment of the identification has been described above, this embodiment is merely an example and is not intended to limit the scope of the present invention. The apparatus and method described in this specification can be embodied in forms other than those described above. Furthermore, the above-described embodiments can be omitted, substituted, and modified as appropriate without departing from the scope of the present invention. Forms in which such omissions, substitutions, and modifications have been made are included within the scope of what is described in the claims and their equivalents, and belong to the technical scope of the present invention.

本実施形態の開示は以下の構成を含む。
[1]住所情報を取得する取得部と、前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定する推定部と、を有する、自然言語処理システム。
The disclosure of this embodiment includes the following configuration.
[1] A natural language processing system having an acquisition unit that acquires address information, and an estimation unit that estimates a building type of a building located at an address indicated by the address information by inputting the address information into a learning model that has been trained through machine learning.

[2]所定のルールを用いて、前記住所情報から、前記建物タイプを識別する識別部を更に有する、[1]に記載の自然言語処理システム。 [2] The natural language processing system described in [1], further comprising an identification unit that identifies the building type from the address information using predetermined rules.

[3]前記推定部により推定された前記建物タイプを示す第1の建物タイプと、前記識別部により識別された前記建物タイプを示す第2の建物タイプに基づいて、前記建物タイプを決定する決定部を更に有する、[2]に記載の自然言語処理システム。 [3] The natural language processing system described in [2], further comprising a determination unit that determines the building type based on a first building type indicating the building type estimated by the estimation unit and a second building type indicating the building type identified by the identification unit.

[4]前記第1の建物タイプと前記第2の建物タイプが同じ場合、前記決定部は、前記第1の建物タイプまたは前記第2の建物タイプを、前記建物タイプとして決定する、[3]に記載の自然言語処理システム。 [4] The natural language processing system described in [3], in which, when the first building type and the second building type are the same, the determination unit determines the first building type or the second building type as the building type.

[5]前記第1の建物タイプと前記第2の建物タイプが取りうる複数の建物タイプにはそれぞれ優先度が設定されており、前記第1の建物タイプと前記第2の建物タイプが異なる場合、前記決定部は、前記第1の建物タイプと前記第2の建物タイプのうち、前記優先度が高い建物タイプを、前記建物タイプとして決定する、[3]または[4]に記載の自然言語処理システム。 [5] A natural language processing system according to [3] or [4], in which a priority is set for each of the multiple building types that the first building type and the second building type can take, and when the first building type and the second building type are different, the determination unit determines, from the first building type and the second building type, the building type with the higher priority as the building type.

[6]前記第1の建物タイプと前記第2の建物タイプが異なる場合、前記決定部は、前記第2の建物タイプを、前記建物タイプとして決定する、[3]または[4]に記載の自然言語処理システム。 [6] The natural language processing system described in [3] or [4], in which, when the first building type and the second building type are different, the determination unit determines the second building type as the building type.

[7]前記第1の建物タイプと前記第2の建物タイプが異なる場合、前記決定部は、操作者による指示された建物タイプを、前記建物タイプとして決定する、[3]または[4]に記載の自然言語処理システム。 [7] The natural language processing system described in [3] or [4], in which, when the first building type and the second building type are different, the determination unit determines the building type specified by the operator as the building type.

[8]前記推定部は、前記住所情報と前記第2の建物タイプとを前記学習モデルに入力することにより、前記建物タイプを推定する、[3]から[7]のいずれかに記載の自然言語処理システム。 [8] A natural language processing system according to any one of [3] to [7], wherein the estimation unit estimates the building type by inputting the address information and the second building type into the learning model.

[9]前記住所情報が示す住所の位置情報を取得する位置情報取得部を更に有し、前記推定部は、前記住所情報と前記位置情報とを前記学習モデルに入力することにより、前記建物タイプを推定する、[3]から[8]のいずれかに記載の自然言語処理システム。 [9] A natural language processing system according to any one of [3] to [8], further comprising a location information acquisition unit that acquires location information of an address indicated by the address information, and the estimation unit estimates the building type by inputting the address information and the location information into the learning model.

[10]前記住所情報が示す住所が属する用途地域、当該住所の最寄り駅、および当該最寄り駅からの当該住所までの距離の少なくともいずれかを、エリア情報として取得するエリア情報取得部を更に有し、前記推定部は、前記住所情報と前記エリア情報とを前記学習モデルに入力することにより、前記建物タイプを推定する、[3]から[9]のいずれかに記載の自然言語処理システム。 [10] A natural language processing system according to any one of [3] to [9], further comprising an area information acquisition unit that acquires, as area information, at least one of the following: a land use district to which the address indicated by the address information belongs, the nearest train station to the address, and the distance from the nearest train station to the address; and the estimation unit estimates the building type by inputting the address information and the area information into the learning model.

[11]前記学習モデルは、自然言語処理モデルを用いて構成される、[1]から[10]のいずれかに記載の自然言語処理システム。 [11] The natural language processing system according to any one of [1] to [10], wherein the learning model is constructed using a natural language processing model.

[12]住所情報を取得することと、前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定すること、を含む、自然言語処理方法。 [12] A natural language processing method including acquiring address information, and inputting the address information into a learning model trained by machine learning, thereby estimating a building type of a building located at an address indicated by the address information.

[13]自然言語処理をコンピュータに実行させるための自然言語処理プログラムであって、該プログラムは、該コンピュータに、住所情報を取得する取得処理と、前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定する推定処理と、を含む処理を実行させるためのものである。 [13] A natural language processing program for causing a computer to execute natural language processing, the program causing the computer to execute processes including an acquisition process for acquiring address information, and an estimation process for estimating the building type of a building located at an address indicated by the address information by inputting the address information into a learning model that has been trained by machine learning.

10:自然言語処理システム、100:住所情報取得部、110:第1処理部、111:建物タイプ推定部、112:位置情報取得部、113:エリア情報取得部、114:学習モデル記憶部、115:建物タイプ推定モデル、120:第2処理部、121:建物タイプ識別部、122:ルール記憶部、123:建物タイプ識別ルール、130:学習処理部、131:学習データ取得部、132:学習部、133:学習データ記憶部、134:学習データ、140:建物タイプ決定部 10: Natural language processing system, 100: Address information acquisition unit, 110: First processing unit, 111: Building type estimation unit, 112: Location information acquisition unit, 113: Area information acquisition unit, 114: Learning model storage unit, 115: Building type estimation model, 120: Second processing unit, 121: Building type identification unit, 122: Rule storage unit, 123: Building type identification rule, 130: Learning processing unit, 131: Learning data acquisition unit, 132: Learning unit, 133: Learning data storage unit, 134: Learning data, 140: Building type determination unit

Claims (12)

住所情報を取得する取得部と、
前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定する推定部と、
を有し、
前記学習モデルはエンコーダと分類器から構成され、
前記推定部は、
前記住所情報を前記エンコーダに入力して、前記住所情報を複数のトークンに分割して各トークンの分散表現を生成し、
前記分散表現を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率を推定し、
前記確率に基づいて前記建物タイプを推定する、
自然言語処理システム。
An acquisition unit for acquiring address information;
an estimation unit that estimates a building type of a building located at an address indicated by the address information by inputting the address information into a learning model that has been trained by machine learning;
having
The learning model is composed of an encoder and a classifier,
The estimation unit is
inputting the address information into the encoder, splitting the address information into a plurality of tokens, and generating a distributed representation of each token;
The distributed representation is input to the classifier to estimate a probability that the distributed representation corresponds to each of a plurality of predefined building types;
estimating the building type based on the probability;
Natural language processing system.
参照住所情報が有する特徴に基づいて前記参照住所情報の建物タイプを識別するための、あらかじめ作成されている所定のルールを用いて、前記住所情報から、前記建物タイプを識別する識別部と、
前記推定部により推定された前記建物タイプを示す第1の建物タイプと、前記識別部により識別された前記建物タイプを示す第2の建物タイプに基づいて、前記建物タイプを決定する決定部を更に有する、
請求項に記載の自然言語処理システム。
an identification unit that identifies a building type from the address information by using a predetermined rule that is created in advance for identifying a building type of the reference address information based on a feature of the reference address information ;
a determination unit that determines the building type based on a first building type indicating the building type estimated by the estimation unit and a second building type indicating the building type identified by the identification unit,
The natural language processing system according to claim 1 .
前記第1の建物タイプと前記第2の建物タイプが同じ場合、前記決定部は、前記第1の建物タイプまたは前記第2の建物タイプを、前記建物タイプとして決定する、
請求項に記載の自然言語処理システム。
When the first building type and the second building type are the same, the determination unit determines the first building type or the second building type as the building type.
The natural language processing system according to claim 2 .
前記第1の建物タイプと前記第2の建物タイプが取りうる複数の建物タイプにはそれぞれ優先度が設定されており、
前記第1の建物タイプと前記第2の建物タイプが異なる場合、前記決定部は、前記第1の建物タイプと前記第2の建物タイプのうち、前記優先度が高い建物タイプを、前記建物タイプとして決定する、
請求項に記載の自然言語処理システム。
a priority is set for each of a plurality of building types that can be the first building type and the second building type;
When the first building type and the second building type are different, the determination unit determines, as the building type, a building type having a higher priority among the first building type and the second building type.
The natural language processing system according to claim 2 .
前記第1の建物タイプと前記第2の建物タイプが異なる場合、前記決定部は、前記第2の建物タイプを、前記建物タイプとして決定する、
請求項に記載の自然言語処理システム。
When the first building type and the second building type are different, the determination unit determines the second building type as the building type.
The natural language processing system according to claim 2 .
前記第1の建物タイプと前記第2の建物タイプが異なる場合、前記決定部は、操作者による指示された建物タイプを、前記建物タイプとして決定する、
請求項に記載の自然言語処理システム。
When the first building type and the second building type are different, the determination unit determines the building type designated by an operator as the building type.
The natural language processing system according to claim 2 .
前記推定部は、
前記分散表現と前記第2の建物タイプを前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率である第2確率を推定し、
前記第2確率に基づいて前記建物タイプを推定する、
請求項に記載の自然言語処理システム。
The estimation unit is
inputting the distributed representation and the second building type into the classifier to estimate a second probability that the building type corresponds to each of a plurality of preset building types;
estimating the building type based on the second probability ;
The natural language processing system according to claim 2 .
前記住所情報が示す住所の位置情報を取得する位置情報取得部を更に有し、
前記推定部は、
前記分散表現と前記位置情報を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率である第3確率を推定し、
前記第3確率に基づいて前記建物タイプを推定する、
請求項に記載の自然言語処理システム。
A location information acquisition unit that acquires location information of an address indicated by the address information,
The estimation unit is
inputting the distributed representation and the location information into the classifier to estimate a third probability that corresponds to each of a plurality of predefined building types;
estimating the building type based on the third probability ;
The natural language processing system according to claim 2 .
前記住所情報が示す住所が属する用途地域、当該住所の最寄り駅、および当該最寄り駅からの当該住所までの距離の少なくともいずれかを、エリア情報として取得するエリア情報取得部を更に有し、
前記推定部は、
前記分散表現と前記エリア情報を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率である第4確率を推定し、
前記第4確率に基づいて前記建物タイプを推定する、
請求項に記載の自然言語処理システム。
The method further includes an area information acquisition unit that acquires, as area information, at least one of a land use district to which the address indicated by the address information belongs, a nearest station to the address, and a distance from the nearest station to the address;
The estimation unit is
inputting the distributed representation and the area information into the classifier to estimate a fourth probability that the area corresponds to each of a plurality of predefined building types;
estimating the building type based on the fourth probability ;
The natural language processing system according to claim 2 .
前記学習モデルは、自然言語処理モデルを用いて構成される、
請求項1に記載の自然言語処理システム。
The learning model is configured using a natural language processing model.
The natural language processing system according to claim 1 .
情報処理装置によって実行される自然言語処理方法であって、
住所情報を取得することと、
前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定すること、
を含み、
前記学習モデルはエンコーダと分類器から構成され、
前記推定することは、
前記住所情報を前記エンコーダに入力して、前記住所情報を複数のトークンに分割して各トークンの分散表現を生成し、
前記分散表現を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率を推定し、
前記確率に基づいて前記建物タイプを推定することを含む、
自然言語処理方法。
A natural language processing method executed by an information processing device, comprising:
Obtaining address information;
inputting the address information into a learning model trained by machine learning to estimate a building type of a building located at an address indicated by the address information;
Including,
The learning model is composed of an encoder and a classifier,
The estimating step comprises:
inputting the address information into the encoder, splitting the address information into a plurality of tokens, and generating a distributed representation of each token;
The distributed representation is input to the classifier to estimate a probability that the distributed representation corresponds to each of a plurality of predefined building types;
estimating the building type based on the probability.
Natural language processing methods.
自然言語処理をコンピュータに実行させるための自然言語処理プログラムであって、該プログラムは、該コンピュータに、
住所情報を取得する取得処理と、
前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定する推定処理と、を含む処理を実行させるためのものであり、
前記学習モデルはエンコーダと分類器から構成され、
前記推定処理は、
前記住所情報を前記エンコーダに入力して、前記住所情報を複数のトークンに分割して各トークンの分散表現を生成し、
前記分散表現を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率を推定し、
前記確率に基づいて前記建物タイプを推定することを含む、
自然言語処理プログラム。
A natural language processing program for causing a computer to execute natural language processing, the program comprising:
An acquisition process for acquiring address information;
and an estimation process of estimating a building type of a building located at an address indicated by the address information by inputting the address information into a learning model that has been trained by machine learning ,
The learning model is composed of an encoder and a classifier,
The estimation process includes:
inputting the address information into the encoder, splitting the address information into a plurality of tokens, and generating a distributed representation of each token;
The distributed representation is input to the classifier to estimate a probability that the distributed representation corresponds to each of a plurality of predefined building types;
estimating the building type based on the probability.
Natural language processing program.
JP2023026001A 2023-02-22 2023-02-22 Natural language processing system, natural language processing method, and natural language processing program Active JP7583082B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023026001A JP7583082B2 (en) 2023-02-22 2023-02-22 Natural language processing system, natural language processing method, and natural language processing program
TW113100587A TWI890261B (en) 2023-02-22 2024-01-05 Natural language processing system, natural language processing method, and natural language processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023026001A JP7583082B2 (en) 2023-02-22 2023-02-22 Natural language processing system, natural language processing method, and natural language processing program

Publications (2)

Publication Number Publication Date
JP2024119239A JP2024119239A (en) 2024-09-03
JP7583082B2 true JP7583082B2 (en) 2024-11-13

Family

ID=92591335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023026001A Active JP7583082B2 (en) 2023-02-22 2023-02-22 Natural language processing system, natural language processing method, and natural language processing program

Country Status (2)

Country Link
JP (1) JP7583082B2 (en)
TW (1) TWI890261B (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157553A (en) 2000-09-11 2002-05-31 Fujitsu Ltd Address recognition device, recording medium, and program

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402533A (en) * 2010-09-13 2012-04-04 方正国际软件有限公司 Address matching method and system
CN111858937B (en) * 2016-12-14 2024-04-30 创新先进技术有限公司 A method and device for identifying false address information
CN109492103B (en) * 2018-11-09 2019-12-17 北京三快在线科技有限公司 Label information acquisition method and device, electronic equipment and computer readable medium
US11669794B2 (en) * 2020-04-06 2023-06-06 Johnson Controls Tyco IP Holdings LLP Building risk analysis system with geographic risk scoring
US11803748B2 (en) * 2020-05-29 2023-10-31 Sap Se Global address parser
CN112329467B (en) * 2020-11-03 2022-09-30 腾讯科技(深圳)有限公司 Address recognition method and device, electronic equipment and storage medium
CN112527938A (en) * 2020-12-17 2021-03-19 安徽迪科数金科技有限公司 Chinese POI matching method based on natural language understanding
CN113869052B (en) * 2021-09-26 2023-05-05 杭州中房信息科技有限公司 AI-based house address matching method, storage medium and equipment
CN114661920B (en) * 2022-03-30 2025-02-07 阿里巴巴(中国)有限公司 Address coding association method, business data analysis method and corresponding device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157553A (en) 2000-09-11 2002-05-31 Fujitsu Ltd Address recognition device, recording medium, and program

Also Published As

Publication number Publication date
TW202435115A (en) 2024-09-01
TWI890261B (en) 2025-07-11
JP2024119239A (en) 2024-09-03

Similar Documents

Publication Publication Date Title
US10055691B2 (en) Stream processing with dynamic event routing
EP3654211A1 (en) Automated response server device, terminal device, response system, response method, and program
CN114329244A (en) Map interest point query method, map interest point query device, map interest point query equipment, storage medium and program product
US11538467B1 (en) Calibrated noise for text modification
US20210209167A1 (en) Conversational Agents Over Domain Structured Knowledge
Patil et al. A voice based assistant using Google dialogflow and machine learning
KR102660276B1 (en) Apparatus for Job Performance Chatbot Service Using LLM and Driving Method Thereof
CN114418093B (en) Training path representation model, method and device for outputting information
US12141536B1 (en) Chatbot utterance routing in a provider network
US12189817B2 (en) Personal information redaction and voice deidentification
US11669767B2 (en) Automatic generation of an explanation, based on data lineage and user feedback, of a prediction produced by a machine learning system
CN116975267A (en) An information processing method, device and computer equipment, media and product
JP2019053386A (en) Information processing apparatus, information processing method, and program
US11586917B2 (en) Leveraging simple model predictions for enhancing computational performance
JP6806589B2 (en) Information judgment model learning device, information judgment device and their programs
JP7583082B2 (en) Natural language processing system, natural language processing method, and natural language processing program
CN114638308A (en) Method and device for acquiring object relationship, electronic equipment and storage medium
CN112131484B (en) A method, device, equipment and storage medium for establishing a multi-person session
TWI818669B (en) Computer-implemented method, computing device and non-transitory computer readable storage medium related to distributed computing for dynamic generation of optimal and interpretable prescriptive policies with interdependent constraints
US12327065B2 (en) Resolving conflicting commands using hierarchy
JP7642888B1 (en) Information processing device, information processing method, and information processing program
CN117290143A (en) Fault location method, system, electronic equipment and computer-readable storage medium
US12039273B2 (en) Feature vector generation for probabalistic matching
US20200329366A1 (en) Information control method, information control device, and storage medium
US20240232294A1 (en) Combining structured and semi-structured data for explainable ai

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241031

R150 Certificate of patent or registration of utility model

Ref document number: 7583082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150