JP7583082B2 - 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム - Google Patents
自然言語処理システム、自然言語処理方法、および自然言語処理プログラム Download PDFInfo
- Publication number
- JP7583082B2 JP7583082B2 JP2023026001A JP2023026001A JP7583082B2 JP 7583082 B2 JP7583082 B2 JP 7583082B2 JP 2023026001 A JP2023026001 A JP 2023026001A JP 2023026001 A JP2023026001 A JP 2023026001A JP 7583082 B2 JP7583082 B2 JP 7583082B2
- Authority
- JP
- Japan
- Prior art keywords
- building type
- building
- address information
- natural language
- language processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003058 natural language processing Methods 0.000 title claims description 55
- 238000000034 method Methods 0.000 title claims description 54
- 230000010365 information processing Effects 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 description 37
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000013316 zoning Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
図1に、本実施形態による自然言語処理(Natural Language Processing(NLP))システム10の構成例を示す。図1に示す自然言語処理システム10は、住所情報取得部100、第1処理部110、第2処理部120、学習処理部130、および建物タイプ決定部140を含んで構成される。
自然言語処理システム10は、1つ以上の情報処理装置を用いて構成される。図2は、本実施形態による情報処理装置20のハードウェア構成の一例を示すブロック図である。情報処理装置20は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図2を参照して、情報処理装置20は、単一のコンピュータに実装される例が示されているが、本実施形態による情報処理装置20は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
CPU21は、情報処理装置20における動作を統括的に制御するものであり、データ伝送路であるシステムバス28を介して、各構成部(22~27)を制御する。
RAM23は、揮発性メモリであり、CPU21の主メモリ、ワークエリア等として機能する。すなわち、CPU21は、処理の実行に際してROM22から必要なプログラム等をRAM23にロードし、当該プログラム等を実行することで各種の機能動作を実現する。図1に示す学習モデル記憶部114、ルール記憶部122、および学習データ記憶部133は、RAM23で構成されうる。
入力部25は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部26は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部26は、入力部25と組み合わせて構成されることにより、GUI(Graphical User Interface)として機能してもよい。
通信I/F27は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F27を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信I/F27は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、3GPP(Third Generation Partnership Project)(登録商標)で規定される4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
次に、建物タイプ推定モデル115、および建物タイプ推定モデル115を用いた推定手順について説明する。図3Aに、建物タイプ推定モデル115を用いた推定手順の一例を示す。図3Aに示す建物タイプ推定モデル115は、学習部132により、学習データ134に含まれる住所情報と建物タイプとを用いて、機械学習(Fine-tuningを含む)が実行された、学習済みの学習モデルである。図3Aに示すように、建物タイプ推定モデル115は、エンコーダ(エンコーダモデル)116と、分類器(分類モデル)117から構成される。エンコーダ116は、入力された住所情報(すなわち、テキスト情報)の各トークン(単語といった小さな単位)の分散表現(ベクトル表現、単語埋め込み(Word Embedding)等とも称される)を生成する。分類器117は、当該分散表現から、建物タイプ21を推定する。
分類器117は、エンコーダ116により生成された分散表現から、建物タイプを推定し、出力する。本実施形態では、分類器117は、当該分散表現から、「ビジネスビル」、「ユニットビル」、あるいは「家」それぞれに該当する確率(尤度、確からしさ)を推定(分類)する。そして、分類器117は、最も高い確率を有する建物タイプが、入力された住所情報が示す住所に位置する建物タイプと推定して、出力する。分類器117は、例えば、FFNN(Feed-Forward Neural Network)モデルで構成される。
次に、建物タイプ識別部121による、建物タイプ識別処理の手順について説明する。本実施形態では、建物タイプ識別部121は、ルール記憶部122に記憶されている建物タイプ識別ルール123に基づいて、建物タイプを識別する。具体的には、建物タイプ識別部121は、住所情報(すなわち、住所の文字列)を建物タイプ識別ルール123に適用することにより、建物タイプを識別する。
(1)住所情報が「株式会社」を含む場合、建物タイプは、「ビジネスビル」と識別される。
例:「大阪府ABC市D町1-2-3 株式会社abc内」は、「ビジネスビル」と識別される。
例:「東京都ABC区D町1-2-3 abcビル303」は「ユニットビル」と識別される。
例:「東京都ABC区D町1-2-3 abcビル5階」は、「ビジネスビル」と識別される。
例:「大阪府ABC市D町1-2-3 レジデンスabc 303号」は「ユニットビル」と識別される。
例:「埼玉県ABC市D町1-234-5」は「家」と識別される。
例:「神奈川県ABC町DE123-4」は「ユニットビル」と識別される。
例:「千葉県ABC市D町1234」は「家」と識別される。
例:「福岡県ABC市DE区FG1-2-3-303」は「ユニットビル」と識別される。
例:「神奈川県ABC市DE1-2-3 レジデンスabc 303」は「ユニットビル」と識別される。
また、建物タイプ識別部121は、上記ルールにおいて「×1-×2-×3-×4」は、「×1丁目×2番地×3号(建物の名称)×4」や「×1丁目×2-×3(建物の名称)×4」のような変形と同じ文字列として認識するように構成されうる。
図6に、本実施形態による自然言語処理システム10において実行される全体の処理のフローチャートを示す。なお、学習モデル記憶部114には、学習部132により機械学習が実行された、学習済みの建物タイプ推定モデル115が格納されているものとする。また、本例において、建物タイプは、「ビジネスビル」、「ユニットビル」、および「家」の3タイプを想定する。
建物タイプ推定部111は、S62で推定した建物タイプを、推定建物タイプとして、建物タイプ決定部140に出力する。
建物タイプ識別部121は、S63で識別した建物タイプを、識別建物タイプとして、建物タイプ決定部140に出力する。
[1]住所情報を取得する取得部と、前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定する推定部と、を有する、自然言語処理システム。
Claims (12)
- 住所情報を取得する取得部と、
前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定する推定部と、
を有し、
前記学習モデルはエンコーダと分類器から構成され、
前記推定部は、
前記住所情報を前記エンコーダに入力して、前記住所情報を複数のトークンに分割して各トークンの分散表現を生成し、
前記分散表現を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率を推定し、
前記確率に基づいて前記建物タイプを推定する、
自然言語処理システム。 - 参照住所情報が有する特徴に基づいて前記参照住所情報の建物タイプを識別するための、あらかじめ作成されている所定のルールを用いて、前記住所情報から、前記建物タイプを識別する識別部と、
前記推定部により推定された前記建物タイプを示す第1の建物タイプと、前記識別部により識別された前記建物タイプを示す第2の建物タイプに基づいて、前記建物タイプを決定する決定部を更に有する、
請求項1に記載の自然言語処理システム。 - 前記第1の建物タイプと前記第2の建物タイプが同じ場合、前記決定部は、前記第1の建物タイプまたは前記第2の建物タイプを、前記建物タイプとして決定する、
請求項2に記載の自然言語処理システム。 - 前記第1の建物タイプと前記第2の建物タイプが取りうる複数の建物タイプにはそれぞれ優先度が設定されており、
前記第1の建物タイプと前記第2の建物タイプが異なる場合、前記決定部は、前記第1の建物タイプと前記第2の建物タイプのうち、前記優先度が高い建物タイプを、前記建物タイプとして決定する、
請求項2に記載の自然言語処理システム。 - 前記第1の建物タイプと前記第2の建物タイプが異なる場合、前記決定部は、前記第2の建物タイプを、前記建物タイプとして決定する、
請求項2に記載の自然言語処理システム。 - 前記第1の建物タイプと前記第2の建物タイプが異なる場合、前記決定部は、操作者による指示された建物タイプを、前記建物タイプとして決定する、
請求項2に記載の自然言語処理システム。 - 前記推定部は、
前記分散表現と前記第2の建物タイプを前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率である第2確率を推定し、
前記第2確率に基づいて前記建物タイプを推定する、
請求項2に記載の自然言語処理システム。 - 前記住所情報が示す住所の位置情報を取得する位置情報取得部を更に有し、
前記推定部は、
前記分散表現と前記位置情報を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率である第3確率を推定し、
前記第3確率に基づいて前記建物タイプを推定する、
請求項2に記載の自然言語処理システム。 - 前記住所情報が示す住所が属する用途地域、当該住所の最寄り駅、および当該最寄り駅からの当該住所までの距離の少なくともいずれかを、エリア情報として取得するエリア情報取得部を更に有し、
前記推定部は、
前記分散表現と前記エリア情報を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率である第4確率を推定し、
前記第4確率に基づいて前記建物タイプを推定する、
請求項2に記載の自然言語処理システム。 - 前記学習モデルは、自然言語処理モデルを用いて構成される、
請求項1に記載の自然言語処理システム。 - 情報処理装置によって実行される自然言語処理方法であって、
住所情報を取得することと、
前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定すること、
を含み、
前記学習モデルはエンコーダと分類器から構成され、
前記推定することは、
前記住所情報を前記エンコーダに入力して、前記住所情報を複数のトークンに分割して各トークンの分散表現を生成し、
前記分散表現を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率を推定し、
前記確率に基づいて前記建物タイプを推定することを含む、
自然言語処理方法。 - 自然言語処理をコンピュータに実行させるための自然言語処理プログラムであって、該プログラムは、該コンピュータに、
住所情報を取得する取得処理と、
前記住所情報を、機械学習により学習済みの学習モデルに入力することにより、前記住所情報が示す住所に位置する建物の建物タイプを推定する推定処理と、を含む処理を実行させるためのものであり、
前記学習モデルはエンコーダと分類器から構成され、
前記推定処理は、
前記住所情報を前記エンコーダに入力して、前記住所情報を複数のトークンに分割して各トークンの分散表現を生成し、
前記分散表現を前記分類器に入力して、あらかじめ設定された複数の建物タイプのそれぞれに該当する確率を推定し、
前記確率に基づいて前記建物タイプを推定することを含む、
自然言語処理プログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023026001A JP7583082B2 (ja) | 2023-02-22 | 2023-02-22 | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム |
| TW113100587A TWI890261B (zh) | 2023-02-22 | 2024-01-05 | 自然語言處理系統、自然語言處理方法、及自然語言處理程式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023026001A JP7583082B2 (ja) | 2023-02-22 | 2023-02-22 | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024119239A JP2024119239A (ja) | 2024-09-03 |
| JP7583082B2 true JP7583082B2 (ja) | 2024-11-13 |
Family
ID=92591335
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023026001A Active JP7583082B2 (ja) | 2023-02-22 | 2023-02-22 | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7583082B2 (ja) |
| TW (1) | TWI890261B (ja) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002157553A (ja) | 2000-09-11 | 2002-05-31 | Fujitsu Ltd | 住所認識装置、記録媒体及びプログラム |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102402533A (zh) * | 2010-09-13 | 2012-04-04 | 方正国际软件有限公司 | 地址匹配方法及系统 |
| CN111858937B (zh) * | 2016-12-14 | 2024-04-30 | 创新先进技术有限公司 | 一种虚假地址信息识别的方法及装置 |
| CN109492103B (zh) * | 2018-11-09 | 2019-12-17 | 北京三快在线科技有限公司 | 标签信息获取方法、装置、电子设备及计算机可读介质 |
| US11669794B2 (en) * | 2020-04-06 | 2023-06-06 | Johnson Controls Tyco IP Holdings LLP | Building risk analysis system with geographic risk scoring |
| US11803748B2 (en) * | 2020-05-29 | 2023-10-31 | Sap Se | Global address parser |
| CN112329467B (zh) * | 2020-11-03 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
| CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
| CN113869052B (zh) * | 2021-09-26 | 2023-05-05 | 杭州中房信息科技有限公司 | 基于ai的房屋地址匹配方法、存储介质及设备 |
| CN114661920B (zh) * | 2022-03-30 | 2025-02-07 | 阿里巴巴(中国)有限公司 | 地址编码关联方法、业务数据分析方法及相应装置 |
-
2023
- 2023-02-22 JP JP2023026001A patent/JP7583082B2/ja active Active
-
2024
- 2024-01-05 TW TW113100587A patent/TWI890261B/zh active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002157553A (ja) | 2000-09-11 | 2002-05-31 | Fujitsu Ltd | 住所認識装置、記録媒体及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| TW202435115A (zh) | 2024-09-01 |
| TWI890261B (zh) | 2025-07-11 |
| JP2024119239A (ja) | 2024-09-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10055691B2 (en) | Stream processing with dynamic event routing | |
| EP3654211A1 (en) | Automated response server device, terminal device, response system, response method, and program | |
| CN114329244A (zh) | 地图兴趣点查询方法、装置、设备、存储介质及程序产品 | |
| US11538467B1 (en) | Calibrated noise for text modification | |
| US20210209167A1 (en) | Conversational Agents Over Domain Structured Knowledge | |
| Patil et al. | A voice based assistant using Google dialogflow and machine learning | |
| KR102660276B1 (ko) | 거대언어모델을 활용한 업무수행 챗봇 서비스장치 및 그 장치의 구동방법 | |
| CN114418093B (zh) | 训练路径表征模型、输出信息的方法和装置 | |
| US12141536B1 (en) | Chatbot utterance routing in a provider network | |
| US12189817B2 (en) | Personal information redaction and voice deidentification | |
| US11669767B2 (en) | Automatic generation of an explanation, based on data lineage and user feedback, of a prediction produced by a machine learning system | |
| CN116975267A (zh) | 一种信息处理方法、装置及计算机设备、介质、产品 | |
| JP2019053386A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| US11586917B2 (en) | Leveraging simple model predictions for enhancing computational performance | |
| JP6806589B2 (ja) | 情報判定モデル学習装置、情報判定装置およびそれらのプログラム | |
| JP7583082B2 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
| CN114638308A (zh) | 一种获取对象关系的方法、装置、电子设备和存储介质 | |
| CN112131484B (zh) | 一种多人会话建立方法、装置、设备和存储介质 | |
| TWI818669B (zh) | 相關於用於動態產生具有相互依賴約束之最佳及可解釋診治性政策之分散式運算之電腦實施方法、運算裝置及非暫時性電腦可讀儲存媒體 | |
| US12327065B2 (en) | Resolving conflicting commands using hierarchy | |
| JP7642888B1 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
| CN117290143A (zh) | 故障定位方法、系统、电子设备及计算机可读存储介质 | |
| US12039273B2 (en) | Feature vector generation for probabalistic matching | |
| US20200329366A1 (en) | Information control method, information control device, and storage medium | |
| US20240232294A1 (en) | Combining structured and semi-structured data for explainable ai |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230222 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240507 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240708 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241029 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241031 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7583082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |