Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6957388B2 - Business term discrimination device and business term discrimination method - Google Patents
[go: Go Back, main page]

JP6957388B2 - Business term discrimination device and business term discrimination method - Google Patents

Business term discrimination device and business term discrimination method Download PDF

Info

Publication number
JP6957388B2
JP6957388B2 JP2018039971A JP2018039971A JP6957388B2 JP 6957388 B2 JP6957388 B2 JP 6957388B2 JP 2018039971 A JP2018039971 A JP 2018039971A JP 2018039971 A JP2018039971 A JP 2018039971A JP 6957388 B2 JP6957388 B2 JP 6957388B2
Authority
JP
Japan
Prior art keywords
business
term
document
compound word
business term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2018039971A
Other languages
Japanese (ja)
Other versions
JP2019153234A (en
Inventor
敬志 大島
浩也 小澤
浩史 冨田
章裕 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018039971A priority Critical patent/JP6957388B2/en
Publication of JP2019153234A publication Critical patent/JP2019153234A/en
Application granted granted Critical
Publication of JP6957388B2 publication Critical patent/JP6957388B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、業務用語判別装置、及び業務用語判別方法に関する。 The present invention relates to a business term discriminating device and a business term discriminating method.

大規模なシステム開発では、顧客や開発者等の多種多様な関係者が関与しているため、各関係者の各業務、各工程、及び所属ごとに、使用される用語の意味が異なっているのが通常である。このため、開発工程や関係者間のコミュニケーションに多大なコストがかかっている。このような現状を改善するための方法の一つとして、システム開発業務に関わる顧客や開発者の間で共通して理解され使用されている専門用語、すなわち業務用語についての用語集を作成することが考えられるが、その作成には時間がかかり、かつ継続的にメンテナンスする必要があるため、うまく利用できていないのが現状である。 In large-scale system development, a wide variety of related parties such as customers and developers are involved, so the meanings of the terms used are different for each business, process, and affiliation of each related party. Is normal. For this reason, a great deal of cost is required for the development process and communication between related parties. One way to improve this situation is to create a glossary of technical terms that are commonly understood and used by customers and developers involved in system development work, that is, business terms. However, the current situation is that it has not been used well because it takes time to create it and requires continuous maintenance.

この点、種々の専門用語に関して、既存の文書や設計書に固有な用語を抽出する方法が提案されている。例えば、特許文献1には、入力文書の語の単位と品詞とを認定する形態素解析手段と、形態素解析部による解析結果から前記入力文書中の複合語を抽出する複合語抽出手段と、抽出された複合語の構成語の頻度と単語結合数とから専門用語特徴語基を抽出する専門用語特徴語基抽出手段と、抽出された専門用語特徴語基を有する複合語を固有名詞として抽出する専門用語抽出手段とを用いて専門用語の候補を抽出することが記載されている。 In this regard, with respect to various technical terms, a method of extracting terms specific to existing documents and design documents has been proposed. For example, Patent Document 1 extracts a morphological analysis means for recognizing a word unit and a part of an input document, and a compound word extraction means for extracting a compound word in the input document from an analysis result by the morphological analysis unit. Specialized word feature extraction means for extracting technical term feature word bases from the frequency of constituent words of compound words and the number of word combinations, and specialty for extracting compound words with extracted technical term feature word bases as proper nomenclature. It is described that candidates for technical terms are extracted using a term extraction means.

また、特許文献2には、入力文書の形態素解析及び構文解析を行なうことにより、入力文書の文節の係り受け情報と名詞または名詞句である文字列を用語データとして抽出する用語データ抽出手段と、係り受け情報と用語データを言い換える特定の言い換え表現とに基づいて、用語データの上位概念を示す概念データを抽出する概念データ抽出手段と、係り受け情報と学習データとに基づいて、用語データに係る連体修飾節が用語データの定義であるか否かを判断し、定義であると判断した連体修飾節を修飾データとして抽出する修飾データ抽出手段と、修飾データに概念データを連結することにより、用語データを定義する解説データを生成する解説データ生成手段とにより専門用語の候補と専門用語の解説データを生成することが記載されている。 Further, Patent Document 2 includes a term data extraction means for extracting dependency information of a clause of an input document and a character string which is a nomenclature or a nomenclature phrase as term data by performing morphological analysis and syntactic analysis of the input document. Paraphrasing the dependency information and the term data Based on the concept data extraction means for extracting the conceptual data indicating the superordinate concept of the term data based on the specific paraphrase expression, and the term data based on the dependency information and the learning data. The term is used by concatenating the modification data with the modification data extraction means that determines whether or not the association modification clause is the definition of the term data and extracts the association modification clause determined to be the definition as the modification data. It is described that the candidate of the technical term and the commentary data of the technical term are generated by the commentary data generation means for generating the commentary data that defines the data.

また、特許文献3には、概ね1人の著者により記述された部分に分割された文書に含まれる複合語のうち、文書に固有な用語に関する用語集に未登録の複合語を抽出する未登録語抽出手段と、抽出した未登録の複合語のうちで、用語集に登録済みの専門用語と文字列又は意味が類似し、かつ部分における出現分布が登録済みの専門用語と類似しない専門用語を表記揺れの語であると判定する表記揺れ判定手段と、表記揺れと判定されなかった未登録の複合語を専門用語の候補として抽出する用語候補抽出手段とにより、文書に固有の用語を含む文書から抽出した複合語において、類似する2つの語が、互いに異なる意味を有する専門用語であるのか、あるいは一方の語が専門用語で他方の語が専門用語の表記揺れの語であるのかを判別することが記載されている。 Further, in Patent Document 3, among the compound words included in the document divided into the parts described by one author, unregistered compound words that are not registered in the glossary of terms specific to the document are extracted. Among the unregistered compound words extracted by the word extraction means, the technical terms whose character strings or meanings are similar to the technical terms registered in the glossary and whose appearance distribution in the part is not similar to the registered technical terms are selected. A document containing terms unique to a document by means for determining notational fluctuations that are determined to be notational fluctuations and terminology candidate extraction means for extracting unregistered compound words that are not determined to be notational fluctuations as candidates for technical terms. In the compound word extracted from, it is determined whether two similar words are technical terms having different meanings from each other, or whether one word is a technical term and the other word is a jargon of the technical term. It is stated that.

特開平3−116374号公報Japanese Unexamined Patent Publication No. 3-116374 特開2003−99429号公報Japanese Unexamined Patent Publication No. 2003-99429 特開2016−38596号公報Japanese Unexamined Patent Publication No. 2016-38596

特許文献1では、構成語の統計情報や意味情報から専門用語特徴基の候補を抽出し、専門用語特徴基を含む用語を専門用語として抽出している。しかし、業務用語は必ずしも特定の専門用語特徴基を含むわけではなく、また、特定の専門用語特徴基を含む用語が必ず業務用語となるわけではないため、抽出した専門用語が業務用語とならない可能性は少なくない。また、特許文献2では、係り受け情報と用語データを言い換える特定の言い換え表現とを文書から抽出することにより、専門用語を特定している。しかし、システム開発における文書では、業務用語がその定義が解説されることなく使われていることが多いので、このような場合は、特許文献2では業務用語を正しく抽出することは難しい。また、特許文献3は文書の作成者に着目することにより、複合語が用語集に未登録である原因が表記揺れによるものであるかを判定しているが、その複合語が業務上の用語であるかどうかを判定することはできない。このように、いずれの特許文献でも、業務用語を適切に判別できるような構成にはなっていない。 In Patent Document 1, candidates for technical term feature groups are extracted from statistical information and semantic information of constituent words, and terms including technical term feature groups are extracted as technical terms. However, the business term does not necessarily include a specific technical term feature group, and the term including the specific technical term feature group does not always become a business term, so the extracted technical term may not be a business term. Not a few sexes. Further, in Patent Document 2, technical terms are specified by extracting dependency information and specific paraphrase expressions that paraphrase term data from a document. However, in documents in system development, business terms are often used without explaining their definitions. In such a case, it is difficult to correctly extract business terms in Patent Document 2. Further, in Patent Document 3, by paying attention to the creator of the document, it is determined whether the cause of the compound word not being registered in the glossary is due to the notational fluctuation, and the compound word is a business term. It cannot be determined whether or not. As described above, none of the patent documents has a structure capable of appropriately discriminating business terms.

本発明はこのような現状に鑑みてなされたものであり、その目的は、各文書に存在する業務用語を、その使用態様に応じて正しく判別することにある。 The present invention has been made in view of such a current situation, and an object of the present invention is to correctly discriminate business terms existing in each document according to a mode of use thereof.

以上の課題を解決するための本発明の一つは、複数の文書から複合語を抽出する複合語抽出部と、業務に係る前記文書における前記抽出した複合語の出現頻度が、それ以外の前記文書における前記抽出した複合語の出現頻度より高い場合に、前記抽出した複合語を業務用語として抽出する業務用語抽出部と、前記業務用語である複合語の前記文書における出現頻度を表すパラメータの値を当該文書の属性ごとに算出し、所定の閾値より高い前記パラメータの値を有する属性がある場合には、前記業務用語である複合語が特殊な業務用語であると判定し、前記所定の閾値より高い前記パラメータの値を有する属性がない場合には、前記業務用語である複合語が汎用的な業務用語であると判定する特殊業務用語判別部と、前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれかであるかを判別した結果の情報を出力する出力部と、を備える業務用語判別装置、とする。
また、以上の課題を解決するための本発明の他の一つは、業務用語判別装置が、複数の文書から複合語を抽出する複合語抽出処理と、業務に係る前記文書における前記抽出した複合語の出現頻度が、それ以外の前記文書における前記抽出した複合語の出現頻度より高い場合に、前記抽出した複合語を業務用語として抽出する業務用語抽出処理と、前記業務用語である複合語の前記文書における出現頻度を表すパラメータの値を当該文書の属性ごとに算出し、所定の閾値より高い前記パラメータの値を有する属性がある場合には、前記業務用語である複合語が特殊な業務用語であると判定し、前記所定の閾値より高い前記パラメータの値を有する属性がない場合には、前記業務用語である複合語が汎用的な業務用語であると判定する特殊業務用語判別処理と、前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれかであるかを判別した結果の情報を出力する出力処理と、を実行する業務用語判別方法、とする。
One of the present inventions for solving the above problems is a compound word extraction unit that extracts compound words from a plurality of documents, and the frequency of appearance of the extracted compound words in the document related to business is other than that. A business term extraction unit that extracts the extracted compound word as a business term when the frequency of occurrence of the extracted compound word in the document is higher, and a value of a parameter indicating the frequency of occurrence of the compound word that is the business term in the document. Is calculated for each attribute of the document, and if there is an attribute having the value of the parameter higher than the predetermined threshold, it is determined that the compound word which is the business term is a special business term , and the predetermined threshold is determined. When there is no attribute having a higher value of the parameter, the special business term discriminating unit that determines that the compound word that is the business term is a general-purpose business term, and the compound word that is the business term are special. business terms determination apparatus and an output unit for outputting the business terms or generic results of the information is determined either der Luke business terms, and that.
Further, another one of the present invention for solving the above problems is a compound word extraction process in which the business term discriminating device extracts a compound word from a plurality of documents, and the extracted compound in the document related to the business. When the frequency of appearance of words is higher than the frequency of appearance of the extracted compound words in other documents, the business term extraction process for extracting the extracted compound words as business terms and the compound words that are the business terms The value of the parameter representing the frequency of appearance in the document is calculated for each attribute of the document, and when there is an attribute having the value of the parameter higher than a predetermined threshold, the compound word which is the business term is a special business term. When there is no attribute having the value of the parameter higher than the predetermined threshold value, the compound word which is the business term is determined to be a general-purpose business term. It is a business term discrimination method for executing an output process for outputting information as a result of discriminating whether the compound term which is the business term is either a special business term or a general-purpose business term.

本発明によれば、各文書に存在する業務用語を、その使用態様に応じて正しく判別することが可能となる。 According to the present invention, it is possible to correctly discriminate business terms existing in each document according to the mode of use thereof.

本実施形態に係る業務用語判別装置の構成の一例を示す図である。It is a figure which shows an example of the structure of the business term discriminating apparatus which concerns on this embodiment. 本実施形態における業務文書属性情報の一例を示す図である。It is a figure which shows an example of the business document attribute information in this embodiment. 本実施形態における業務用語判別処理を説明するフローチャートである。It is a flowchart explaining the business term discrimination process in this embodiment. 本実施形態における属性別頻度情報の一例を示す図である。It is a figure which shows an example of the frequency information by attribute in this embodiment. 本実施形態における一般用語判定処理の一例を示すフローチャートである。It is a flowchart which shows an example of the general term determination process in this embodiment. 本実施形態における業務用語判定処理の一例を説明するフローチャートである。It is a flowchart explaining an example of the business term determination processing in this embodiment. 本実施形態における業務用語一覧の一例を示す図である。It is a figure which shows an example of the business term list in this embodiment.

以下、図面を参照しつつ本実施形態に係る業務用語判別装置について説明する。本実施形態の業務用語判別装置は、多数の業務文書及びその他の各種文書を用いて行われる業務(例えば、顧客や開発者等、多数の当事者が関わる大規模なシステム開発業務。以下、本件業務という。)において、これらの文書から複合語(後述)を抽出すると共に、その複合語が、特定の業務に特化することなく一般的又は日常的に用いられる用語(以下、一般用語という)なのか、本件業務に関わる当事者に共通して用いられる汎用的な業務用語(以下、汎用業務用語という)なのか、本件業務における特定の属性の者のみ(例えば、特定の部門に属する者のみ)に用いられる用語(以下、特殊業務用語という)なのかを判別する装置である。 Hereinafter, the business term discriminating device according to the present embodiment will be described with reference to the drawings. The business term discriminating device of the present embodiment is a business performed using a large number of business documents and various other documents (for example, a large-scale system development business involving a large number of parties such as customers and developers. Hereinafter, the business. In (), compound words (described later) are extracted from these documents, and the compound words are general or everyday terms (hereinafter referred to as general terms) without specializing in a specific business. Is it a general-purpose business term commonly used by the parties involved in the Business (hereinafter referred to as the general-purpose business term), or only for persons with specific attributes in the Business (for example, only those who belong to a specific department). It is a device that determines whether the term is used (hereinafter referred to as a special business term).

<業務用語判別装置の構成>
図1は、本実施形態に係る業務用語判別装置の構成の一例を示す図である。同図に示すように、業務用語判別装置1は、CPU(Central Processing Unit)などのプロセッサ
10と、RAM(Random Access Memory)、ROM(Read Only Memory)とのメモリ11と、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶装置12と、キーボード、マウス、タッチパネルなどからなる入力装置13と、モニタ(ディスプレイ)などからなる出力装置14と、他の装置と通信を行う通信装置15とを備え、これらは内部バス等により接続される。
<Configuration of business term discrimination device>
FIG. 1 is a diagram showing an example of the configuration of the business term discriminating device according to the present embodiment. As shown in the figure, the business term discriminating device 1 includes a processor 10 such as a CPU (Central Processing Unit), a memory 11 of a RAM (Random Access Memory) and a ROM (Read Only Memory), and an HDD (Hard Disk Drive). ), SSD (Solid State Drive) and other storage devices 12, an input device 13 consisting of a keyboard, mouse, touch panel, etc., an output device 14 consisting of a monitor (display), etc., and a communication device 15 that communicates with other devices. These are connected by an internal bus or the like.

また、業務用語判別装置1は、複合語抽出部101、業務用語抽出部107、及び業務用語判定部105の各機能を有する。また、業務用語判別装置1は複数の文書を記憶しており、具体的には、本件業務に関する少なくとも1つ以上の業務文書(例えば、特定の業務に特化して使用されたり、又はその内部の部門等によって使い方が異なる用語に基づき記述された文書)が格納された情報である業務文書情報111と、それ以外の少なくとも1つ以上の文書(例えば、特定の業務に特化した文章ではなく、主に一般的な用語に基づき記述された文書)が格納された情報である一般文書情報112とを記憶している。 Further, the business term determination device 1 has the functions of the compound word extraction unit 101, the business term extraction unit 107, and the business term determination unit 105. Further, the business term discriminating device 1 stores a plurality of documents, and specifically, at least one or more business documents related to the business (for example, used specifically for a specific business or inside the business document 1). Business document information 111, which is information in which documents described based on terms that are used differently depending on the department, etc., and at least one or more other documents (for example, not sentences specific to a specific business) It stores general document information 112, which is information in which documents (documents mainly described based on general terms) are stored.

また、業務用語判別装置1は、業務文書属性情報113、属性別頻度情報114、及び業務用語一覧115のそれぞれの情報を記憶している。このうち業務文書属性情報113は、業務文書情報111及び一般文書情報112における各文書の属性の情報(例えば、その文書が対象としている業務の種類、又は、その文書が作成され又は管理される部門又は部署の情報。以下、属性情報という。)を含んでいる。属性別頻度情報114及び業務用語一覧115については後述する。 Further, the business term discriminating device 1 stores the respective information of the business document attribute information 113, the attribute-specific frequency information 114, and the business term list 115. Of these, the business document attribute information 113 is information on the attributes of each document in the business document information 111 and the general document information 112 (for example, the type of business targeted by the document, or the department in which the document is created or managed. Or department information. Hereinafter referred to as attribute information) is included. The frequency information 114 by attribute and the business term list 115 will be described later.

ここで、業務文書属性情報113の詳細を説明する。
(業務文書属性情報113)
図2は、業務文書属性情報113の一例を示す図である。業務文書属性情報113は、各文書(業務文書又は一般文書)を特定する情報が格納される文書名1131、文書名1131の文書が対象とする業務の種類(対象業務)を特定する情報が格納される対象業務1132、及び、文書名1131の文書が作成され又は管理される部門(作成部門)を特定する情報が格納される作成部門1133の各項目を有する情報である。同図の例では、「文書01」の文書に係る業務は「業務G1」であり、「文書01」の文書の作成部門は「部門A1」である。なお、本実施形態では、対象業務1132及び対象業務1132が属性情報に対応するが、他の属性情報として、文書の作成者や作成日時等の情報を用いてもよい。
Here, the details of the business document attribute information 113 will be described.
(Business document attribute information 113)
FIG. 2 is a diagram showing an example of business document attribute information 113. The business document attribute information 113 stores information that specifies the type of business (target business) targeted by the document with the document name 1131 and the document name 1131 in which the information that identifies each document (business document or general document) is stored. This is information having each item of the target business 1132 to be performed and the creation department 1133 in which information for specifying the department (creation department) in which the document with the document name 1131 is created or managed is stored. In the example of the figure, the business related to the document of "Document 01" is "Business G1", and the document creation department of "Document 01" is "Department A1". In the present embodiment, the target business 1132 and the target business 1132 correspond to the attribute information, but information such as the creator of the document and the creation date and time may be used as other attribute information.

次に、業務用語判別装置1の各機能の詳細を説明する。
まず、図1に示す複合語抽出部101は、各文書から複合語を抽出する。具体的には、複合語抽出部101は、業務文書及び一般文書から複合語を抽出する。なお、本実施形態で複合語とは、複数の語根(形態素)によって構成される語をいうものとする。
Next, the details of each function of the business term discriminating device 1 will be described.
First, the compound word extraction unit 101 shown in FIG. 1 extracts compound words from each document. Specifically, the compound word extraction unit 101 extracts compound words from business documents and general documents. In this embodiment, the compound word means a word composed of a plurality of roots (morphemes).

業務用語抽出部107は、複合語抽出部101が抽出した複合語の、各文書における出現の態様を特定することにより、業務用語である複合語を抽出する。例えば、業務用語抽出部107は、業務に係る文書(業務文書)における前記の抽出した複合語の頻度が、それ以外の文書(一般文書)における前記の抽出した複合語の頻度より高い場合に、前記の抽出した複合語を業務用語であるとして抽出する。また、業務用語抽出部107は、業務に係る文書(業務文書)における前記の抽出した複合語の出現の位置及び回数が、それ以外の前記文書(一般文書)における前記の抽出した複合語の出現の位置及び回数と異なると判定した場合に、前記の抽出した複合語を業務用語であるとして抽出する。 The business term extraction unit 107 extracts a compound word that is a business term by specifying the mode of appearance of the compound word extracted by the compound word extraction unit 101 in each document. For example, when the frequency of the extracted compound words in the business-related document (business document) is higher than the frequency of the extracted compound words in other documents (general documents), the business term extraction unit 107 may use the business term extraction unit 107. The above-extracted compound word is extracted as a business term. Further, in the business term extraction unit 107, the position and the number of appearances of the extracted compound words in the document (business document) related to the business are the appearances of the extracted compound words in the other documents (general documents). When it is determined that the position and the number of times are different from the above-mentioned compound words, the above-extracted compound words are extracted as business terms.

具体的には、業務用語抽出部107は、文書属性別頻度分析部102、用語使用方法分析部103、及び一般用語判定部104を有する。文書属性別頻度分析部102は、文書の属性に基づき複合語の出現頻度を分析する。用語使用方法分析部103は、各文書間で複合語の使い方が異なっているか否かを分析する。一般用語判定部104は、業務文書及び一般文書における複合語の出現頻度及びその複合語の使い方に基づき、その複合語が一般用語であるかを判定する。この判定結果は、属性別頻度情報114に格納される。 Specifically, the business term extraction unit 107 includes a document attribute-based frequency analysis unit 102, a term usage method analysis unit 103, and a general term determination unit 104. The document attribute frequency analysis unit 102 analyzes the frequency of occurrence of compound words based on the document attributes. The term usage analysis unit 103 analyzes whether or not the usage of compound words is different between each document. The general term determination unit 104 determines whether or not the compound word is a general term based on the frequency of appearance of the compound word in the business document and the general document and the usage of the compound word. This determination result is stored in the frequency information 114 for each attribute.

次に、業務用語判定部105は、業務用語である複合語が、汎用業務用語又は特殊業務用語のいずれかであるかと判定する。具体的には、業務用語判定部105は、特殊業務用語判別部108及び出力部109を有する。 Next, the business term determination unit 105 determines whether the compound word, which is a business term, is either a general-purpose business term or a special business term. Specifically, the business term determination unit 105 has a special business term determination unit 108 and an output unit 109.

特殊業務用語判別部108は、文書の属性としての業務の種類又は当該業務における部門ごとに複合語の分布を特定することにより、業務用語である複合語が特殊業務用語又は汎用業務用語のいずれかであるかを判別する。これらの判別結果は、業務用語一覧115に格納される。 The special business term discriminating unit 108 specifies the distribution of compound words for each type of business as an attribute of a document or for each department in the business, so that the compound word as a business term is either a special business term or a general-purpose business term. Is determined. These determination results are stored in the business term list 115.

出力部109は、業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれかであるかを判別した結果の情報を出力する。 The output unit 109 outputs information as a result of determining whether the compound word which is a business term is either a special business term or a general-purpose business term.

以上に説明した業務用語判別装置1の機能は、業務用語判別装置1のハードウェアによって、もしくは、業務用語判別装置1のプロセッサ10が、記憶装置12(又はメモリ11)に記憶されている各プログラムを読み出して実行することにより実現される。また、これらのプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、SSDなどの記憶デバイス、又は、ICカード、SDカード、DVDなどの、計算機で読み取り可能な非一時的データ記憶媒体に格納される。 The functions of the business term discriminating device 1 described above are the programs stored in the storage device 12 (or the memory 11) by the hardware of the business term discriminating device 1 or by the processor 10 of the business term discriminating device 1. It is realized by reading and executing. In addition, these programs are, for example, a secondary storage device, a non-volatile semiconductor memory, a hard disk drive, a storage device such as an SSD, or a non-temporary data storage that can be read by a computer such as an IC card, an SD card, or a DVD. Stored in the medium.

次に、業務用語判別装置1が行う処理について説明する。
<業務用語判別装置の処理>
図3は、業務用語判別装置1が行う処理のうち、業務文書及び一般文書から複合語を抽出し、これらの複合語が一般用語、汎用業務用語、又は特殊業務用語のいずれであるかを判別してその結果を出力する処理(以下、業務用語判別処理という)を説明するフローチャートである。なお、この処理は、例えば、ユーザにより入力装置13に所定の入力がされた場合に開始される。
Next, the processing performed by the business term discriminating device 1 will be described.
<Processing of business term discriminator>
FIG. 3 shows, among the processes performed by the business term discriminating device 1, compound words are extracted from business documents and general documents, and it is determined whether these compound words are general terms, general-purpose business terms, or special business terms. It is a flowchart explaining the process (hereinafter, referred to as a business term discrimination process) which outputs the result. Note that this process is started, for example, when a predetermined input is input to the input device 13 by the user.

まず、業務用語判別装置1の複合語抽出部101は、業務文書情報111及び一般文書情報112に格納されている各文書から、複合語を抽出する(S1)。具体的には、例えば、複合語抽出部101は、各文書の文章から、形態素解析を行うことにより形態素を抽出し、抽出した形態素に基づき、所定の品詞の並びを有する語(複合語)を特定する。なお、形態素解析とは、意味を持つ最小の単位である形態素を文章から抽出する手法である。品詞の並びとは、助詞等を挟まずに互いに隣り合う複数の名詞を意味する。また、抽出した形態素には文字及び品詞の情報が含まれる。例えば、「業務文書に形態素解析を適用する」という文章がある場合、複合語抽出部101は形態素解析により、「業務」、「文書」、「形態素」、「解析」、及び「適用」等の各形態素を抽出し、このうち複数の名詞の並びとなっている「業務文書」及び「形態素解析」を複合語として抽出する。 First, the compound word extraction unit 101 of the business term discriminating device 1 extracts compound words from each document stored in the business document information 111 and the general document information 112 (S1). Specifically, for example, the compound word extraction unit 101 extracts morphemes from the text of each document by performing morphological analysis, and based on the extracted morphemes, a word (compound word) having a predetermined sequence of part of speech is extracted. Identify. The morphological analysis is a method of extracting a morpheme, which is the smallest meaningful unit, from a sentence. The sequence of part of speech means a plurality of nouns that are adjacent to each other without interposing particles and the like. In addition, the extracted morpheme contains information on characters and part of speech. For example, when there is a sentence "applying morphological analysis to a business document", the compound word extraction unit 101 uses morphological analysis to perform "business", "document", "morpheme", "analysis", "apply", etc. Each morpheme is extracted, and among them, "business document" and "morpheme analysis", which are a sequence of a plurality of nomenclatures, are extracted as compound words.

次に、文書属性別頻度分析部102は、後述するS3及びS4の処理のために、S1で抽出した複合語のそれぞれの、各文書(業務文書又は一般文書)中における出現頻度を算出する(S2)。そして、文書属性別頻度分析部102は、各複合語と、その複合語が存在する文書と、その文書の属性情報とを対応づけて記憶する。 Next, the document attribute-based frequency analysis unit 102 calculates the frequency of occurrence of each of the compound words extracted in S1 in each document (business document or general document) for the processing of S3 and S4 described later (). S2). Then, the document attribute-based frequency analysis unit 102 stores each compound word, the document in which the compound word exists, and the attribute information of the document in association with each other.

具体的には、例えば、文書属性別頻度分析部102は、S1で抽出した複合語の一つを選択し、選択した複合語が文書名1131に記録されている業務文書属性情報113のレコードを全て特定し、それらのレコードの文書名1131が示す文書(以下、この段で対応文書という。業務文書の場合と一般文書の場合とがある。)中に存在するその複合語の出現回数を計算すると共に、それらのレコードの対象業務1132及び作成部門1133を参照することにより対応文書の属性を特定する。これらの処理を、S1で抽出した複合語の全てについて繰り返す。そして、文書属性別頻度分析部102は、計算した出現回数を出現頻度に変換する。出現頻度の計算は、例えば、一文書あたりに出現する複合語の平均回数を出現頻度としてもよいし、各文書に出現する複合語の回数や一定の文字数あたりに出現する複合語の平均回数を出現頻度としてもよい。文書属性別頻度分析部102は、これらの情報を属性別頻度情報114に格納する。 Specifically, for example, the document attribute-based frequency analysis unit 102 selects one of the compound words extracted in S1 and records the business document attribute information 113 in which the selected compound word is recorded in the document name 1131. All are specified, and the number of occurrences of the compound word existing in the document indicated by the document name 1131 of those records (hereinafter, referred to as a corresponding document at this stage. There are a case of a business document and a case of a general document) is calculated. At the same time, the attributes of the corresponding documents are specified by referring to the target business 1132 and the creation department 1133 of those records. These processes are repeated for all the compound words extracted in S1. Then, the document attribute-based frequency analysis unit 102 converts the calculated number of occurrences into the appearance frequency. In the calculation of the frequency of occurrence, for example, the average number of compound words appearing in one document may be used as the frequency of occurrence, or the number of compound words appearing in each document or the average number of compound words appearing per fixed number of characters may be used as the frequency of occurrence. It may be the frequency of appearance. The document attribute-based frequency analysis unit 102 stores this information in the attribute-based frequency information 114.

ここで、属性別頻度情報114について説明する。
(属性別頻度情報114)
図4は、属性別頻度情報114の一例を示す図である。属性別頻度情報114は、属性情報としての対象業務を特定する情報である対象業務1141、属性情報としての作成部門を特定する情報である作成部門1142、及び、対象業務1141の対象業務及び作成部門1142の作成部門に対応づけられている複合語のリストである複合語1143の各項目を有する情報である。同図では、属性情報として対象業務と作成部門が用いられ、複合語は「複合語W1」、「複合語W2」、「複合語W3」、「複合語W4」の4つである。そして、「業務G1」の対象業務、及び「部門A1」の作成部門に対応する「複合語W1」の出現頻度は0.2である。また、複合語が一般文書に出現している場合は、対象業
務1141及び作成部門1142には属性情報が格納されず、代わりに一般文書である旨の情報が格納される。
Here, the frequency information 114 for each attribute will be described.
(Frequency information by attribute 114)
FIG. 4 is a diagram showing an example of the frequency information 114 for each attribute. The attribute-specific frequency information 114 includes a target business 1141 which is information for specifying a target business as attribute information, a creation department 1142 which is information for specifying a creation department as attribute information, and a target business and creation department of the target business 1141. Information having each item of compound word 1143, which is a list of compound words associated with the creation department of 1142. In the figure, the target business and the creation department are used as the attribute information, and the compound words are "compound word W1", "compound word W2", "compound word W3", and "compound word W4". The frequency of appearance of the "compound word W1" corresponding to the target business of the "business G1" and the creation department of the "department A1" is 0.2. Further, when the compound word appears in the general document, the attribute information is not stored in the target business 1141 and the creation department 1142, but the information indicating that it is a general document is stored instead.

次に、図3に示すように、一般用語判定部104は、属性別頻度情報114に基づき、S1で抽出した各複合語が一般用語であるかを判定する処理(一般用語判定処理)を実行する(S3)。 Next, as shown in FIG. 3, the general term determination unit 104 executes a process (general term determination process) of determining whether each compound word extracted in S1 is a general term based on the attribute-specific frequency information 114. (S3).

ここで、一般用語判定処理の詳細を説明する。
(一般用語判定処理)
図5は、一般用語判定処理の一例を示すフローチャートである。まず、一般用語判定部104は、S1で抽出した複合語の一つを選択する(S31)。次に、文書属性別頻度分析部102は、S31で選択した複合語(以下、選択語という)について、一般文書における出現頻度と業務文書における出現頻度とを比較する(S32)。
Here, the details of the general term determination process will be described.
(General term judgment processing)
FIG. 5 is a flowchart showing an example of the general term determination process. First, the general term determination unit 104 selects one of the compound words extracted in S1 (S31). Next, the frequency analysis unit 102 by document attribute compares the frequency of appearance in the general document and the frequency of appearance in the business document with respect to the compound word (hereinafter referred to as the selected word) selected in S31 (S32).

具体的には、例えば、文書属性別頻度分析部102は、属性別頻度情報114における各レコードの複合語1143の値(出現頻度)のうち選択語の出現頻度の値を全て取得する。また文書属性別頻度分析部102は、それらのレコードの対象業務1141及び作成部門1142の内容を取得することにより、そのレコードが一般文書のレコードか又は業務文書のレコードかを特定する。なお、選択語の出現頻度が複数のレコードに格納されている場合、そのうちで最大の値を出現頻度としてもよいし、属性(例えば、対象業務又は作成部門)ごとに出現頻度の平均値や和を算出することによって属性ごとの出現頻度を個別に算出してもよい。本実施形態では、前者の方法を採用するものとする。図4の例では、選択語が「複合語W1」の場合、一般文書での出現頻度は「1.5」、業務文書での出
現頻度は「0.2」となる。
Specifically, for example, the document attribute-based frequency analysis unit 102 acquires all the values of the frequency of occurrence of the selected word among the values (frequency of occurrence) of the compound word 1143 of each record in the frequency information 114 by attribute. Further, the frequency analysis unit 102 for each document attribute identifies whether the record is a general document record or a business document record by acquiring the contents of the target business 1141 and the creation department 1142 of those records. When the appearance frequency of the selected word is stored in a plurality of records, the maximum value among them may be set as the appearance frequency, and the average value or the sum of the appearance frequencies for each attribute (for example, target business or creation department). The frequency of appearance for each attribute may be calculated individually by calculating. In this embodiment, the former method shall be adopted. In the example of FIG. 4, when the selected word is "compound word W1", the frequency of appearance in a general document is "1.5" and the frequency of appearance in a business document is "0.2".

次に、図5に示すように、一般用語判定部104は、一般文書における選択語の出現頻度が業務文書における出現頻度よりも高いか否かを判定する(S33)。具体的には、例えば、一般用語判定部104は、一般文書における選択語の出現頻度が業務文書における
出現頻度よりも所定値以上高いか否かを判定する。一般文書における選択語の出現頻度が業務文書における出現頻度よりも高かった場合は(S33:YES)、選択語は一般用語と判定するべく処理はS37に進み、一般文書における選択語の出現頻度が業務文書における出現頻度よりも高くなかった場合は(S33:NO)、処理はS34に進む。
Next, as shown in FIG. 5, the general term determination unit 104 determines whether or not the frequency of appearance of the selected word in the general document is higher than the frequency of appearance in the business document (S33). Specifically, for example, the general term determination unit 104 determines whether or not the frequency of appearance of selected words in a general document is higher than a predetermined value or more than the frequency of appearance in a business document. If the frequency of appearance of the selected word in the general document is higher than the frequency of appearance in the business document (S33: YES), the process proceeds to S37 to determine that the selected word is a general term, and the frequency of appearance of the selected word in the general document is increased. If it is not higher than the frequency of appearance in the business document (S33: NO), the process proceeds to S34.

S34において、一般用語判定部104は、一般文書における選択語の出現頻度と業務文書における選択語の出現頻度とが近似しているか否かを判定する。具体的には、例えば、一般用語判定部104は、両者の出現頻度の差が所定の閾値以内であるか否かを判定する。一般文書における選択語の出現頻度と業務文書における出現頻度とが近似している場合は(S34:YES)、処理はS35に進み、一般文書における選択語の出現頻度と業務文書における出現頻度とが近似していない場合は(S34:NO)、選択語は業務用語と判定するべく処理はS38に進む。 In S34, the general term determination unit 104 determines whether or not the appearance frequency of the selected word in the general document and the appearance frequency of the selected word in the business document are close to each other. Specifically, for example, the general term determination unit 104 determines whether or not the difference in appearance frequency between the two is within a predetermined threshold value. If the frequency of appearance of the selected word in the general document and the frequency of appearance in the business document are similar (S34: YES), the process proceeds to S35, and the frequency of appearance of the selected word in the general document and the frequency of appearance in the business document are different. If they are not similar (S34: NO), the process proceeds to S38 to determine that the selected word is a business term.

S35では、用語使用方法分析部103は、一般文書での選択語の使い方(分布)と、業務文書での選択語の使い方(分布)とが類似しているか否かを判定する。具体的には、例えば、用語使用方法分析部103は、S2で対応づけた、選択語に対応する一般文書における当該選択語の分布と、選択語に対応する業務文書における当該選択語の分布との類似性を判定する。 In S35, the term usage analysis unit 103 determines whether or not the usage (distribution) of the selected words in the general document and the usage (distribution) of the selected words in the business document are similar. Specifically, for example, the term usage analysis unit 103 has the distribution of the selected words in the general document corresponding to the selected words and the distribution of the selected words in the business document corresponding to the selected words, which are associated in S2. Judge the similarity of.

なお、この類似の判定は、例えば、各文書における選択語を分散表現し(例えば、選択語を低次元の実数値ベクトルで表す(Word2vec等))、各文書における分散表現の違いによって、一般文書での選択語の使い方と、業務文書での選択語の使い方との類似性を評価するものとする。また、例えば、各文書中の図又は表における選択語の記載位置に基づいて選択語の使い方の類似性を判定してもよいし、選択語を含む文章の類似性に基づいて選択語の使い方の類似性を判定してもよい。 In this similar judgment, for example, the selected words in each document are expressed in a distributed manner (for example, the selected words are represented by a low-dimensional real-valued vector (Word2vec, etc.)), and the difference in the distributed expressions in each document determines a general document. The similarity between the usage of the selected word in the business document and the usage of the selected word in the business document shall be evaluated. Further, for example, the similarity of the usage of the selected word may be determined based on the description position of the selected word in the figure or table in each document, or the usage of the selected word may be determined based on the similarity of the sentences including the selected word. You may judge the similarity of.

一般文書での選択語の使い方と、業務文書での選択語の使い方とが類似している場合は(S36:YES)、選択語は一般用語と判定するべく処理はS37に進み、一般文書での選択語の使い方と、業務文書での選択語の使い方とが類似していない場合は(S36:NO)、選択語は業務用語と判定するべく処理はS38に進む。 If the usage of the selected word in the general document is similar to the usage of the selected word in the business document (S36: YES), the process proceeds to S37 to determine that the selected word is a general term, and the general document If the usage of the selected word in is not similar to the usage of the selected word in the business document (S36: NO), the process proceeds to S38 to determine that the selected word is a business term.

S37では、一般用語判定部104は、選択語は一般用語と判定し、後述する業務用語一覧115に、選択語及びその選択語が一般用語である旨を登録する。その後はS39の処理が行われる。 In S37, the general term determination unit 104 determines that the selected word is a general term, and registers the selected word and the fact that the selected word is a general term in the business term list 115 described later. After that, the processing of S39 is performed.

S38では、一般用語判定部104は、選択語は業務用語(の候補)と判定し、後述する業務用語一覧115に、選択語及びその選択語が業務用語(の候補)である旨を登録する。その後はS39の処理が行われる。 In S38, the general term determination unit 104 determines that the selected word is (candidate) for the business term, and registers the selected word and the selected word as (candidate for) the business term in the business term list 115 described later. .. After that, the processing of S39 is performed.

S39では、一般用語判定部104は、これまでに選択していない複合語があるか否かを判定し、これまでに選択していない複合語がある場合は(S39:YES)、その複合語の一つを選択し、その後はS31の処理が繰り返され、他方、これまでに選択していない複合語がない場合は(S39:NO)、一般用語判定処理は終了する(S40)。 In S39, the general term determination unit 104 determines whether or not there is a compound word that has not been selected so far, and if there is a compound word that has not been selected so far (S39: YES), the compound word. If one of the above is selected and the process of S31 is repeated thereafter, and there is no compound word that has not been selected so far (S39: NO), the general term determination process ends (S40).

次に、図3のS4に示すように、業務用語判定部105は、一般用語判定処理が終了すると、一般用語判定処理により特定した業務用語と、属性別頻度情報114とに基づき、その業務用語が汎用業務用語であるか特殊業務用語であるかを判定する処理(業務用語判定処理)を実行する。 Next, as shown in S4 of FIG. 3, when the general term determination process is completed, the business term determination unit 105 is based on the business term specified by the general term determination process and the attribute-specific frequency information 114, and the business term. Executes a process (business term determination process) for determining whether is a general-purpose business term or a special business term.

ここで、業務用語判定処理の詳細を説明する。
(業務用語判定処理)
図6は、業務用語判定処理の一例を説明するフローチャートである。まず、業務用語判定部105は、一般用語判定処理で業務用語と判定した複合語を一つ選択する(S41)。そして、業務用語判定部105は、各属性の全組み合わせを作成し、作成した組み合わせのそれぞれについて、その組み合わせを構成する属性に対応づけられている全ての業務文書(業務文書群)を特定し、特定した業務文書群における、S41で選択した業務用語(以下、選択業務用語という)の相対的な重要度(全業務文書に対する重要度)を算出する(S42)。この重要度としては、例えばTF-IDF(Term Frequency- Inverse Document
Frequency)を用いる。この場合、TF-IDFは、例えば、ある業務文書群中の選択業務用語の出現頻度と、全ての業務文書の数で業務文書群の数を除した値の対数との積によって算出される。これにより、例えば、ある業務文書群におけるTF-IDFの値が大きい場合は、選択業務用語はその業務文書群で多く使われており、他の業務文書ではあまり使われていないとみなすことができる。
Here, the details of the business term determination process will be described.
(Business term judgment processing)
FIG. 6 is a flowchart illustrating an example of the business term determination process. First, the business term determination unit 105 selects one compound word determined to be a business term in the general term determination process (S41). Then, the business term determination unit 105 creates all combinations of each attribute, and for each of the created combinations, identifies all the business documents (business document group) associated with the attributes constituting the combination. In the specified business document group, the relative importance (importance to all business documents) of the business term selected in S41 (hereinafter referred to as the selected business term) is calculated (S42). The importance of this is, for example, TF-IDF (Term Frequency- Inverse Document).
Frequency) is used. In this case, TF-IDF is calculated by, for example, the product of the frequency of occurrence of selected business terms in a certain business document group and the logarithm of the value obtained by dividing the number of business document groups by the number of all business documents. As a result, for example, when the value of TF-IDF in a certain business document group is large, it can be considered that the selected business term is often used in the business document group and not so much in other business documents. ..

S42の例としては、図4において、業務用語判定部105は、「業務G1」の属性、「業務G2」の属性、「部門A1」の属性、「部門A2」の属性、「業務G1」かつ「部門A1」の属性、「業務G1」かつ「部門A2」の属性、「業務G2」かつ「部門A1」の属性、及び、「業務G2」かつ「部門A2」の属性の各属性に対応付けられている業務文書群を対象とした、選択業務用語のTF−IDFが算出される。 As an example of S42, in FIG. 4, the business term determination unit 105 has an attribute of "business G1", an attribute of "business G2", an attribute of "department A1", an attribute of "department A2", and "business G1". Corresponds to each attribute of "department A1", "business G1" and "department A2", "business G2" and "department A1", and "business G2" and "department A2". The selected business term TF-IDF is calculated for the set of business documents.

次に、図5に示すように業務用語判定部105は、S42で算出した各重要度のうち特に高い重要度のものがあるか否かを判定する(S43)。具体的には、例えば、業務用語判定部105は、S42で算出した各TF-IDFの値で最も高い値が、予め指定された閾値より高いか否かを判定する。 Next, as shown in FIG. 5, the business term determination unit 105 determines whether or not there is a particularly high importance of the respective importance calculated in S42 (S43). Specifically, for example, the business term determination unit 105 determines whether or not the highest value of each TF-IDF value calculated in S42 is higher than the threshold value specified in advance.

重要度が高いものがある場合は(S43:YES)、処理はS44に進み、重要度が高いものがない場合は(S43:NO)、処理はS45に進む。 If there is something of high importance (S43: YES), the process proceeds to S44, and if there is no item of high importance (S43: NO), the process proceeds to S45.

S44では、業務用語判定部105は、選択業務用語を特殊業務用語と判定すると共に、その高い重要度を算出した属性の組み合わせを特定し、これらの結果(判別結果)を業務用語一覧115に登録する。その後、S46では、業務用語判定部105は、これまでに選択していない業務用語あるか否かを判断し、これまでに選択していない業務用語がある場合は(S46:YES)、その業務用語のうち一つを選択してS41の処理を繰り返す。他方、これまでに選択していない業務用語がない場合は(S46:NO)、業務用語判定処理は終了する(S47)。 In S44, the business term determination unit 105 determines the selected business term as a special business term, identifies the combination of attributes for which the high importance is calculated, and registers these results (discrimination results) in the business term list 115. do. After that, in S46, the business term determination unit 105 determines whether or not there is a business term that has not been selected so far, and if there is a business term that has not been selected so far (S46: YES), that business. One of the terms is selected and the process of S41 is repeated. On the other hand, if there is no business term that has not been selected so far (S46: NO), the business term determination process ends (S47).

S45では、業務用語判定部105は、選択業務用語を汎用業務用語と判定すると共に、その高い重要度を算出した属性の組み合わせを特定し、これらの結果(判別結果)を業務用語一覧115に登録する。その後はS46の処理が行われる。 In S45, the business term determination unit 105 determines the selected business term as a general-purpose business term, identifies the combination of attributes for which the high importance is calculated, and registers these results (discrimination results) in the business term list 115. do. After that, the processing of S46 is performed.

ここで、業務用語一覧115について説明する。
(業務用語一覧115)
図7は、業務用語一覧115の一例を示す図である。業務用語一覧115は、複合語を示す情報である複合語1151、複合語1151の複合語の種類(一般用語、汎用業務用語、又は特殊業務用語)を示す情報である用語種類1152、及び、複合語1151の複合語において重要度が高いと判定された属性の組み合わせを特定する情報であるカテゴリ1153の各情報を有する。同図においては、例えば、「複合語W03」の複合語の種類は特殊業務用語(「業務個別用語」)でありその属性は「業務G1」である(すなわち、例えば、「複合語W03」の複合語は「業務G1」の業務にその利用が限定されている)。また、「複合語W02」の複合語の種類は汎用業務用語(「業務共通用語」)であり、
重要度が高いと判定された属性の組み合わせがないので、カテゴリ1153には情報が格納されない。また、一般用語判定処理で一般用語と判定された複合語である「複合語W01」の複合語の種類は一般用語(「一般用語」)であり、そのためカテゴリ1153には情報が格納されない。
Here, the business term list 115 will be described.
(List of business terms 115)
FIG. 7 is a diagram showing an example of the business term list 115. The business term list 115 includes compound word 1151 which is information indicating a compound word, term type 1152 which is information indicating a compound word type (general term, general-purpose business term, or special business term) of compound word 1151, and compound. Each piece of category 1153 is information that identifies a combination of attributes determined to be of high importance in the compound word of word 1151. In the figure, for example, the type of compound word of "compound word W03" is a special business term ("business individual term") and its attribute is "business G1" (that is, for example, "compound word W03". The use of compound words is limited to the business of "business G1"). In addition, the type of compound word of "compound word W02" is a general-purpose business term ("business common term").
No information is stored in category 1153 because there is no combination of attributes determined to be of high importance. Further, the type of the compound word of the compound word "compound word W01" which is a compound word determined to be a general term in the general term determination process is a general term ("general term"), and therefore information is not stored in the category 1153.

以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。 The above description of the embodiment is for facilitating the understanding of the present invention, and does not limit the present invention. The present invention can be modified and improved without departing from the spirit of the present invention, and the present invention includes its equivalents.

以上のように、本実施形態の業務用語判別装置1は、業務用語となりやすい複合語に着目し、複数の文書から抽出した複合語の文書における出現の態様を特定することにより、業務用語である複合語を抽出し、各文書におけるその複合語の分布をその文書の属性ごとに特定することにより、その複合語が特殊業務用語又は汎用業務用語のいずれかであるかを判別するので、文書に含まれる業務用語の複合語が、特定の属性に関連して使用され、業務の種類や部門によって理解のされ方又は用いられ方が異なる業務用語なのか、それとも業務一般に使用される業務用語なのかを判別することができる。このように、業務用語判別装置1によれば、各文書に存在する業務用語を、その使用態様に応じて正しく判別することができる。 As described above, the business term discriminating device 1 of the present embodiment is a business term by focusing on the compound word that tends to be a business term and specifying the appearance mode in the compound word document extracted from a plurality of documents. By extracting compound words and specifying the distribution of the compound words in each document for each attribute of the document, it is possible to determine whether the compound term is either a special business term or a general-purpose business term. Is the compound term of the included business term a business term that is used in relation to a specific attribute and is understood or used differently depending on the type of business or department, or is it a business term that is generally used in business? Can be determined. As described above, according to the business term discriminating device 1, the business terms existing in each document can be correctly discriminated according to the usage mode thereof.

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、前記業務用語抽出部は、業務に係る前記文書における前記抽出した複合語の頻度が、それ以外の前記文書における前記抽出した複合語の頻度より高い場合に、前記抽出した複合語を業務用語として抽出する、としてもよい。 The description herein reveals at least the following: That is, when the frequency of the extracted compound words in the document related to the business is higher than the frequency of the extracted compound words in the other documents, the business term extraction unit uses the extracted compound words as business terms. It may be extracted as.

このように、業務文書における複合語の出現頻度とそれ以外の一般文書における複合語の頻度を比較することで業務用語を抽出するので、各文書における複合語の使用状況に応じた、業務用語の正確な抽出が可能となる。 In this way, business terms are extracted by comparing the frequency of appearance of compound words in business documents with the frequency of compound words in other general documents. Accurate extraction is possible.

また、本実施形態の前記業務用語抽出部は、業務に係る前記文書における前記抽出した複合語の出現の位置及び回数が、それ以外の前記文書における前記抽出した複合語の出現の位置及び回数と異なると判定した場合に、前記抽出した複合語を業務用語として抽出する、としてもよい。 Further, in the business term extraction unit of the present embodiment, the position and number of appearances of the extracted compound words in the document related to the business are the positions and times of appearance of the extracted compound words in other documents. If it is determined that they are different, the extracted compound words may be extracted as business terms.

このように、業務文書における複合語の出現位置及び回数とそれ以外の一般文書における複合語の出現位置及び回数を比較することで業務用語を抽出するので、各文書の構成に応じた、業務用語の正確な抽出が可能となる。 In this way, business terms are extracted by comparing the appearance position and number of compound words in business documents with the appearance position and number of compound words in other general documents. Can be accurately extracted.

また、本実施形態の前記特殊業務用語判別部は、前記文書の属性としての業務の種類又は当該業務における部門ごとに前記分布を特定することにより、前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれかであるかを判別する、としてもよい。 Further, the special business term discriminating unit of the present embodiment specifies the distribution for each type of business as an attribute of the document or for each department in the business, so that the compound word which is the business term is a special business term. Alternatively, it may be determined whether it is one of general business terms.

このように、業務の種類や部門といった業務に関する属性によって複合語の分布を特定することで、業務用語が業務においてどのような場合に使用されているかを判断し、各業務関係者のそれぞれの業務に応じた業務用語を特定することができる。 In this way, by specifying the distribution of compound words according to the attributes related to the business such as the type of business and the department, it is possible to determine when the business term is used in the business, and each business related person's business. It is possible to specify the business term according to.

また、本実施形態においては、前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれかであるかを判別した結果の情報を出力する出力部を備える、としてもよい。 Further, in the present embodiment, it may be provided with an output unit that outputs information as a result of determining whether the compound word which is the business term is either a special business term or a general-purpose business term.

このように、特殊業務用語や汎用業務用語の判別結果を出力することで、各業務における関係者にとって業務の遂行上有用な情報を提供することができる。 In this way, by outputting the discrimination results of special business terms and general-purpose business terms, it is possible to provide information useful for the execution of business for the persons concerned in each business.

また、本実施形態においては、業務用語判別装置が、複数の文書から複合語を抽出する複合語抽出処理と、抽出した複合語の前記文書における出現の態様を特定することにより、業務用語である前記複合語を抽出する業務用語抽出処理と、前記業務用語である複合語の前記文書における分布を当該文書の属性ごとに特定することにより、前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれかであるかを判別する特殊業務用語判別処理と、を実行する、としてもよい。 Further, in the present embodiment, the business term discriminating device is a business term by specifying a compound word extraction process for extracting a compound word from a plurality of documents and a mode of appearance of the extracted compound word in the document. By specifying the business term extraction process for extracting the compound word and the distribution of the compound word as the business term in the document for each attribute of the document, the compound word as the business term is a special business term or general purpose. It is also possible to execute a special business term discrimination process for discriminating which one of the business terms is used.

また、本実施形態における業務用語判別方法において、前記業務用語判別装置が、前記業務用語抽出処理において、業務に係る前記文書における前記抽出した複合語の頻度が、それ以外の前記文書における前記抽出した複合語の頻度より高い場合に、前記抽出した複合語を業務用語として抽出する、としてもよい。 Further, in the business term discrimination method in the present embodiment, the business term discriminating device extracts the frequency of the extracted compound words in the document related to the business in the business term extraction process in the other documents. When the frequency of the compound word is higher than the frequency, the extracted compound word may be extracted as a business term.

また、本実施形態における業務用語判別方法において、前記業務用語判別装置が、前記業務用語抽出処理において、業務に係る前記文書における前記抽出した複合語の出現の位置及び回数が、それ以外の前記文書における前記抽出した複合語の出現の位置及び回数と異なると判定した場合に、前記抽出した複合語を業務用語として抽出する、としてもよい。 Further, in the business term discrimination method in the present embodiment, the business term discriminating device determines the position and number of appearances of the extracted compound word in the business-related document in the business term extraction process. When it is determined that the position and the number of appearances of the extracted compound word are different from those in the above, the extracted compound word may be extracted as a business term.

また、本実施形態における業務用語判別方法において、前記業務用語判別装置が、前記特殊業務用語判別処理において、前記文書の属性としての業務の種類又は当該業務における部門ごとに前記分布を特定することにより、前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれかであるかを判別する、としてもよい。 Further, in the business term discrimination method in the present embodiment, the business term discriminating device specifies the business type as an attribute of the document or the distribution for each department in the business in the special business term discriminating process. , It may be determined whether the compound word which is the business term is either a special business term or a general-purpose business term.

また、本実施形態における業務用語判別方法において、前記業務用語判別装置が、前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれかであるかを判別した結果の情報を出力する出力処理をさらに実行する、としてもよい。 Further, in the business term discrimination method in the present embodiment, the information as a result of the business term discriminating device determining whether the compound word which is the business term is either a special business term or a general-purpose business term is obtained. The output processing to be output may be further executed.

1 業務用語判別装置、101 複合語抽出部、107 業務用語抽出部、108 特殊業務用語判別部、109 出力部 1 Business term discriminator, 101 compound word extraction unit, 107 business term extraction unit, 108 special business term discriminator, 109 output unit

Claims (6)

複数の文書から複合語を抽出する複合語抽出部と、
業務に係る前記文書における前記抽出した複合語の出現頻度が、それ以外の前記文書における前記抽出した複合語の出現頻度より高い場合に、前記抽出した複合語を業務用語として抽出する業務用語抽出部と、
前記業務用語である複合語の前記文書における出現頻度を表すパラメータの値を当該文書の属性ごとに算出し、所定の閾値より高い前記パラメータの値を有する属性がある場合には、前記業務用語である複合語が特殊な業務用語であると判定し、前記所定の閾値より高い前記パラメータの値を有する属性がない場合には、前記業務用語である複合語が汎用的な業務用語であると判定する特殊業務用語判別部と、
前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれであるかを判別した結果の情報を出力する出力部と、
を備える業務用語判別装置。
A compound word extractor that extracts compound words from multiple documents,
Business term extraction unit that extracts the extracted compound word as a business term when the frequency of appearance of the extracted compound word in the document related to the business is higher than the frequency of appearance of the extracted compound word in the other documents. When,
The value of the parameter representing the frequency of appearance of the compound word, which is the business term, in the document is calculated for each attribute of the document, and if there is an attribute having the value of the parameter higher than a predetermined threshold, the business term is used. there compound word is determined to be a special business terms, determined when there is no attribute having a value higher than the predetermined threshold value the parameter, compound word which is the operational term is generic business terms and special business terms determination unit that,
An output unit that outputs information as a result of determining whether the compound word that is the business term is a special business term or a general-purpose business term.
A business term discriminator equipped with.
前記業務用語抽出部は、業務に係る前記文書における前記抽出した複合語の出現の位置及び回数の分布と、それ以外の前記文書における前記抽出した複合語の出現の位置及び回数の分布との類似性が低いと判定した場合に、前記抽出した複合語を業務用語として抽出する、請求項1に記載の業務用語判別装置。 The business term extraction unit is similar to the distribution of the appearance position and the number of times of the extracted compound word in the document related to the business and the distribution of the appearance position and the number of times of the extracted compound word in the other documents. The business term discriminating device according to claim 1, wherein the extracted compound word is extracted as a business term when it is determined that the property is low. 前記特殊業務用語判別部は、前記文書の属性としての業務の種類又は当該業務における部門ごとに出現頻度を表すパラメータの値算出することにより、前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれかであるかを判別する、請求項1に記載の業務用語判別装置。 The special business term discriminating unit calculates a value of a parameter representing the type of business as an attribute of the document or the frequency of appearance for each department in the business, so that the compound word that is the business term is a special business term or The business term discriminating device according to claim 1, which discriminates whether the term is one of general-purpose business terms. 業務用語判別装置が、
複数の文書から複合語を抽出する複合語抽出処理と、
業務に係る前記文書における前記抽出した複合語の出現頻度が、それ以外の前記文書における前記抽出した複合語の出現頻度より高い場合に、前記抽出した複合語を業務用語として抽出する業務用語抽出処理と、
前記業務用語である複合語の前記文書における出現頻度を表すパラメータの値を当該文書の属性ごとに算出し、所定の閾値より高い前記パラメータの値を有する属性がある場合には、前記業務用語である複合語が特殊な業務用語であると判定し、前記所定の閾値より高い前記パラメータの値を有する属性がない場合には、前記業務用語である複合語が汎用的な業務用語であると判定する特殊業務用語判別処理と、
前記業務用語である複合語が特殊な業務用語又は汎用的な業務用語のいずれであるかを判別した結果の情報を出力する出力処理と、
を実行する業務用語判別方法。
The business term discriminator
Compound word extraction processing that extracts compound words from multiple documents,
Business term extraction process for extracting the extracted compound word as a business term when the frequency of appearance of the extracted compound word in the document related to the business is higher than the frequency of appearance of the extracted compound word in the other documents. When,
The value of the parameter representing the frequency of appearance of the compound word, which is the business term, in the document is calculated for each attribute of the document, and if there is an attribute having the value of the parameter higher than a predetermined threshold, the business term is used. there compound word is determined to be a special business terms, determined when there is no attribute having a value higher than the predetermined threshold value the parameter, compound word which is the operational term is generic business terms and special business terms determination process that,
Output processing that outputs information as a result of determining whether the compound word that is the business term is a special business term or a general-purpose business term, and
How to determine business terms to execute.
前記業務用語判別装置が、
前記業務用語抽出処理において、業務に係る前記文書における前記抽出した複合語の出現の位置及び回数の分布と、それ以外の前記文書における前記抽出した複合語の出現の位置及び回数の分布との類似性が低いと判定した場合に、前記抽出した複合語を業務用語として抽出する、請求項に記載の業務用語判別方法。
The business term discriminating device
In the business term extraction process, the distribution of the appearance position and the number of times of the extracted compound word in the document related to the business is similar to the distribution of the appearance position and the number of times of the extracted compound word in the other documents. The business term determination method according to claim 4 , wherein the extracted compound word is extracted as a business term when it is determined that the property is low.
前記業務用語判別装置が、
前記特殊業務用語判別処理において、前記文書の属性としての業務の種類又は当該業務における部門ごとに出現頻度を表すパラメータの値算出することにより、前記業務用語である複合語が特殊な
業務用語又は汎用的な業務用語のいずれかであるかを判別する、請求項に記載の業務用語判別方法。
The business term discriminating device
In the special business term discrimination process, the compound word that is the business term is a special business term or by calculating the value of the parameter indicating the frequency of appearance for each business type or department in the business as an attribute of the document. The business term determination method according to claim 4 , wherein the business term is determined to be one of general-purpose business terms.
JP2018039971A 2018-03-06 2018-03-06 Business term discrimination device and business term discrimination method Expired - Fee Related JP6957388B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018039971A JP6957388B2 (en) 2018-03-06 2018-03-06 Business term discrimination device and business term discrimination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018039971A JP6957388B2 (en) 2018-03-06 2018-03-06 Business term discrimination device and business term discrimination method

Publications (2)

Publication Number Publication Date
JP2019153234A JP2019153234A (en) 2019-09-12
JP6957388B2 true JP6957388B2 (en) 2021-11-02

Family

ID=67946643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018039971A Expired - Fee Related JP6957388B2 (en) 2018-03-06 2018-03-06 Business term discrimination device and business term discrimination method

Country Status (1)

Country Link
JP (1) JP6957388B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023036140A (en) * 2021-09-02 2023-03-14 株式会社日立製作所 Business data analysis device, business data analysis system and business data analysis method

Also Published As

Publication number Publication date
JP2019153234A (en) 2019-09-12

Similar Documents

Publication Publication Date Title
Sahu et al. Feature engineering and ensemble-based approach for improving automatic short-answer grading performance
CN110427618B (en) Countermeasure sample generation method, medium, device and computing equipment
Tsai et al. Concept-based analysis of scientific literature
US9542477B2 (en) Method of automated discovery of topics relatedness
Soni et al. Sentiment analysis of customer reviews based on hidden markov model
WO2019049483A1 (en) Synonym dictionary creation device, synonym dictionary creation program, and synonym dictionary creation method
JP2009163303A (en) Search filtering device and search filtering program
CN113420127B (en) Threat information processing method, threat information processing device, computing equipment and storage medium
Murauer et al. Developing a benchmark for reducing data bias in authorship attribution
WO2016067396A1 (en) Sentence sorting method and computer
Laddha et al. Aspect opinion expression and rating prediction via LDA–CRF hybrid
JP5117744B2 (en) Word meaning tag assigning device and method, program, and recording medium
Jaf et al. Empirical evaluation of public hatespeech datasets
Sudiro et al. Aspect Based Sentiment Analysis With Combination Feature Extraction LDA and Word2vec
Panthum et al. Generating functional requirements based on classification of mobile application user reviews
JP6957388B2 (en) Business term discrimination device and business term discrimination method
Murauer et al. DT-grams: Structured dependency grammar stylometry for cross-language authorship attribution
Chiarello et al. Design and implementation of a text mining-based tool to support scoping reviews
US20200311564A1 (en) Support system and storage medium
Dumbre et al. Spacy and NLTK NLP techniques for text summarization: a comprehensive comparison
JP2010061176A (en) Text mining device, text mining method, and text mining program
Shantika et al. Sentiment Analysis of Jobstreet Application Reviews on Google Play Store Using Support Vector Machine Algorithm with Adaptive Synthetic
WO2023204724A1 (en) Method for analyzing a legal document
Bartelds et al. Improving Cross-domain Authorship Attribution by Combining Lexical and Syntactic Features.
Stuart et al. Style features for authors in two languages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210921

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211006

R150 Certificate of patent or registration of utility model

Ref document number: 6957388

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees