JP5779529B2 - Similar Design Document Search System and Similar Design Document Search Method - Google Patents
Similar Design Document Search System and Similar Design Document Search Method Download PDFInfo
- Publication number
- JP5779529B2 JP5779529B2 JP2012063878A JP2012063878A JP5779529B2 JP 5779529 B2 JP5779529 B2 JP 5779529B2 JP 2012063878 A JP2012063878 A JP 2012063878A JP 2012063878 A JP2012063878 A JP 2012063878A JP 5779529 B2 JP5779529 B2 JP 5779529B2
- Authority
- JP
- Japan
- Prior art keywords
- design document
- character
- character string
- document
- existing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
Description
本発明は、コンピュータプログラムの設計書を作成する際に既存の設計書を検索することができる類似設計書検索システム及び類似設計書検索方法に関する。 The present invention relates to a similar design document search system and a similar design document search method capable of searching an existing design document when creating a computer program design document.
一般にコンピュータプログラムは、メインプログラム及び該メインプログラムから分岐する個別機能を実現する複数のモジュール(サブルーチンプログラム)から構成するように構造化されており、このモジュール単位の設計書は細分化された個別機能であるために過去に作成された既存の設計書や他のグループで既に作成された設計書と類似する可能性がある。一般に、既設の設計書が在るにもかかわらず新たな設計書を作成することは効率的でないことから、前述の既存の設計書を再利用することが望まれるが、従来技術においては、既設の設計書が再利用に有効であるかの判断が困難なため、熟練者による手作業において探すことが行われてする。 Generally, a computer program is structured to be composed of a main program and a plurality of modules (subroutine programs) that realize individual functions branched from the main program, and the design document for each module is divided into individual functions. Therefore, it may be similar to an existing design document created in the past or a design document already created by another group. In general, since it is not efficient to create a new design document even though there is an existing design document, it is desirable to reuse the above-mentioned existing design document. Since it is difficult to determine whether the design document is valid for reuse, a manual search by an expert is performed.
なお、類似度が高い文書を検索する技術が記載された文献としては下記の特許文献1が挙げられ、この特許文献1には、入力文字列と文書データベースの文書を二つの文字列とし、二つの文字列それぞれにおける順序に適合する部分文字列であって、前記二つの文字列に共通する部分文字列を複数求め、前記複数求めた部分文字列に対してそれぞれ重みを定め、該重みを総和することによって類似度を算出する技術が記載されている。 The following patent document 1 is cited as a document describing a technique for searching for a document having a high degree of similarity. The patent document 1 includes an input character string and a document database document as two character strings. A plurality of partial character strings that match the order in each of the two character strings, determine a weight for each of the plurality of partial character strings, and sum the weights A technique for calculating the similarity by doing so is described.
前述の特許文献1記載技術は、類似する文字列の出現頻度が大きい文書を検索することができるものの、両文書の類似箇所を表示することが考慮されていないために検索者による類似箇所の確認が困難であると共に、類似しているとした文書であっても、基になっている文書と類似する文字列の文字数とに極端な差がある場合では、同じ文字列が共通してとしても内容が異なり、参考にならない場合があるという不具合があった。 Although the technique described in Patent Document 1 described above can search for documents in which the appearance frequency of similar character strings is high, it is not considered to display the similar portions of both documents, so the searcher confirms similar portions. However, even if the document is similar and the number of characters in the similar character string is extremely different from the document that is based on the same character string, There was a problem that the contents were different and sometimes not helpful.
特にコンピュータプログラムの設計書においては、設計書の記載方法が項目別に定型化され、この項目に記載される内容も専門用語や特定の用語が繰り返して多用されるため、単純に類似する文字列が多い場合であっても既存の設計書としては内容が異なり、参考にならないという不具合があった。 Particularly in computer program design documents, the description method of the design document is standardized by item, and the contents described in this item are also frequently used with technical terms and specific terms. Even if there were many cases, the contents of the existing design document were different and there was a problem that it was not helpful.
本発明の目的は、前述の従来技術による課題を解決しようとするものであり、既存の設計書から類似する設計書を容易に検索することができる類似設計書検索システム及び類似設計書検索方法を提供することである。 SUMMARY OF THE INVENTION An object of the present invention is to solve the above-described problems caused by the prior art, and a similar design document search system and a similar design document search method capable of easily searching for a similar design document from an existing design document. Is to provide.
前記目的を達成するために本発明は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えた類似設計書検索システムであって、
前記設計書解析処理ユニットが、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程と、
前記類似設計書出力ユニットが、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行することを第1の特徴とする。
In order to achieve the above-mentioned object, the present invention is connected to a general-purpose associative calculation system that calculates the similarity between design documents represented by a line feed for each item by a line feed for each item according to the frequency of the character string, A design document analysis processing unit including a design document document extraction processing unit for extracting the document structure of the input new design document , and a design document analysis processing unit for analyzing the document structure extracted by the design document document extraction processing unit; A similar design document search system comprising a similar design document output unit that outputs a similarity determination result file of a design document analyzed by a document analysis processing unit ,
A first step in which the design document analysis processing unit extracts a character string for each line break included in the input new design document and outputs the character string to the general-purpose associative calculation system;
The similar design document output unit is
A second step of inputting an existing design document candidate similar to the input character string output from the general-purpose associative calculation system;
A third step of determining whether the character string length of the existing design document candidate input in the second step is a predetermined number of times or more of the new design document character string length;
A fourth step of accumulating the determined existing design document candidates when it is determined in the third step that the character string length of the existing design document candidate is not a predetermined number of times or more of the new design document character string length;
Compare the character string of the existing design document character string accumulated in the fourth step with the new design document character string, and change the character color of the existing design document character string that matches the new design document character string with respect to the standard color And a fifth step
A first feature is to execute a sixth step of outputting the existing design document candidate whose matching character color is changed in the fifth step as a similarity determination result file.
また、本発明は、第1特徴の類似設計書検索システムにおいて、前記類似設計書出力ユニットが、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを第2の特徴とし、
前記何れかの特徴の類似設計書検索システムにおいて、前記類似設計書出力ユニットが、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行し、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行することを第3の特徴とし、
前記何れかの特徴の類似設計書検索システムにおいて、前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを第4の特徴とする。
Further, the present invention provides the similar design document search system of the first feature, wherein the similar design document output unit determines an existing design document character string that matches the new design document character string in the fifth step.
A new design specification string characters directed to the characters included in the existing design document string, compares whether a character existing design documents and the new design document characters match the first character of the existing design specifications in order the 7 steps,
When it is determined in the seventh step that there is no character matching the existing design document, an eighth step of excluding the characters of the new design document character string one by one from the beginning;
A ninth step of comparing, in order from the first character, whether or not the new design document character excluding the first character in the eighth step matches the character of the existing design document;
A tenth step of excluding the characters of the new design document character string one by one from the tail when it is determined that the characters of the new design document excluding the first character and the existing design document do not match in the ninth step;
An eleventh step of comparing in order from the last character whether or not the new design document character excluding the last character in the tenth step matches the character of the existing design document;
Including the second feature,
In the similar design document search system of any one of the above features, the similar design document output unit receives the similarity determination result file output in the sixth step, and the existing design document included in the similarity determination result file run the twelfth step for performing a fourth step from the first step on the basis of the candidate, contain an existing design document candidates accumulated by said fourth step to an existing design document candidates accumulated by the twelfth step The third feature is to execute the thirteenth step of determining whether or not there is,
In the similar design document search system of any one of the above features, the fourth character string length of the existing design document candidate in the third step is three times a predetermined number times the new design document character string length. Features.
更に、本発明は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えたコンピュータシステムにおける類似設計書検索方法であって、
前記設計書解析処理ユニットに、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程を実行させ、
前記類似設計書出力ユニットに、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行させることを第5の特徴とする。
Furthermore, the present invention is connected to a general-purpose associative calculation system that calculates the similarity between design documents represented by line-breaking a character string consisting of a plurality of characters for each item according to the frequency of the character strings, and the input new design document A design document analysis processing unit including a design document document extraction processing unit for extracting a document structure of the document and a design document analysis processing unit for analyzing the document structure extracted by the design document document extraction processing unit, and the design document analysis processing unit A similar design document search method in a computer system comprising a similar design document output unit for outputting a similarity determination result file of an analyzed design document ,
Causing the design document analysis processing unit to execute a first step of extracting a character string for each line break included in the input new design document and outputting the extracted character string to the general-purpose associative calculation system;
In the similar design document output unit,
A second step of inputting an existing design document candidate similar to the input character string output from the general-purpose associative calculation system;
A third step of determining whether the character string length of the existing design document candidate input in the second step is a predetermined number of times or more of the new design document character string length;
A fourth step of accumulating the determined existing design document candidates when it is determined in the third step that the character string length of the existing design document candidate is not a predetermined number of times or more of the new design document character string length;
Compare the character string of the existing design document character string accumulated in the fourth step with the new design document character string, and change the character color of the existing design document character string that matches the new design document character string with respect to the standard color And a fifth step
A fifth feature is that the sixth step of outputting the existing design document candidate in which the matching character color is changed in the fifth step as a similarity determination result file is executed.
また、本発明は、第5の特徴の類似設計書検索方法において、
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを第6の特徴とし、
前記何れかの特徴の類似設計書検索方法において、前記類似設計書出力ユニットに、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行させ、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行させることを第7の特徴とし、
前記何れかの特徴の類似設計書検索方法において、前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを第8の特徴とする。
Further, the present invention provides a similar design document search method of the fifth feature,
In the similar design document output unit, determination of an existing design document character string that matches the new design document character string in the fifth step,
In the similar design document output unit, determination of an existing design document character string that matches the new design document character string in the fifth step,
A new design specification string characters directed to the characters included in the existing design document string, compares whether a character existing design documents and the new design document characters match the first character of the existing design specifications in order the 7 steps,
When it is determined in the seventh step that there is no character matching the existing design document, an eighth step of excluding the characters of the new design document character string one by one from the beginning;
A ninth step of comparing, in order from the first character, whether or not the new design document character excluding the first character in the eighth step matches the character of the existing design document;
When it is determined that the new design document character excluding the first character in said ninth step and the character of the existing design specifications do not match, a tenth step excludes new design document string character by character from the tail,
An eleventh step of comparing in order from the last character whether or not the new design document character excluding the last character in the tenth step matches the character of the existing design document;
The sixth feature is to include
In the similar design document search method of any one of the above features, an existing design document included in the similarity determination result file with the similarity determination result file output in the sixth step being input to the similar design document output unit. from the first step on the basis of the candidate to execute the 12th step of performing the fourth step, it contains existing design document candidates accumulated by said fourth step to an existing design document candidates accumulated by the twelfth step The seventh feature is to execute the thirteenth step of determining whether or not there is,
Wherein in any of the similar design document search method wherein, that the string length of an existing design document candidates in the third step is to triple the predetermined multiple of said new design document string length of the eighth Features.
本発明による類似設計書検索システム及び類似設計書検索方法は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムを用い、該汎用連想計算システムから出力された新設計書に含まれる入力文字列と類似する既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でない既存設計書候補を選択し、この選択した既存設計書候補と新設計書文字列と一致する文字色を標準色に対して変化させることによって、作成過程の新設計書の文字列に基づいて過去の類似する既存設計書を検索し、一致文字を色分け表示することができる。 The similar design document search system and the similar design document search method according to the present invention provide a general-purpose associative calculation that calculates a similarity between design documents represented by a line feed of a character string consisting of a plurality of characters for each item according to the frequency of the character string. The existing character string length of the existing design document similar to the input character string included in the new design document output from the general-purpose associative calculation system is not more than a predetermined number of times of the new design document character string length. By selecting a design document candidate and changing the character color that matches the selected existing design document candidate and the new design document character string with respect to the standard color, the past design based on the character string of the new design document in the creation process. Similar existing design documents can be searched and matching characters can be displayed in different colors.
以下、本発明の一実施形態による類似設計書検索システム及び類似設計書検索方法を図面を参照して説明する。
[構成]
まず、本発明による類似設計書検索方法及び類似設計書検索プログラムは、同様な機能を実行するモジュールのプログラムにおいては同様な設計書の記述内容に成り、設計書の最初の方の記述内容も同様になることを利用し、新設計書の最初(主要機能等の任意の箇所であっても良い)の記述内容を作成した段階で過去に作成した多数の既存設計書の中から類似する既存設計書を検索し、且つ、新設計書と既存設計書の類似箇所を色分け表示することによって、既存設計書を新設計書作成に利用するものである。
Hereinafter, a similar design document search system and a similar design document search method according to an embodiment of the present invention will be described with reference to the drawings.
[Constitution]
First, the similar design document search method and the similar design document search program according to the present invention have similar design document description contents in a module program that performs similar functions, and the first description contents of the design document are the same. The existing design similar to many existing design documents created in the past at the stage of creating the description contents of the first of the new design document (may be an arbitrary part such as main functions) The existing design document is used to create a new design document by searching for the document and displaying the similar parts of the new design document and the existing design document in different colors.
この本実施形態による類似設計書検索方法及び類似設計書検索プログラムを実行する類似設計書検索システムは、図1に示す如く、表計算形式によって入力した設計書ファィル107に類似する既存の設計書を検索する類似設計書検索システム102と、文書間の類似度の連想を計算する汎用連想計算システム112とを備えたコンピュータサーバ101によって構成され、該汎用連想計算システム112は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって算出する機能を有する。
The similar design document search system for executing the similar design document search method and the similar design document search program according to the present embodiment, as shown in FIG. 1, stores an existing design document similar to the
前記類似設計書検索システム102は、入力された設計書ファイル107を入力として設計書の文書構造を抽出する設計書文書抽出処理部109及び該設計書文書抽出処理部109により抽出した文書構造を解析する設計書解析処理部106とを含む設計書解析処理ユニット104と、該設計書解析処理ユニット104によって解析した設計書の類似度判定結果を出力するための類似設計書出力ユニット103とから構成される。
The similar design
前記類似設計書出力ユニット103は、該設計書解析処理ユニット104によって解析した設計書の類似度判定結果を表示するための類似計算結果情報を作成する類似計算結果表示作成処理部105と、該類似計算結果表示作成処理部105によって表示部に表示された設計書の類似計算結果情報の類似度を操作者が出力するか否かの判定結果を判定するための出力可否判定処理部108及び該出力可否判定処理部108に出力されると判定したとき、該類似計算結果情報をブラウザ表示用のHTML文書に編集して類似度検索結果ファイル110として画面出力するHTML出力編集処理部111とから構成される。
The similar design
前記汎用連想計算システム112は、既存の複数の設計書及び単語間の類似度の連想を行うための連想辞書を格納した汎用連想計算エンジン辞書114と、該汎用連想計算エンジン辞書114をアクセスして入力された設計書の記述内容と類似する既存の設計書を検索する汎用連想計算エンジン113とから構成される。
The general-purpose
前記設計書ファイル107の設計文書(記述内容)は、複数文字から成る文字列を項目毎に改行して表されるものであって、例えば、図3(a)の符号207にサンプルとして示す如く、設計書ファイルのシステム毎の識別子であるシステムIDと、該システムIDに対応したシステム名と、当該設計書ファイルのシステム種別と、設計書ファイルのシステム概要との各項目とから構成され、具体的には、例えば、システムID「U−0−0−0−0−0」のシステム名「ファイルを読み込む」が、同システム種別「基本イベントフロー」、同システム概要「1.ファイルをオープンする。2.ファイルを読み込む。3.ファイルをクローズする。」の如く記載され、システムID「U−0−0−0−0−0」のシステム名「ファイルを読み込む」が、同システム種別「代替イベントフロー」、同システム概要が「1a.ファイルのオープンが失敗した場合、メッセージを出力する。」の如く記載され、図示の如く改行単位に構成されている。
The design document (description content) of the
また、前記類似度検索結果ファイル110の類似計算結果情報のサンプルは、例えば図3(b)の符号208として示す如く、設計書ファイル107のシステム概要「ファイルをオープンする。」に類似する設計書分書情報が、システムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」、システム概要「ファイルオープン」と、システムID「U−0−0−0−0−1」のシステム名「ファイル検索」、システ概要「ファイルオープン」と、システムID「U−0−0−0−0−2」のシステム名「ファイル検索」、システム概要「ファイルクローズとであるとして出力される。
A sample of similarity calculation result information in the similarity
前記汎用連想計算エンジン辞書114の連想辞書の項目は、図6(a)に示す如く、使用する辞書の項目は4項目であって、これら4項目は設計中のシステムを識別するための識別子に相当する記号番号であるシステムIDと、設計対象となるシステムの日本語名称であるシステム名と、設計対象となるシステムの流れ(処理フロー)の種別であるシステム種別との各項目情報とから成り、具体的には、図6(b)に示す如く、システムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」のシステム種別「基本イベントフロー」として、システム概要が「1.ファルをオープンする。」と「2.ファイルを読み込む。」と「3.ファイルをクローズするル。」があり、同様にシステムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」のシステム種別「代替イベントフロー」として、システム概要が「1a.ファルのオープンに失敗した場合、メッセージを出力する。」があることが辞書として登録されている。
As shown in FIG. 6A, there are four dictionary items to be used in the general-purpose
[動作]
このように構成された類似設計書検索システムの全体動作は、図2に示す如く、設計書解析処理ユニット104が、入力している設計書ファイルのサンプル207の内容で構成される設計書ファイル107を入力する工程と、該入力した設計書ファイル107を汎用連想計算エンジン113が汎用連想計算エンジン辞書114を参照して解析(汎用連想計算エンジン辞書114に格納された連想辞書及び既存設計書の記述内容とを比較し、文字列の頻出度合いにより設計書の類似度を計算してランキングで出力する処理)する工程と、該汎用連想計算エンジン113が解析した解析結果を類似設計書出力ユニット103が類似度検索結果のサンプル208の形式で出力するために編集を行い、類似度検索結果110をHTML形式で出力する工程とを実行するように動作する。
[Operation]
The overall operation of the similar design document search system configured as described above is as follows. As shown in FIG. 2, the design
この図2に示した全体動作の詳細は、図4に示す如く、設計書解析処理ユニット104が、入力用に用意した記入済みの設計書ファイル(新たに作成した設計書の一部の記述内容)をオープンしてファイル読み込み準備を行うステップ303と、該ステップ303によりオープンした設計書ファイルから設計文書(記述内容)を抽出するステップ301と、該ステップ301により抽出した設計文書を改行単位に分解して内容を項目毎に仕分けるステップ304と、汎用連想計算システム112が汎用連想計算エンジン辞書114を参照して解析(汎用連想計算エンジン辞書114に格納された連想辞書及び既存設計書の記述内容とを比較し、文字列の頻出度合いにより設計書の類似度を計算してランキングで類似候補の既存設計書を出力する処理)を行うステップ305と、該ステップ305により解析した解析結果(ランキングされた類似候補の既存設計書)を類似設計書出力ユニット103に出力するステップ306と、類似設計書出力ユニット103が、前記解析結果(ランキングされた類似候補の既存設計書)を受信するステップ307と、該受信した解析結果(ランキングされた類似候補の既存設計書)に含まれる類似候補の既存設計書に含まれる文字列を1行ずつ後述するチェックに回すステップ308と、前記解析結果全行のチェックが完了したか否かを判定するステップ310と、該ステップ310において解析結果全行のチェックが完了していないと判定したとき、候補文字列長さが元文字列の長さの3倍以上か否かを判定し、3倍以上でないと判定したときに前記ステップ308に戻るステップ312と、該ステップ312において3倍以上と判定したとき、候補を出力対象として図示しないメモリに蓄積して前記ステップ308に戻るステップ314と、前記ステップ310において解析結果全行のチェックが完了したと判定したとき、比較対象の設計文書と類似検索結果を比較するステップ309と、該ステップ309により類似検索結果と設計文書文字とが一致するか否かを判定し、一致していないと判定したときに前記ステップ309に戻るステップ311と、該ステップ311においてひと判定したとき、一致した対象文字色を赤色にHTMLタグの埋め込みにより行う(例えば、標準で白背景に黒文字の場合、赤文字に表示色を変化させる)ステップ313と、該ステップ313に続いて全文字列のチェックが完了したか否かを判定し、完了していないと判定したときに前記ステップ309に戻るステップ315と、該ステップ315において全文字列のチェックが完了したと判定したとき、HTML形式の類似度検索結果ファイル110を出力して処理を終了するステップ317とを実行することによって、設計書のサンプル207に書かれている項目の中で、図6(a)にて説明した汎用連想計算エンジン辞書項目で挙げている項目と一致する項目の既存設計書候補を類似度検索結果ファイル110に格納するように動作する。なお、前記ステップ312における候補文字列長さが元文字列の長さの3倍以上か否かの判定は、一般に新設計書の元文字列長さに比較して既存設計書の長さが3倍以上の場合は、元文字列に対して情報が極めて多く、類似しているとは言い難いためであり、この倍数は3倍に限られるものではなく、2倍〜4倍の範囲で適宜設定しても良い。
The details of the overall operation shown in FIG. 2 are as follows. As shown in FIG. 4, the design document
前記ステップ311による比較対象の新設計書と類似索結果(既存設計書候補)の文字列とが一致するかどうかを判定方法は、まず比較元(新設計書)の文字列と比較先(既存設計書)の文字列が一致する箇所があるか否かを比較先の先頭文字列から順に比較し、比較先に一致する箇所が無かった場合、比較元の文字列を1文字ずつ減らし、同様に比較先の文字列を1文字目から順に文章同士の比較をしていく方法であって、文字列を先頭から一文字ずつ減らして全文と比較し、減らす文字列が最後まで行ったら、もう一度比較対象の文章を、文字列の最後尾から一文字ずつ減らして全文と比較をすることによって行う。
The method for determining whether or not the new design document to be compared in
この文字列比較の方法を図7を参照して説明する。本例は、新設計書に含まれる文字列と類似候補として選択された既存設計書に含まれる文字列とを比較をして、どこが一致していたのか、また文字列の一部が一致しているかもしれないが、類似と言えるかどうかの判断をする処理の例である。 This character string comparison method will be described with reference to FIG. In this example, the character string included in the new design document is compared with the character string included in the existing design document selected as a similar candidate. This is an example of processing for determining whether or not it can be said to be similar.
前記文字列比較の方法は、図7(a)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、既存設計書の比較対象文書(記述内容)が「明日は晴れる」であり、新設計書の5文字が既存設計書の7文字中の5文字に対して順番と共に一致した場合、一致した5文字に色づけ(図面では太枠描写)表示するように動作し、図7(b)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、前記比較対象文書が「きっと東京はれ」であり、新設計書の5文字が比較対象文書7文字中の3文字に対して一致し、設計書の文書と類似計算結果の文字列の一部が一致する場合、一致した3文字に色づけ(図面では太枠描写)表示するように動作し、図7(c)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、前記比較対象文書が「きっと明日の気分は晴れ晴れしている」であり、新設計書の5文字が比較対象文書7文字中の5文字に対して一致し、設計書の文書と類似計算結果の文字列が多く一致しているが、設計書文書の文字数が比較対象の基の文字数より極めて多い(3倍以上)ために、一致した5文字に色づけ(図面では太枠描写。具体的には、標準で白背景に黒文字の場合、赤文字に表示色を変化させる)表示するものの、類似しているとする候補の中から除外するように動作する。 In the character string comparison method, as shown in FIG. 7A, the document of the new design document has five characters “Tomorrow is sunny”, and the comparison target document (description contents) of the existing design document is “Tomorrow is sunny”. When the 5 characters in the new design document match the 5 characters out of the 7 characters in the existing design document in order, the matching 5 characters are colored (indicated by a thick frame in the drawing) and displayed. As shown in FIG. 7B, the document of the new design document has five characters “Sunny tomorrow”, the comparison target document is “Surely Tokyo Hare”, and the five characters of the new design document are the comparison target documents. When three of the seven characters match, and the design document and part of the character string of the similar calculation result match, the matching three characters are colored (indicated by a thick frame in the drawing) and displayed. As shown in FIG. 7 (c), the document of the new design document has five characters “sunny tomorrow”, and the comparison The elephant document is "I'm sure the mood of tomorrow is clear and clear", and the 5 characters in the new design document match the 5 characters in the 7 characters in the comparison target document. However, since the number of characters in the design document document is much larger (three times or more) than the number of characters in the comparison target document, the matching five characters are colored (in the drawing, a bold outline. Specifically, standard In the case of black characters on a white background, the display color is changed to red characters), but the operation is performed so as to be excluded from candidates that are similar.
すなわち、本実施形態による類似設計書出力ユニット103による文字列比較の方法は、比較元(新設計書)の文字列と比較先(既存設計書)の文字列が一致する箇所があるか否かを比較先の先頭文字列から順に比較し、比較先に一致する箇所が無かった場合、比較元(新設計書)の文字列を1文字ずつ減らし、比較先の文字列を1文字目から順に文章同士の比較し、比較元(新設計書)の減らす文字列が最後まで行ったら、もう一度比較対象の文章を、文字列の最後尾から一文字ずつ減らして全文と比較をすることによって行う。なお、前述の文字列比較の方法に、類似度検索結果110から汎用連想計算エンジンの検索処理(301〜307)を行い、その結果に最初に検索した設計書が含まれていれば、類似性が向上するため、この見直し処理を加えても良い。
That is, according to the method of character string comparison by the similar design
このように本実施形態による類似設計書検索システム及び方法は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムを用い、該汎用連想計算システムから出力された新設計書に含まれる入力文字列と類似する既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でない既存設計書候補を選択し、この選択した既存設計書候補と新設計書文字列と一致する文字色を標準色に対して変化させることによって、作成過程の新設計書のむ文字列に基づいて過去の類似する既存設計書を検索し、一致文字を色分け表示することができる。 As described above, the similar design document search system and method according to the present embodiment is a general-purpose associative calculation that calculates the similarity between design documents represented by a line feed of a character string consisting of a plurality of characters for each item based on the frequency of the character string. The existing character string length of the existing design document similar to the input character string included in the new design document output from the general-purpose associative calculation system is not more than a predetermined number of times of the new design document character string length. By selecting a design document candidate and changing the character color that matches the selected existing design document candidate and the new design document character string to the standard color, the past is based on the character string of the new design document in the creation process. The similar design documents can be searched and the matching characters can be displayed in different colors.
101 コンピュータサーバ、102 類似設計書検索システム、
103 類似設計書出力ユニット、104 設計書解析処理ユニット、
105 類似計算結果表示作成処理部、106 設計書解析処理部、
107 設計書ファィル、108 出力可否判定処理部、
109 設計書文書抽出処理部、110 類似度検索結果、
110 類似度検索結果ファイル、111 出力編集処理部、
112 汎用連想計算システム、113 汎用連想計算エンジン、
114 汎用連想計算エンジン辞書
101 computer server, 102 similar design document search system,
103 Similar design document output unit, 104 Design document analysis processing unit,
105 similar calculation result display creation processing unit, 106 design document analysis processing unit ,
107 design document file, 108 output availability determination processing unit,
109 design document document extraction processing unit, 110 similarity search result,
110 similarity search result file, 111 output editing processing section,
112 General-purpose associative calculation system, 113 General-purpose associative calculation engine,
114 General-purpose associative engine dictionary
Claims (8)
前記設計書解析処理ユニットが、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程と、
前記類似設計書出力ユニットが、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行することを特徴とする類似設計書検索システム。 Connected to a general-purpose associative calculation system that calculates the degree of similarity between design documents represented by line breaks of multiple character strings for each item, and extracts the document structure of the input new design document Similarity between a design document analysis processing unit including a design document document extraction processing unit and a design document analysis processing unit that analyzes a document structure extracted by the design document document extraction processing unit, and a design document analyzed by the design document analysis processing unit A similar design document search system comprising a similar design document output unit for outputting a degree determination result file ,
A first step in which the design document analysis processing unit extracts a character string for each line break included in the input new design document and outputs the character string to the general-purpose associative calculation system;
The similar design document output unit is
A second step of inputting an existing design document candidate similar to the input character string output from the general-purpose associative calculation system;
A third step of determining whether the character string length of the existing design document candidate input in the second step is a predetermined number of times or more of the new design document character string length;
A fourth step of accumulating the determined existing design document candidates when it is determined in the third step that the character string length of the existing design document candidate is not a predetermined number of times or more of the new design document character string length;
Compare the character string of the existing design document character string accumulated in the fourth step with the new design document character string, and change the character color of the existing design document character string that matches the new design document character string with respect to the standard color And a fifth step
A similar design document search system comprising: executing a sixth step of outputting an existing design document candidate whose matching character color is changed in the fifth step as a similarity determination result file.
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを特徴とする請求項1記載の類似設計書検索システム。 The similar design document output unit determines the existing design document character string that matches the new design document character string in the fifth step.
A new design specification string characters directed to the characters included in the existing design document string, compares whether a character existing design documents and the new design document characters match the first character of the existing design specifications in order the 7 steps,
When it is determined in the seventh step that there is no character matching the existing design document, an eighth step of excluding the characters of the new design document character string one by one from the beginning;
A ninth step of comparing, in order from the first character, whether or not the new design document character excluding the first character in the eighth step matches the character of the existing design document;
A tenth step of excluding the characters of the new design document character string one by one from the tail when it is determined that the characters of the new design document excluding the first character and the existing design document do not match in the ninth step;
An eleventh step of comparing in order from the last character whether or not the new design document character excluding the last character in the tenth step matches the character of the existing design document;
The similar design document search system according to claim 1, further comprising:
前記設計書解析処理ユニットに、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程を実行させ、
前記類似設計書出力ユニットに、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行させることを特徴とする類似設計書検索方法。 Connected to a general-purpose associative calculation system that calculates the degree of similarity between design documents represented by line breaks of multiple character strings for each item, and extracts the document structure of the input new design document Similarity between a design document analysis processing unit including a design document document extraction processing unit and a design document analysis processing unit that analyzes a document structure extracted by the design document document extraction processing unit, and a design document analyzed by the design document analysis processing unit A similar design document search method in a computer system comprising a similar design document output unit for outputting a degree determination result file ,
Causing the design document analysis processing unit to execute a first step of extracting a character string for each line break included in the input new design document and outputting the extracted character string to the general-purpose associative calculation system;
In the similar design document output unit,
A second step of inputting an existing design document candidate similar to the input character string output from the general-purpose associative calculation system;
A third step of determining whether the character string length of the existing design document candidate input in the second step is a predetermined number of times or more of the new design document character string length;
A fourth step of accumulating the determined existing design document candidates when it is determined in the third step that the character string length of the existing design document candidate is not a predetermined number of times or more of the new design document character string length;
Compare the character string of the existing design document character string accumulated in the fourth step with the new design document character string, and change the character color of the existing design document character string that matches the new design document character string with respect to the standard color And a fifth step
A similar design document search method comprising: executing a sixth step of outputting an existing design document candidate whose matching character color is changed in the fifth step as a similarity determination result file.
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを特徴とする請求項5記載の類似設計書検索方法。 In the similar design document output unit, determination of an existing design document character string that matches the new design document character string in the fifth step,
A new design specification string characters directed to the characters included in the existing design document string, compares whether a character existing design documents and the new design document characters match the first character of the existing design specifications in order the 7 steps,
When it is determined in the seventh step that there is no character matching the existing design document, an eighth step of excluding the characters of the new design document character string one by one from the beginning;
A ninth step of comparing, in order from the first character, whether or not the new design document character excluding the first character in the eighth step matches the character of the existing design document;
When it is determined that the new design document character excluding the first character in said ninth step and the character of the existing design specifications do not match, a tenth step excludes new design document string character by character from the tail,
An eleventh step of comparing in order from the last character whether or not the new design document character excluding the last character in the tenth step matches the character of the existing design document;
The similar design document search method according to claim 5, further comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012063878A JP5779529B2 (en) | 2012-03-21 | 2012-03-21 | Similar Design Document Search System and Similar Design Document Search Method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012063878A JP5779529B2 (en) | 2012-03-21 | 2012-03-21 | Similar Design Document Search System and Similar Design Document Search Method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2013196468A JP2013196468A (en) | 2013-09-30 |
| JP5779529B2 true JP5779529B2 (en) | 2015-09-16 |
Family
ID=49395306
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012063878A Expired - Fee Related JP5779529B2 (en) | 2012-03-21 | 2012-03-21 | Similar Design Document Search System and Similar Design Document Search Method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5779529B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7775572B2 (en) * | 2021-02-22 | 2025-11-26 | 沖電気工業株式会社 | Text classification device, method, and program |
-
2012
- 2012-03-21 JP JP2012063878A patent/JP5779529B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2013196468A (en) | 2013-09-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Limsettho et al. | Automatic unsupervised bug report categorization | |
| US8533140B2 (en) | Method and system for design check knowledge construction | |
| CN107392143A (en) | A kind of resume accurate Analysis method based on SVM text classifications | |
| JP4427500B2 (en) | Semantic analysis device, semantic analysis method, and semantic analysis program | |
| CN114495143B (en) | Text object recognition method and device, electronic equipment and storage medium | |
| CN114239588A (en) | Article processing method and device, electronic equipment and medium | |
| Jankowska et al. | Relative N-gram signatures: Document visualization at the level of character N-grams | |
| CN107679035A (en) | A kind of information intent detection method, device, equipment and storage medium | |
| CN115062148A (en) | Database-based risk control method | |
| US20130013604A1 (en) | Method and System for Making Document Module | |
| JPWO2014064777A1 (en) | Document evaluation support system and document evaluation support method | |
| Jeon et al. | Making a graph database from unstructured text | |
| JP2011238159A (en) | Computer system | |
| JP2015162004A (en) | Inter-development document trace link generation support device and method and program | |
| TW202139054A (en) | Form data detection method, computer device and storage medium | |
| US9218336B2 (en) | Efficient implementation of morphology for agglutinative languages | |
| CN102799584A (en) | Processing method for screening and extraction of output data of detection instrument | |
| JP5779529B2 (en) | Similar Design Document Search System and Similar Design Document Search Method | |
| JP2013218507A (en) | Structure analyzer and program | |
| CN119829021A (en) | Method for generating front-end prototype based on generation countermeasure network | |
| JP6747427B2 (en) | Search system, search method, and search program | |
| CN106462614B (en) | Information analysis system, information analysis method, and information analysis program | |
| JP2008065468A (en) | Text multi-classification apparatus, method for multi-classifying text, program, and storage medium | |
| KR20220097844A (en) | Apparatus for processing unstructured document capable of extracting units and unit value and method thereof | |
| Zhou et al. | Efficient web page main text extraction towards online news analysis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140922 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150424 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150428 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150605 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150707 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150713 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5779529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |