Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5779529B2 - Similar Design Document Search System and Similar Design Document Search Method - Google Patents
[go: Go Back, main page]

JP5779529B2 - Similar Design Document Search System and Similar Design Document Search Method - Google Patents

Similar Design Document Search System and Similar Design Document Search Method Download PDF

Info

Publication number
JP5779529B2
JP5779529B2 JP2012063878A JP2012063878A JP5779529B2 JP 5779529 B2 JP5779529 B2 JP 5779529B2 JP 2012063878 A JP2012063878 A JP 2012063878A JP 2012063878 A JP2012063878 A JP 2012063878A JP 5779529 B2 JP5779529 B2 JP 5779529B2
Authority
JP
Japan
Prior art keywords
design document
character
character string
document
existing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012063878A
Other languages
Japanese (ja)
Other versions
JP2013196468A (en
Inventor
美和 藤村
美和 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2012063878A priority Critical patent/JP5779529B2/en
Publication of JP2013196468A publication Critical patent/JP2013196468A/en
Application granted granted Critical
Publication of JP5779529B2 publication Critical patent/JP5779529B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Description

本発明は、コンピュータプログラムの設計書を作成する際に既存の設計書を検索することができる類似設計書検索システム及び類似設計書検索方法に関する。   The present invention relates to a similar design document search system and a similar design document search method capable of searching an existing design document when creating a computer program design document.

一般にコンピュータプログラムは、メインプログラム及び該メインプログラムから分岐する個別機能を実現する複数のモジュール(サブルーチンプログラム)から構成するように構造化されており、このモジュール単位の設計書は細分化された個別機能であるために過去に作成された既存の設計書や他のグループで既に作成された設計書と類似する可能性がある。一般に、既設の設計書が在るにもかかわらず新たな設計書を作成することは効率的でないことから、前述の既存の設計書を再利用することが望まれるが、従来技術においては、既設の設計書が再利用に有効であるかの判断が困難なため、熟練者による手作業において探すことが行われてする。   Generally, a computer program is structured to be composed of a main program and a plurality of modules (subroutine programs) that realize individual functions branched from the main program, and the design document for each module is divided into individual functions. Therefore, it may be similar to an existing design document created in the past or a design document already created by another group. In general, since it is not efficient to create a new design document even though there is an existing design document, it is desirable to reuse the above-mentioned existing design document. Since it is difficult to determine whether the design document is valid for reuse, a manual search by an expert is performed.

なお、類似度が高い文書を検索する技術が記載された文献としては下記の特許文献1が挙げられ、この特許文献1には、入力文字列と文書データベースの文書を二つの文字列とし、二つの文字列それぞれにおける順序に適合する部分文字列であって、前記二つの文字列に共通する部分文字列を複数求め、前記複数求めた部分文字列に対してそれぞれ重みを定め、該重みを総和することによって類似度を算出する技術が記載されている。   The following patent document 1 is cited as a document describing a technique for searching for a document having a high degree of similarity. The patent document 1 includes an input character string and a document database document as two character strings. A plurality of partial character strings that match the order in each of the two character strings, determine a weight for each of the plurality of partial character strings, and sum the weights A technique for calculating the similarity by doing so is described.

特開2001−67378号公報JP 2001-67378 A

前述の特許文献1記載技術は、類似する文字列の出現頻度が大きい文書を検索することができるものの、両文書の類似箇所を表示することが考慮されていないために検索者による類似箇所の確認が困難であると共に、類似しているとした文書であっても、基になっている文書と類似する文字列の文字数とに極端な差がある場合では、同じ文字列が共通してとしても内容が異なり、参考にならない場合があるという不具合があった。   Although the technique described in Patent Document 1 described above can search for documents in which the appearance frequency of similar character strings is high, it is not considered to display the similar portions of both documents, so the searcher confirms similar portions. However, even if the document is similar and the number of characters in the similar character string is extremely different from the document that is based on the same character string, There was a problem that the contents were different and sometimes not helpful.

特にコンピュータプログラムの設計書においては、設計書の記載方法が項目別に定型化され、この項目に記載される内容も専門用語や特定の用語が繰り返して多用されるため、単純に類似する文字列が多い場合であっても既存の設計書としては内容が異なり、参考にならないという不具合があった。   Particularly in computer program design documents, the description method of the design document is standardized by item, and the contents described in this item are also frequently used with technical terms and specific terms. Even if there were many cases, the contents of the existing design document were different and there was a problem that it was not helpful.

本発明の目的は、前述の従来技術による課題を解決しようとするものであり、既存の設計書から類似する設計書を容易に検索することができる類似設計書検索システム及び類似設計書検索方法を提供することである。   SUMMARY OF THE INVENTION An object of the present invention is to solve the above-described problems caused by the prior art, and a similar design document search system and a similar design document search method capable of easily searching for a similar design document from an existing design document. Is to provide.

前記目的を達成するために本発明は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えた類似設計書検索システムであって、
前記設計書解析処理ユニットが、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程と、
前記類似設計書出力ユニットが、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行することを第1の特徴とする。
In order to achieve the above-mentioned object, the present invention is connected to a general-purpose associative calculation system that calculates the similarity between design documents represented by a line feed for each item by a line feed for each item according to the frequency of the character string, A design document analysis processing unit including a design document document extraction processing unit for extracting the document structure of the input new design document , and a design document analysis processing unit for analyzing the document structure extracted by the design document document extraction processing unit; A similar design document search system comprising a similar design document output unit that outputs a similarity determination result file of a design document analyzed by a document analysis processing unit ,
A first step in which the design document analysis processing unit extracts a character string for each line break included in the input new design document and outputs the character string to the general-purpose associative calculation system;
The similar design document output unit is
A second step of inputting an existing design document candidate similar to the input character string output from the general-purpose associative calculation system;
A third step of determining whether the character string length of the existing design document candidate input in the second step is a predetermined number of times or more of the new design document character string length;
A fourth step of accumulating the determined existing design document candidates when it is determined in the third step that the character string length of the existing design document candidate is not a predetermined number of times or more of the new design document character string length;
Compare the character string of the existing design document character string accumulated in the fourth step with the new design document character string, and change the character color of the existing design document character string that matches the new design document character string with respect to the standard color And a fifth step
A first feature is to execute a sixth step of outputting the existing design document candidate whose matching character color is changed in the fifth step as a similarity determination result file.

また、本発明は、第1特徴の類似設計書検索システムにおいて、前記類似設計書出力ユニットが、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを第2の特徴とし、
前記何れかの特徴の類似設計書検索システムにおいて、前記類似設計書出力ユニットが、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行し、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行することを第3の特徴し、
前記何れかの特徴の類似設計書検索システムにおいて、前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを第4の特徴とする。
Further, the present invention provides the similar design document search system of the first feature, wherein the similar design document output unit determines an existing design document character string that matches the new design document character string in the fifth step.
A new design specification string characters directed to the characters included in the existing design document string, compares whether a character existing design documents and the new design document characters match the first character of the existing design specifications in order the 7 steps,
When it is determined in the seventh step that there is no character matching the existing design document, an eighth step of excluding the characters of the new design document character string one by one from the beginning;
A ninth step of comparing, in order from the first character, whether or not the new design document character excluding the first character in the eighth step matches the character of the existing design document;
A tenth step of excluding the characters of the new design document character string one by one from the tail when it is determined that the characters of the new design document excluding the first character and the existing design document do not match in the ninth step;
An eleventh step of comparing in order from the last character whether or not the new design document character excluding the last character in the tenth step matches the character of the existing design document;
Including the second feature,
In the similar design document search system of any one of the above features, the similar design document output unit receives the similarity determination result file output in the sixth step, and the existing design document included in the similarity determination result file run the twelfth step for performing a fourth step from the first step on the basis of the candidate, contain an existing design document candidates accumulated by said fourth step to an existing design document candidates accumulated by the twelfth step The third feature is to execute the thirteenth step of determining whether or not there is,
In the similar design document search system of any one of the above features, the fourth character string length of the existing design document candidate in the third step is three times a predetermined number times the new design document character string length. Features.

更に、本発明は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えたコンピュータシステムにおける類似設計書検索方法であって、
前記設計書解析処理ユニットに、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程を実行させ、
前記類似設計書出力ユニットに、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行させることを第5の特徴とする。
Furthermore, the present invention is connected to a general-purpose associative calculation system that calculates the similarity between design documents represented by line-breaking a character string consisting of a plurality of characters for each item according to the frequency of the character strings, and the input new design document A design document analysis processing unit including a design document document extraction processing unit for extracting a document structure of the document and a design document analysis processing unit for analyzing the document structure extracted by the design document document extraction processing unit, and the design document analysis processing unit A similar design document search method in a computer system comprising a similar design document output unit for outputting a similarity determination result file of an analyzed design document ,
Causing the design document analysis processing unit to execute a first step of extracting a character string for each line break included in the input new design document and outputting the extracted character string to the general-purpose associative calculation system;
In the similar design document output unit,
A second step of inputting an existing design document candidate similar to the input character string output from the general-purpose associative calculation system;
A third step of determining whether the character string length of the existing design document candidate input in the second step is a predetermined number of times or more of the new design document character string length;
A fourth step of accumulating the determined existing design document candidates when it is determined in the third step that the character string length of the existing design document candidate is not a predetermined number of times or more of the new design document character string length;
Compare the character string of the existing design document character string accumulated in the fourth step with the new design document character string, and change the character color of the existing design document character string that matches the new design document character string with respect to the standard color And a fifth step
A fifth feature is that the sixth step of outputting the existing design document candidate in which the matching character color is changed in the fifth step as a similarity determination result file is executed.

また、本発明は、第5の特徴の類似設計書検索方法において、
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第工程と、
該第工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第工程と、
該第工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを第6の特徴とし、
前記何れかの特徴の類似設計書検索方法において、前記類似設計書出力ユニットに、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行させ、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行させることを第の特徴とし、
前記何れかの特徴の類似設計書検索方法において、前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを第の特徴とする。
Further, the present invention provides a similar design document search method of the fifth feature,
In the similar design document output unit, determination of an existing design document character string that matches the new design document character string in the fifth step,
In the similar design document output unit, determination of an existing design document character string that matches the new design document character string in the fifth step,
A new design specification string characters directed to the characters included in the existing design document string, compares whether a character existing design documents and the new design document characters match the first character of the existing design specifications in order the 7 steps,
When it is determined in the seventh step that there is no character matching the existing design document, an eighth step of excluding the characters of the new design document character string one by one from the beginning;
A ninth step of comparing, in order from the first character, whether or not the new design document character excluding the first character in the eighth step matches the character of the existing design document;
When it is determined that the new design document character excluding the first character in said ninth step and the character of the existing design specifications do not match, a tenth step excludes new design document string character by character from the tail,
An eleventh step of comparing in order from the last character whether or not the new design document character excluding the last character in the tenth step matches the character of the existing design document;
The sixth feature is to include
In the similar design document search method of any one of the above features, an existing design document included in the similarity determination result file with the similarity determination result file output in the sixth step being input to the similar design document output unit. from the first step on the basis of the candidate to execute the 12th step of performing the fourth step, it contains existing design document candidates accumulated by said fourth step to an existing design document candidates accumulated by the twelfth step The seventh feature is to execute the thirteenth step of determining whether or not there is,
Wherein in any of the similar design document search method wherein, that the string length of an existing design document candidates in the third step is to triple the predetermined multiple of said new design document string length of the eighth Features.

本発明による類似設計書検索システム及び類似設計書検索方法は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムを用い、該汎用連想計算システムから出力された新設計書に含まれる入力文字列と類似する既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でない既存設計書候補を選択し、この選択した既存設計書候補と新設計書文字列と一致する文字色を標準色に対して変化させることによって、作成過程の新設計書の文字列に基づいて過去の類似する既存設計書を検索し、一致文字を色分け表示することができる。   The similar design document search system and the similar design document search method according to the present invention provide a general-purpose associative calculation that calculates a similarity between design documents represented by a line feed of a character string consisting of a plurality of characters for each item according to the frequency of the character string. The existing character string length of the existing design document similar to the input character string included in the new design document output from the general-purpose associative calculation system is not more than a predetermined number of times of the new design document character string length. By selecting a design document candidate and changing the character color that matches the selected existing design document candidate and the new design document character string with respect to the standard color, the past design based on the character string of the new design document in the creation process. Similar existing design documents can be searched and matching characters can be displayed in different colors.

本発明の一実施形態による類似設計書検索システムの構成図。The block diagram of the similar design document search system by one Embodiment of this invention. 本実施形態による類似設計書検索システムの全体流れ図。1 is an overall flowchart of a similar design document search system according to the present embodiment. 本実施形態の対象となる設計書を説明するための図。The figure for demonstrating the design document used as the object of this embodiment. 本実施形態による類似設計書検索フローを示す図。The figure which shows the similar design document search flow by this embodiment. 本実施例による設計書のサンプルを示す図。The figure which shows the sample of the design document by a present Example. 本実施形態による汎用連想検索エンジン辞書の項目を説明するための図。The figure for demonstrating the item of the general-purpose associative search engine dictionary by this embodiment. 本実施形態による似設計書検索原理を説明するための図。The figure for demonstrating the similar design document search principle by this embodiment.

以下、本発明の一実施形態による類似設計書検索システム及び類似設計書検索方法を図面を参照して説明する。
[構成]
まず、本発明による類似設計書検索方法及び類似設計書検索プログラムは、同様な機能を実行するモジュールのプログラムにおいては同様な設計書の記述内容に成り、設計書の最初の方の記述内容も同様になることを利用し、新設計書の最初(主要機能等の任意の箇所であっても良い)の記述内容を作成した段階で過去に作成した多数の既存設計書の中から類似する既存設計書を検索し、且つ、新設計書と既存設計書の類似箇所を色分け表示することによって、既存設計書を新設計書作成に利用するものである。
Hereinafter, a similar design document search system and a similar design document search method according to an embodiment of the present invention will be described with reference to the drawings.
[Constitution]
First, the similar design document search method and the similar design document search program according to the present invention have similar design document description contents in a module program that performs similar functions, and the first description contents of the design document are the same. The existing design similar to many existing design documents created in the past at the stage of creating the description contents of the first of the new design document (may be an arbitrary part such as main functions) The existing design document is used to create a new design document by searching for the document and displaying the similar parts of the new design document and the existing design document in different colors.

この本実施形態による類似設計書検索方法及び類似設計書検索プログラムを実行する類似設計書検索システムは、図1に示す如く、表計算形式によって入力した設計書ファィル107に類似する既存の設計書を検索する類似設計書検索システム102と、文書間の類似度の連想を計算する汎用連想計算システム112とを備えたコンピュータサーバ101によって構成され、該汎用連想計算システム112は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって算出する機能を有する。   The similar design document search system for executing the similar design document search method and the similar design document search program according to the present embodiment, as shown in FIG. 1, stores an existing design document similar to the design document file 107 inputted in a spreadsheet format. The computer system 101 includes a similar design document search system 102 for searching, and a general-purpose associative calculation system 112 for calculating associations of similarities between documents. The general-purpose associative calculation system 112 is a character string composed of a plurality of characters. Has a function of calculating the degree of similarity between design documents expressed by line feed for each item based on the frequency of the character string.

前記類似設計書検索システム102は、入力された設計書ファイル107を入力として設計書の文書構造を抽出する設計書文書抽出処理部109及び該設計書文書抽出処理部109により抽出した文書構造を解析する設計書解析処理部106とを含む設計書解析処理ユニット104と、該設計書解析処理ユニット104によって解析した設計書の類似度判定結果を出力するための類似設計書出力ユニット103とから構成される。 The similar design document search system 102 analyzes the document structure extracted by the design document document extraction processing unit 109 that extracts the document structure of the design document by using the input design document file 107 as an input, and the design document document extraction processing unit 109. A design document analysis processing unit 104 including a design document analysis processing unit 106 to be processed, and a similar design document output unit 103 for outputting the similarity determination result of the design document analyzed by the design document analysis processing unit 104. The

前記類似設計書出力ユニット103は、該設計書解析処理ユニット104によって解析した設計書の類似度判定結果を表示するための類似計算結果情報を作成する類似計算結果表示作成処理部105と、該類似計算結果表示作成処理部105によって表示部に表示された設計書の類似計算結果情報の類似度を操作者が出力するか否かの判定結果を判定するための出力可否判定処理部108及び該出力可否判定処理部108に出力されると判定したとき、該類似計算結果情報をブラウザ表示用のHTML文書に編集して類似度検索結果ファイル110として画面出力するHTML出力編集処理部111とから構成される。   The similar design document output unit 103 includes a similar calculation result display creation processing unit 105 that creates similar calculation result information for displaying the similarity determination result of the design document analyzed by the design document analysis processing unit 104, and the similarity An output permission determination processing unit 108 for determining a determination result of whether or not the operator outputs similarity of the similar calculation result information of the design document displayed on the display unit by the calculation result display creation processing unit 105 and the output An HTML output editing processing unit 111 that edits the similarity calculation result information into an HTML document for browser display and outputs it as a similarity search result file 110 when it is determined to be output to the availability determination processing unit 108. The

前記汎用連想計算システム112は、既存の複数の設計書及び単語間の類似度の連想を行うための連想辞書を格納した汎用連想計算エンジン辞書114と、該汎用連想計算エンジン辞書114をアクセスして入力された設計書の記述内容と類似する既存の設計書を検索する汎用連想計算エンジン113とから構成される。   The general-purpose associative calculation system 112 accesses a general-purpose associative calculation engine dictionary 114 storing an associative dictionary for associating a plurality of existing design documents and similarities between words, and the general-purpose associative calculation engine dictionary 114 A general-purpose associative engine 113 that searches for an existing design document similar to the description content of the input design document is configured.

前記設計書ファイル107の設計文書(記述内容)は、複数文字から成る文字列を項目毎に改行して表されるものであって、例えば、図3(a)の符号207にサンプルとして示す如く、設計書ファイルのシステム毎の識別子であるシステムIDと、該システムIDに対応したシステム名と、当該設計書ファイルのシステム種別と、設計書ファイルのシステム概要との各項目とから構成され、具体的には、例えば、システムID「U−0−0−0−0−0」のシステム名「ファイルを読み込む」が、同システム種別「基本イベントフロー」、同システム概要「1.ファイルをオープンする。2.ファイルを読み込む。3.ファイルをクローズする。」の如く記載され、システムID「U−0−0−0−0−0」のシステム名「ファイルを読み込む」が、同システム種別「代替イベントフロー」、同システム概要が「1a.ファイルのオープンが失敗した場合、メッセージを出力する。」の如く記載され、図示の如く改行単位に構成されている。   The design document (description content) of the design document file 107 is represented by a character string consisting of a plurality of characters for each item, and, for example, as shown as a sample in reference numeral 207 in FIG. The system includes a system ID that is an identifier for each system of the design document file, a system name corresponding to the system ID, a system type of the design document file, and a system overview of the design document file. Specifically, for example, the system name “read file” of the system ID “U-0-0-0-0-0” has the same system type “basic event flow” and the same system outline “1. Open file”. 2. Read the file 3. Close the file ”and the system name“ U-0-0-0-0-0 ”of the system name“ Read the file No "is, the system type" Alternate event flow ", if the opening of the system overview" 1a. File fails, and outputs the message. "Is described as being configured as illustrated newline units.

また、前記類似度検索結果ファイル110の類似計算結果情報のサンプルは、例えば図3(b)の符号208として示す如く、設計書ファイル107のシステム概要「ファイルをオープンする。」に類似する設計書分書情報が、システムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」、システム概要「ファイルオープン」と、システムID「U−0−0−0−0−1」のシステム名「ファイル検索」、システ概要「ファイルオープン」と、システムID「U−0−0−0−0−2」のシステム名「ファイル検索」、システム概要「ファイルクローズとであるとして出力される。   A sample of similarity calculation result information in the similarity search result file 110 is a design document similar to the system outline “open file” of the design document file 107, for example, as indicated by reference numeral 208 in FIG. The split information includes a system name “file read” with a system ID “U-0-0-0-0-0”, a system outline “file open”, and a system ID “U-0-0-0-0-1”. System name “file search”, system outline “file open”, system ID “U-0-0-0-0-2”, system name “file search”, and system outline “file close” are output. Is done.

前記汎用連想計算エンジン辞書114の連想辞書の項目は、図6(a)に示す如く、使用する辞書の項目は4項目であって、これら4項目は設計中のシステムを識別するための識別子に相当する記号番号であるシステムIDと、設計対象となるシステムの日本語名称であるシステム名と、設計対象となるシステムの流れ(処理フロー)の種別であるシステム種別との各項目情報とから成り、具体的には、図6(b)に示す如く、システムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」のシステム種別「基本イベントフロー」として、システム概要が「1.ファルをオープンする。」と「2.ファイルを読み込む。」と「3.ファイルをクローズするル。」があり、同様にシステムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」のシステム種別「代替イベントフロー」として、システム概要が「1a.ファルのオープンに失敗した場合、メッセージを出力する。」があることが辞書として登録されている。   As shown in FIG. 6A, there are four dictionary items to be used in the general-purpose associative engine dictionary 114, and these four items are identifiers for identifying the system under design. Each item information includes a system ID that is a corresponding symbol number, a system name that is a Japanese name of a system to be designed, and a system type that is a type of a system flow (processing flow) to be designed. More specifically, as shown in FIG. 6B, the system outline is as a system type “basic event flow” of the system name “file read” of the system ID “U-0-0-0-0-0”. There are “1. Open the file”, “2. Read the file” and “3. Close the file”. Similarly, the system ID “U-0-0-0-0-0” Cis A beam name system type "Alternate event flow" in the "file read", the system overview "1a. If you fail to Fal open, and outputs the message." Is that there has been registered as a dictionary.

[動作]
このように構成された類似設計書検索システムの全体動作は、図2に示す如く、設計書解析処理ユニット104が、入力している設計書ファイルのサンプル207の内容で構成される設計書ファイル107を入力する工程と、該入力した設計書ファイル107を汎用連想計算エンジン113が汎用連想計算エンジン辞書114を参照して解析(汎用連想計算エンジン辞書114に格納された連想辞書及び既存設計書の記述内容とを比較し、文字列の頻出度合いにより設計書の類似度を計算してランキングで出力する処理)する工程と、該汎用連想計算エンジン113が解析した解析結果を類似設計書出力ユニット103が類似度検索結果のサンプル208の形式で出力するために編集を行い、類似度検索結果110をHTML形式で出力する工程とを実行するように動作する。
[Operation]
The overall operation of the similar design document search system configured as described above is as follows. As shown in FIG. 2, the design document analysis unit 104 includes a design document file 107 composed of the contents of the sample 207 of the input design document file. , And the general-purpose associative calculation engine 113 analyzes the input design document file 107 by referring to the general-purpose associative calculation engine dictionary 114 (description of the associative dictionary and the existing design document stored in the general-purpose associative calculation engine dictionary 114) A process of comparing the contents, calculating the similarity of the design document according to the frequency of occurrence of the character string, and outputting it by ranking), and the similar design document output unit 103 analyzes the analysis result analyzed by the general-purpose associative calculation engine 113 Editing is performed to output the similarity search result sample 208 in the format, and the similarity search result 110 is output in HTML format. It operates to perform a degree.

この図2に示した全体動作の詳細は、図4に示す如く、設計書解析処理ユニット104が、入力用に用意した記入済みの設計書ファイル(新たに作成した設計書の一部の記述内容)をオープンしてファイル読み込み準備を行うステップ303と、該ステップ303によりオープンした設計書ファイルから設計文書(記述内容)を抽出するステップ301と、該ステップ301により抽出した設計文書を改行単位に分解して内容を項目毎に仕分けるステップ304と、汎用連想計算システム112が汎用連想計算エンジン辞書114を参照して解析(汎用連想計算エンジン辞書114に格納された連想辞書及び既存設計書の記述内容とを比較し、文字列の頻出度合いにより設計書の類似度を計算してランキングで類似候補の既存設計書を出力する処理)を行うステップ305と、該ステップ305により解析した解析結果(ランキングされた類似候補の既存設計書)を類似設計書出力ユニット103に出力するステップ306と、類似設計書出力ユニット103が、前記解析結果(ランキングされた類似候補の既存設計書)を受信するステップ307と、該受信した解析結果(ランキングされた類似候補の既存設計書)に含まれる類似候補の既存設計書に含まれる文字列を1行ずつ後述するチェックに回すステップ308と、前記解析結果全行のチェックが完了したか否かを判定するステップ310と、該ステップ310において解析結果全行のチェックが完了していないと判定したとき、候補文字列長さが元文字列の長さの3倍以上か否かを判定し、3倍以上でないと判定したときに前記ステップ308に戻るステップ312と、該ステップ312において3倍以上と判定したとき、候補を出力対象として図示しないメモリに蓄積して前記ステップ308に戻るステップ314と、前記ステップ310において解析結果全行のチェックが完了したと判定したとき、比較対象の設計文書と類似検索結果を比較するステップ309と、該ステップ309により類似検索結果と設計文書文字とが一致するか否かを判定し、一致していないと判定したときに前記ステップ309に戻るステップ311と、該ステップ311においてひと判定したとき、一致した対象文字色を赤色にHTMLタグの埋め込みにより行う(例えば、標準で白背景に黒文字の場合、赤文字に表示色を変化させる)ステップ313と、該ステップ313に続いて全文字列のチェックが完了したか否かを判定し、完了していないと判定したときに前記ステップ309に戻るステップ315と、該ステップ315において全文字列のチェックが完了したと判定したとき、HTML形式の類似度検索結果ファイル110を出力して処理を終了するステップ317とを実行することによって、設計書のサンプル207に書かれている項目の中で、図6(a)にて説明した汎用連想計算エンジン辞書項目で挙げている項目と一致する項目の既存設計書候補を類似度検索結果ファイル110に格納するように動作する。なお、前記ステップ312における候補文字列長さが元文字列の長さの3倍以上か否かの判定は、一般に新設計書の元文字列長さに比較して既存設計書の長さが3倍以上の場合は、元文字列に対して情報が極めて多く、類似しているとは言い難いためであり、この倍数は3倍に限られるものではなく、2倍〜4倍の範囲で適宜設定しても良い。   The details of the overall operation shown in FIG. 2 are as follows. As shown in FIG. 4, the design document analysis processing unit 104 provides a completed design document file prepared for input (a part of description contents of a newly created design document). ) To prepare for file reading, step 301 for extracting a design document (description contents) from the design document file opened in step 303, and decomposing the design document extracted in step 301 into line breaks Then, in step 304, the contents are classified for each item, and the general-purpose associative calculation system 112 performs analysis by referring to the general-purpose associative calculation engine dictionary 114 (the associative dictionary stored in the general-purpose associative calculation engine dictionary 114 and the description contents of the existing design document). , Calculate the similarity of design documents based on the frequency of character strings, and output similar design candidates with rankings Step 305 for performing processing), Step 306 for outputting the analysis result (the existing design document for the ranked similar candidate ranked) analyzed in Step 305 to the similar design document output unit 103, and the similar design document output unit 103 Step 307 for receiving an analysis result (an existing design document for the ranked similar candidate), and a character string included in the existing design document for the similar candidate included in the received analysis result (the existing design document for the similar candidate ranked) Step 308 is sent to a check to be described later line by line, Step 310 for determining whether or not the analysis results have been checked for all rows, and a determination that all the analysis results have not been checked in Step 310 When it is determined whether the candidate character string length is 3 times or more of the original character string length and not 3 times or more When the step 312 returns to the step 308, and when the step 312 determines that the value is three times or more, the candidate is stored in a memory (not shown) as an output target and the step 314 returns to the step 308. Step 309 for comparing the similar search result with the design document to be compared, and whether or not the similar search result and the design document character match are determined by the step 309. Step 311 returns to Step 309 when it is determined that it is not, and when a determination is made in Step 311, the matching target character color is made red by embedding an HTML tag (for example, when a black character is standard on a white background) , And change the display color to red characters) Step 315 returns to Step 309 when it is determined whether or not all character strings have been checked, and Step 315 determines that all character strings have been checked. In step 317 for outputting the similarity search result file 110 in the HTML format and ending the processing, the items described in the design document sample 207 are described with reference to FIG. It operates so as to store existing design document candidates of items that match the items listed in the general-purpose associative engine dictionary item in the similarity search result file 110. It should be noted that the determination of whether or not the candidate character string length in step 312 is more than three times the original character string length is generally the length of the existing design document compared to the original character string length of the new design document. In the case of 3 times or more, there is much information with respect to the original character string and it is difficult to say that they are similar. This multiple is not limited to 3 times but in the range of 2 to 4 times. You may set suitably.

前記ステップ311による比較対象の新設計書と類似索結果(既存設計書候補)の文字列とが一致するかどうかを判定方法は、まず比較元(新設計書)の文字列と比較先(既存設計書)の文字列が一致する箇所があるか否かを比較先の先頭文字列から順に比較し、比較先に一致する箇所が無かった場合、比較元の文字列を1文字ずつ減らし、同様に比較先の文字列を1文字目から順に文章同士の比較をしていく方法であって、文字列を先頭から一文字ずつ減らして全文と比較し、減らす文字列が最後まで行ったら、もう一度比較対象の文章を、文字列の最後尾から一文字ずつ減らして全文と比較をすることによって行う。   The method for determining whether or not the new design document to be compared in step 311 matches the character string of the similarity search result (existing design document candidate) is as follows. First, the character string of the comparison source (new design document) and the comparison destination (existing) The design document is compared in order from the first character string of the comparison destination, and if there is no matching part, the comparison source character string is reduced by one character and the same This is a method of comparing the comparison target character strings in order from the first character, reducing the character string one character at a time from the beginning, comparing it with the whole sentence, and comparing again when the reduced character string reaches the end The target sentence is reduced by one character from the end of the character string and compared with the whole sentence.

この文字列比較の方法を図7を参照して説明する。本例は、新設計書に含まれる文字列と類似候補として選択された既存設計書に含まれる文字列とを比較をして、どこが一致していたのか、また文字列の一部が一致しているかもしれないが、類似と言えるかどうかの判断をする処理の例である。   This character string comparison method will be described with reference to FIG. In this example, the character string included in the new design document is compared with the character string included in the existing design document selected as a similar candidate. This is an example of processing for determining whether or not it can be said to be similar.

前記文字列比較の方法は、図7(a)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、既存設計書の比較対象文書(記述内容)が「明日は晴れる」であり、新設計書の5文字が既存設計書の7文字中の5文字に対して順番と共に一致した場合、一致した5文字に色づけ(図面では太枠描写)表示するように動作し、図7(b)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、前記比較対象文書が「きっと東京はれ」であり、新設計書の5文字が比較対象文書7文字中の3文字に対して一致し、設計書の文書と類似計算結果の文字列の一部が一致する場合、一致した3文字に色づけ(図面では太枠描写)表示するように動作し、図7(c)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、前記比較対象文書が「きっと明日の気分は晴れ晴れしている」であり、新設計書の5文字が比較対象文書7文字中の5文字に対して一致し、設計書の文書と類似計算結果の文字列が多く一致しているが、設計書文書の文字数が比較対象の基の文字数より極めて多い(3倍以上)ために、一致した5文字に色づけ(図面では太枠描写。具体的には、標準で白背景に黒文字の場合、赤文字に表示色を変化させる)表示するものの、類似しているとする候補の中から除外するように動作する。   In the character string comparison method, as shown in FIG. 7A, the document of the new design document has five characters “Tomorrow is sunny”, and the comparison target document (description contents) of the existing design document is “Tomorrow is sunny”. When the 5 characters in the new design document match the 5 characters out of the 7 characters in the existing design document in order, the matching 5 characters are colored (indicated by a thick frame in the drawing) and displayed. As shown in FIG. 7B, the document of the new design document has five characters “Sunny tomorrow”, the comparison target document is “Surely Tokyo Hare”, and the five characters of the new design document are the comparison target documents. When three of the seven characters match, and the design document and part of the character string of the similar calculation result match, the matching three characters are colored (indicated by a thick frame in the drawing) and displayed. As shown in FIG. 7 (c), the document of the new design document has five characters “sunny tomorrow”, and the comparison The elephant document is "I'm sure the mood of tomorrow is clear and clear", and the 5 characters in the new design document match the 5 characters in the 7 characters in the comparison target document. However, since the number of characters in the design document document is much larger (three times or more) than the number of characters in the comparison target document, the matching five characters are colored (in the drawing, a bold outline. Specifically, standard In the case of black characters on a white background, the display color is changed to red characters), but the operation is performed so as to be excluded from candidates that are similar.

すなわち、本実施形態による類似設計書出力ユニット103による文字列比較の方法は、比較元(新設計書)の文字列と比較先(既存設計書)の文字列が一致する箇所があるか否かを比較先の先頭文字列から順に比較し、比較先に一致する箇所が無かった場合、比較元(新設計書)の文字列を1文字ずつ減らし、比較先の文字列を1文字目から順に文章同士の比較し、比較元(新設計書)の減らす文字列が最後まで行ったら、もう一度比較対象の文章を、文字列の最後尾から一文字ずつ減らして全文と比較をすることによって行う。なお、前述の文字列比較の方法に、類似度検索結果110から汎用連想計算エンジンの検索処理(301〜307)を行い、その結果に最初に検索した設計書が含まれていれば、類似性が向上するため、この見直し処理を加えても良い。   That is, according to the method of character string comparison by the similar design document output unit 103 according to the present embodiment, whether or not there is a portion where the character string of the comparison source (new design document) and the character string of the comparison destination (existing design document) match. Are compared in order from the first character string of the comparison destination, and if there is no match in the comparison destination, the character string of the comparison source (new design document) is reduced by one character, and the comparison target character string is reduced in order from the first character. Comparing sentences, when the character string to be reduced by the comparison source (new design document) is completed to the end, the comparison target sentence is again reduced by one character from the tail of the character string and compared with the whole sentence. If the above-mentioned character string comparison method performs the general associative calculation engine search process (301 to 307) from the similarity search result 110 and the design document searched first is included in the result, the similarity is determined. Therefore, this review process may be added.

このように本実施形態による類似設計書検索システム及び方法は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムを用い、該汎用連想計算システムから出力された新設計書に含まれる入力文字列と類似する既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でない既存設計書候補を選択し、この選択した既存設計書候補と新設計書文字列と一致する文字色を標準色に対して変化させることによって、作成過程の新設計書のむ文字列に基づいて過去の類似する既存設計書を検索し、一致文字を色分け表示することができる。   As described above, the similar design document search system and method according to the present embodiment is a general-purpose associative calculation that calculates the similarity between design documents represented by a line feed of a character string consisting of a plurality of characters for each item based on the frequency of the character string. The existing character string length of the existing design document similar to the input character string included in the new design document output from the general-purpose associative calculation system is not more than a predetermined number of times of the new design document character string length. By selecting a design document candidate and changing the character color that matches the selected existing design document candidate and the new design document character string to the standard color, the past is based on the character string of the new design document in the creation process. The similar design documents can be searched and the matching characters can be displayed in different colors.

101 コンピュータサーバ、102 類似設計書検索システム、
103 類似設計書出力ユニット、104 設計書解析処理ユニット、
105 類似計算結果表示作成処理部、106 設計書解析処理部
107 設計書ファィル、108 出力可否判定処理部、
109 設計書文書抽出処理部、110 類似度検索結果、
110 類似度検索結果ファイル、111 出力編集処理部、
112 汎用連想計算システム、113 汎用連想計算エンジン、
114 汎用連想計算エンジン辞書
101 computer server, 102 similar design document search system,
103 Similar design document output unit, 104 Design document analysis processing unit,
105 similar calculation result display creation processing unit, 106 design document analysis processing unit ,
107 design document file, 108 output availability determination processing unit,
109 design document document extraction processing unit, 110 similarity search result,
110 similarity search result file, 111 output editing processing section,
112 General-purpose associative calculation system, 113 General-purpose associative calculation engine,
114 General-purpose associative engine dictionary

Claims (8)

複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えた類似設計書検索システムであって、
前記設計書解析処理ユニットが、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程と、
前記類似設計書出力ユニットが、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行することを特徴とする類似設計書検索システム。
Connected to a general-purpose associative calculation system that calculates the degree of similarity between design documents represented by line breaks of multiple character strings for each item, and extracts the document structure of the input new design document Similarity between a design document analysis processing unit including a design document document extraction processing unit and a design document analysis processing unit that analyzes a document structure extracted by the design document document extraction processing unit, and a design document analyzed by the design document analysis processing unit A similar design document search system comprising a similar design document output unit for outputting a degree determination result file ,
A first step in which the design document analysis processing unit extracts a character string for each line break included in the input new design document and outputs the character string to the general-purpose associative calculation system;
The similar design document output unit is
A second step of inputting an existing design document candidate similar to the input character string output from the general-purpose associative calculation system;
A third step of determining whether the character string length of the existing design document candidate input in the second step is a predetermined number of times or more of the new design document character string length;
A fourth step of accumulating the determined existing design document candidates when it is determined in the third step that the character string length of the existing design document candidate is not a predetermined number of times or more of the new design document character string length;
Compare the character string of the existing design document character string accumulated in the fourth step with the new design document character string, and change the character color of the existing design document character string that matches the new design document character string with respect to the standard color And a fifth step
A similar design document search system comprising: executing a sixth step of outputting an existing design document candidate whose matching character color is changed in the fifth step as a similarity determination result file.
前記類似設計書出力ユニットが、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを特徴とする請求項1記載の類似設計書検索システム。
The similar design document output unit determines the existing design document character string that matches the new design document character string in the fifth step.
A new design specification string characters directed to the characters included in the existing design document string, compares whether a character existing design documents and the new design document characters match the first character of the existing design specifications in order the 7 steps,
When it is determined in the seventh step that there is no character matching the existing design document, an eighth step of excluding the characters of the new design document character string one by one from the beginning;
A ninth step of comparing, in order from the first character, whether or not the new design document character excluding the first character in the eighth step matches the character of the existing design document;
A tenth step of excluding the characters of the new design document character string one by one from the tail when it is determined that the characters of the new design document excluding the first character and the existing design document do not match in the ninth step;
An eleventh step of comparing in order from the last character whether or not the new design document character excluding the last character in the tenth step matches the character of the existing design document;
The similar design document search system according to claim 1, further comprising:
前記類似設計書出力ユニットが、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行し、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行することを特徴とする請求項1又は2記載の類似設計書検索システム。 The similar design document output unit receives the similarity determination result file output in the sixth step, and based on the existing design document candidates included in the similarity determination result file, the first step to the fourth step run the twelfth step of the execution, executes a thirteenth step of determining whether said twelfth existing design document candidates accumulated by said fourth step to an existing design document candidates accumulated in the step is included The similar design document search system according to claim 1 or 2, characterized in that 前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを特徴とする請求項1から3何れかに記載の類似設計書検索システム。   The similar design document according to any one of claims 1 to 3, wherein a character string length of the existing design document candidate in the third step is three times a predetermined number of times of the new design document character string length. Search system. 複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えたコンピュータシステムにおける類似設計書検索方法であって、
前記設計書解析処理ユニットに、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程を実行させ、
前記類似設計書出力ユニットに、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行させることを特徴とする類似設計書検索方法。
Connected to a general-purpose associative calculation system that calculates the degree of similarity between design documents represented by line breaks of multiple character strings for each item, and extracts the document structure of the input new design document Similarity between a design document analysis processing unit including a design document document extraction processing unit and a design document analysis processing unit that analyzes a document structure extracted by the design document document extraction processing unit, and a design document analyzed by the design document analysis processing unit A similar design document search method in a computer system comprising a similar design document output unit for outputting a degree determination result file ,
Causing the design document analysis processing unit to execute a first step of extracting a character string for each line break included in the input new design document and outputting the extracted character string to the general-purpose associative calculation system;
In the similar design document output unit,
A second step of inputting an existing design document candidate similar to the input character string output from the general-purpose associative calculation system;
A third step of determining whether the character string length of the existing design document candidate input in the second step is a predetermined number of times or more of the new design document character string length;
A fourth step of accumulating the determined existing design document candidates when it is determined in the third step that the character string length of the existing design document candidate is not a predetermined number of times or more of the new design document character string length;
Compare the character string of the existing design document character string accumulated in the fourth step with the new design document character string, and change the character color of the existing design document character string that matches the new design document character string with respect to the standard color And a fifth step
A similar design document search method comprising: executing a sixth step of outputting an existing design document candidate whose matching character color is changed in the fifth step as a similarity determination result file.
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第工程と、
該第工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第工程と、
該第工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを特徴とする請求項5記載の類似設計書検索方法。
In the similar design document output unit, determination of an existing design document character string that matches the new design document character string in the fifth step,
A new design specification string characters directed to the characters included in the existing design document string, compares whether a character existing design documents and the new design document characters match the first character of the existing design specifications in order the 7 steps,
When it is determined in the seventh step that there is no character matching the existing design document, an eighth step of excluding the characters of the new design document character string one by one from the beginning;
A ninth step of comparing, in order from the first character, whether or not the new design document character excluding the first character in the eighth step matches the character of the existing design document;
When it is determined that the new design document character excluding the first character in said ninth step and the character of the existing design specifications do not match, a tenth step excludes new design document string character by character from the tail,
An eleventh step of comparing in order from the last character whether or not the new design document character excluding the last character in the tenth step matches the character of the existing design document;
The similar design document search method according to claim 5, further comprising:
前記類似設計書出力ユニットに、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行させ、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行させることを特徴とする請求項5又は6記載の類似設計書検索方法。 With the similarity determination result file output in the sixth step as an input to the similar design document output unit, the first to fourth steps based on the existing design document candidates included in the similarity determination result file to execute the 12th step of the execution, to execute a second 13 step determines whether said twelfth existing design document candidates accumulated by said fourth step to an existing design document candidates accumulated in the step is included The similar design document search method according to claim 5 or 6, wherein: 前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを特徴とする請求項5から7何れかに記載の類似設計書検索方法。   The similar design document according to any one of claims 5 to 7, wherein the character string length of the existing design document candidate in the third step is triple a predetermined number of times of the new design document character string length. retrieval method.
JP2012063878A 2012-03-21 2012-03-21 Similar Design Document Search System and Similar Design Document Search Method Expired - Fee Related JP5779529B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012063878A JP5779529B2 (en) 2012-03-21 2012-03-21 Similar Design Document Search System and Similar Design Document Search Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012063878A JP5779529B2 (en) 2012-03-21 2012-03-21 Similar Design Document Search System and Similar Design Document Search Method

Publications (2)

Publication Number Publication Date
JP2013196468A JP2013196468A (en) 2013-09-30
JP5779529B2 true JP5779529B2 (en) 2015-09-16

Family

ID=49395306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012063878A Expired - Fee Related JP5779529B2 (en) 2012-03-21 2012-03-21 Similar Design Document Search System and Similar Design Document Search Method

Country Status (1)

Country Link
JP (1) JP5779529B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7775572B2 (en) * 2021-02-22 2025-11-26 沖電気工業株式会社 Text classification device, method, and program

Also Published As

Publication number Publication date
JP2013196468A (en) 2013-09-30

Similar Documents

Publication Publication Date Title
Limsettho et al. Automatic unsupervised bug report categorization
US8533140B2 (en) Method and system for design check knowledge construction
CN107392143A (en) A kind of resume accurate Analysis method based on SVM text classifications
JP4427500B2 (en) Semantic analysis device, semantic analysis method, and semantic analysis program
CN114495143B (en) Text object recognition method and device, electronic equipment and storage medium
CN114239588A (en) Article processing method and device, electronic equipment and medium
Jankowska et al. Relative N-gram signatures: Document visualization at the level of character N-grams
CN107679035A (en) A kind of information intent detection method, device, equipment and storage medium
CN115062148A (en) Database-based risk control method
US20130013604A1 (en) Method and System for Making Document Module
JPWO2014064777A1 (en) Document evaluation support system and document evaluation support method
Jeon et al. Making a graph database from unstructured text
JP2011238159A (en) Computer system
JP2015162004A (en) Inter-development document trace link generation support device and method and program
TW202139054A (en) Form data detection method, computer device and storage medium
US9218336B2 (en) Efficient implementation of morphology for agglutinative languages
CN102799584A (en) Processing method for screening and extraction of output data of detection instrument
JP5779529B2 (en) Similar Design Document Search System and Similar Design Document Search Method
JP2013218507A (en) Structure analyzer and program
CN119829021A (en) Method for generating front-end prototype based on generation countermeasure network
JP6747427B2 (en) Search system, search method, and search program
CN106462614B (en) Information analysis system, information analysis method, and information analysis program
JP2008065468A (en) Text multi-classification apparatus, method for multi-classifying text, program, and storage medium
KR20220097844A (en) Apparatus for processing unstructured document capable of extracting units and unit value and method thereof
Zhou et al. Efficient web page main text extraction towards online news analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150713

R150 Certificate of patent or registration of utility model

Ref document number: 5779529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees