Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5779529B2 - 類似設計書検索システム及び類似設計書検索方法 - Google Patents
[go: Go Back, main page]

JP5779529B2 - 類似設計書検索システム及び類似設計書検索方法 - Google Patents

類似設計書検索システム及び類似設計書検索方法 Download PDF

Info

Publication number
JP5779529B2
JP5779529B2 JP2012063878A JP2012063878A JP5779529B2 JP 5779529 B2 JP5779529 B2 JP 5779529B2 JP 2012063878 A JP2012063878 A JP 2012063878A JP 2012063878 A JP2012063878 A JP 2012063878A JP 5779529 B2 JP5779529 B2 JP 5779529B2
Authority
JP
Japan
Prior art keywords
design document
character
character string
document
existing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012063878A
Other languages
English (en)
Other versions
JP2013196468A (ja
Inventor
美和 藤村
美和 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2012063878A priority Critical patent/JP5779529B2/ja
Publication of JP2013196468A publication Critical patent/JP2013196468A/ja
Application granted granted Critical
Publication of JP5779529B2 publication Critical patent/JP5779529B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Description

本発明は、コンピュータプログラムの設計書を作成する際に既存の設計書を検索することができる類似設計書検索システム及び類似設計書検索方法に関する。
一般にコンピュータプログラムは、メインプログラム及び該メインプログラムから分岐する個別機能を実現する複数のモジュール(サブルーチンプログラム)から構成するように構造化されており、このモジュール単位の設計書は細分化された個別機能であるために過去に作成された既存の設計書や他のグループで既に作成された設計書と類似する可能性がある。一般に、既設の設計書が在るにもかかわらず新たな設計書を作成することは効率的でないことから、前述の既存の設計書を再利用することが望まれるが、従来技術においては、既設の設計書が再利用に有効であるかの判断が困難なため、熟練者による手作業において探すことが行われてする。
なお、類似度が高い文書を検索する技術が記載された文献としては下記の特許文献1が挙げられ、この特許文献1には、入力文字列と文書データベースの文書を二つの文字列とし、二つの文字列それぞれにおける順序に適合する部分文字列であって、前記二つの文字列に共通する部分文字列を複数求め、前記複数求めた部分文字列に対してそれぞれ重みを定め、該重みを総和することによって類似度を算出する技術が記載されている。
特開2001−67378号公報
前述の特許文献1記載技術は、類似する文字列の出現頻度が大きい文書を検索することができるものの、両文書の類似箇所を表示することが考慮されていないために検索者による類似箇所の確認が困難であると共に、類似しているとした文書であっても、基になっている文書と類似する文字列の文字数とに極端な差がある場合では、同じ文字列が共通してとしても内容が異なり、参考にならない場合があるという不具合があった。
特にコンピュータプログラムの設計書においては、設計書の記載方法が項目別に定型化され、この項目に記載される内容も専門用語や特定の用語が繰り返して多用されるため、単純に類似する文字列が多い場合であっても既存の設計書としては内容が異なり、参考にならないという不具合があった。
本発明の目的は、前述の従来技術による課題を解決しようとするものであり、既存の設計書から類似する設計書を容易に検索することができる類似設計書検索システム及び類似設計書検索方法を提供することである。
前記目的を達成するために本発明は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えた類似設計書検索システムであって、
前記設計書解析処理ユニットが、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程と、
前記類似設計書出力ユニットが、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行することを第1の特徴とする。
また、本発明は、第1特徴の類似設計書検索システムにおいて、前記類似設計書出力ユニットが、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを第2の特徴とし、
前記何れかの特徴の類似設計書検索システムにおいて、前記類似設計書出力ユニットが、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行し、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行することを第3の特徴し、
前記何れかの特徴の類似設計書検索システムにおいて、前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを第4の特徴とする。
更に、本発明は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えたコンピュータシステムにおける類似設計書検索方法であって、
前記設計書解析処理ユニットに、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程を実行させ、
前記類似設計書出力ユニットに、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行させることを第5の特徴とする。
また、本発明は、第5の特徴の類似設計書検索方法において、
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第工程と、
該第工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第工程と、
該第工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを第6の特徴とし、
前記何れかの特徴の類似設計書検索方法において、前記類似設計書出力ユニットに、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行させ、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行させることを第の特徴とし、
前記何れかの特徴の類似設計書検索方法において、前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを第の特徴とする。
本発明による類似設計書検索システム及び類似設計書検索方法は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムを用い、該汎用連想計算システムから出力された新設計書に含まれる入力文字列と類似する既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でない既存設計書候補を選択し、この選択した既存設計書候補と新設計書文字列と一致する文字色を標準色に対して変化させることによって、作成過程の新設計書の文字列に基づいて過去の類似する既存設計書を検索し、一致文字を色分け表示することができる。
本発明の一実施形態による類似設計書検索システムの構成図。 本実施形態による類似設計書検索システムの全体流れ図。 本実施形態の対象となる設計書を説明するための図。 本実施形態による類似設計書検索フローを示す図。 本実施例による設計書のサンプルを示す図。 本実施形態による汎用連想検索エンジン辞書の項目を説明するための図。 本実施形態による似設計書検索原理を説明するための図。
以下、本発明の一実施形態による類似設計書検索システム及び類似設計書検索方法を図面を参照して説明する。
[構成]
まず、本発明による類似設計書検索方法及び類似設計書検索プログラムは、同様な機能を実行するモジュールのプログラムにおいては同様な設計書の記述内容に成り、設計書の最初の方の記述内容も同様になることを利用し、新設計書の最初(主要機能等の任意の箇所であっても良い)の記述内容を作成した段階で過去に作成した多数の既存設計書の中から類似する既存設計書を検索し、且つ、新設計書と既存設計書の類似箇所を色分け表示することによって、既存設計書を新設計書作成に利用するものである。
この本実施形態による類似設計書検索方法及び類似設計書検索プログラムを実行する類似設計書検索システムは、図1に示す如く、表計算形式によって入力した設計書ファィル107に類似する既存の設計書を検索する類似設計書検索システム102と、文書間の類似度の連想を計算する汎用連想計算システム112とを備えたコンピュータサーバ101によって構成され、該汎用連想計算システム112は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって算出する機能を有する。
前記類似設計書検索システム102は、入力された設計書ファイル107を入力として設計書の文書構造を抽出する設計書文書抽出処理部109及び該設計書文書抽出処理部109により抽出した文書構造を解析する設計書解析処理部106とを含む設計書解析処理ユニット104と、該設計書解析処理ユニット104によって解析した設計書の類似度判定結果を出力するための類似設計書出力ユニット103とから構成される。
前記類似設計書出力ユニット103は、該設計書解析処理ユニット104によって解析した設計書の類似度判定結果を表示するための類似計算結果情報を作成する類似計算結果表示作成処理部105と、該類似計算結果表示作成処理部105によって表示部に表示された設計書の類似計算結果情報の類似度を操作者が出力するか否かの判定結果を判定するための出力可否判定処理部108及び該出力可否判定処理部108に出力されると判定したとき、該類似計算結果情報をブラウザ表示用のHTML文書に編集して類似度検索結果ファイル110として画面出力するHTML出力編集処理部111とから構成される。
前記汎用連想計算システム112は、既存の複数の設計書及び単語間の類似度の連想を行うための連想辞書を格納した汎用連想計算エンジン辞書114と、該汎用連想計算エンジン辞書114をアクセスして入力された設計書の記述内容と類似する既存の設計書を検索する汎用連想計算エンジン113とから構成される。
前記設計書ファイル107の設計文書(記述内容)は、複数文字から成る文字列を項目毎に改行して表されるものであって、例えば、図3(a)の符号207にサンプルとして示す如く、設計書ファイルのシステム毎の識別子であるシステムIDと、該システムIDに対応したシステム名と、当該設計書ファイルのシステム種別と、設計書ファイルのシステム概要との各項目とから構成され、具体的には、例えば、システムID「U−0−0−0−0−0」のシステム名「ファイルを読み込む」が、同システム種別「基本イベントフロー」、同システム概要「1.ファイルをオープンする。2.ファイルを読み込む。3.ファイルをクローズする。」の如く記載され、システムID「U−0−0−0−0−0」のシステム名「ファイルを読み込む」が、同システム種別「代替イベントフロー」、同システム概要が「1a.ファイルのオープンが失敗した場合、メッセージを出力する。」の如く記載され、図示の如く改行単位に構成されている。
また、前記類似度検索結果ファイル110の類似計算結果情報のサンプルは、例えば図3(b)の符号208として示す如く、設計書ファイル107のシステム概要「ファイルをオープンする。」に類似する設計書分書情報が、システムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」、システム概要「ファイルオープン」と、システムID「U−0−0−0−0−1」のシステム名「ファイル検索」、システ概要「ファイルオープン」と、システムID「U−0−0−0−0−2」のシステム名「ファイル検索」、システム概要「ファイルクローズとであるとして出力される。
前記汎用連想計算エンジン辞書114の連想辞書の項目は、図6(a)に示す如く、使用する辞書の項目は4項目であって、これら4項目は設計中のシステムを識別するための識別子に相当する記号番号であるシステムIDと、設計対象となるシステムの日本語名称であるシステム名と、設計対象となるシステムの流れ(処理フロー)の種別であるシステム種別との各項目情報とから成り、具体的には、図6(b)に示す如く、システムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」のシステム種別「基本イベントフロー」として、システム概要が「1.ファルをオープンする。」と「2.ファイルを読み込む。」と「3.ファイルをクローズするル。」があり、同様にシステムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」のシステム種別「代替イベントフロー」として、システム概要が「1a.ファルのオープンに失敗した場合、メッセージを出力する。」があることが辞書として登録されている。
[動作]
このように構成された類似設計書検索システムの全体動作は、図2に示す如く、設計書解析処理ユニット104が、入力している設計書ファイルのサンプル207の内容で構成される設計書ファイル107を入力する工程と、該入力した設計書ファイル107を汎用連想計算エンジン113が汎用連想計算エンジン辞書114を参照して解析(汎用連想計算エンジン辞書114に格納された連想辞書及び既存設計書の記述内容とを比較し、文字列の頻出度合いにより設計書の類似度を計算してランキングで出力する処理)する工程と、該汎用連想計算エンジン113が解析した解析結果を類似設計書出力ユニット103が類似度検索結果のサンプル208の形式で出力するために編集を行い、類似度検索結果110をHTML形式で出力する工程とを実行するように動作する。
この図2に示した全体動作の詳細は、図4に示す如く、設計書解析処理ユニット104が、入力用に用意した記入済みの設計書ファイル(新たに作成した設計書の一部の記述内容)をオープンしてファイル読み込み準備を行うステップ303と、該ステップ303によりオープンした設計書ファイルから設計文書(記述内容)を抽出するステップ301と、該ステップ301により抽出した設計文書を改行単位に分解して内容を項目毎に仕分けるステップ304と、汎用連想計算システム112が汎用連想計算エンジン辞書114を参照して解析(汎用連想計算エンジン辞書114に格納された連想辞書及び既存設計書の記述内容とを比較し、文字列の頻出度合いにより設計書の類似度を計算してランキングで類似候補の既存設計書を出力する処理)を行うステップ305と、該ステップ305により解析した解析結果(ランキングされた類似候補の既存設計書)を類似設計書出力ユニット103に出力するステップ306と、類似設計書出力ユニット103が、前記解析結果(ランキングされた類似候補の既存設計書)を受信するステップ307と、該受信した解析結果(ランキングされた類似候補の既存設計書)に含まれる類似候補の既存設計書に含まれる文字列を1行ずつ後述するチェックに回すステップ308と、前記解析結果全行のチェックが完了したか否かを判定するステップ310と、該ステップ310において解析結果全行のチェックが完了していないと判定したとき、候補文字列長さが元文字列の長さの3倍以上か否かを判定し、3倍以上でないと判定したときに前記ステップ308に戻るステップ312と、該ステップ312において3倍以上と判定したとき、候補を出力対象として図示しないメモリに蓄積して前記ステップ308に戻るステップ314と、前記ステップ310において解析結果全行のチェックが完了したと判定したとき、比較対象の設計文書と類似検索結果を比較するステップ309と、該ステップ309により類似検索結果と設計文書文字とが一致するか否かを判定し、一致していないと判定したときに前記ステップ309に戻るステップ311と、該ステップ311においてひと判定したとき、一致した対象文字色を赤色にHTMLタグの埋め込みにより行う(例えば、標準で白背景に黒文字の場合、赤文字に表示色を変化させる)ステップ313と、該ステップ313に続いて全文字列のチェックが完了したか否かを判定し、完了していないと判定したときに前記ステップ309に戻るステップ315と、該ステップ315において全文字列のチェックが完了したと判定したとき、HTML形式の類似度検索結果ファイル110を出力して処理を終了するステップ317とを実行することによって、設計書のサンプル207に書かれている項目の中で、図6(a)にて説明した汎用連想計算エンジン辞書項目で挙げている項目と一致する項目の既存設計書候補を類似度検索結果ファイル110に格納するように動作する。なお、前記ステップ312における候補文字列長さが元文字列の長さの3倍以上か否かの判定は、一般に新設計書の元文字列長さに比較して既存設計書の長さが3倍以上の場合は、元文字列に対して情報が極めて多く、類似しているとは言い難いためであり、この倍数は3倍に限られるものではなく、2倍〜4倍の範囲で適宜設定しても良い。
前記ステップ311による比較対象の新設計書と類似索結果(既存設計書候補)の文字列とが一致するかどうかを判定方法は、まず比較元(新設計書)の文字列と比較先(既存設計書)の文字列が一致する箇所があるか否かを比較先の先頭文字列から順に比較し、比較先に一致する箇所が無かった場合、比較元の文字列を1文字ずつ減らし、同様に比較先の文字列を1文字目から順に文章同士の比較をしていく方法であって、文字列を先頭から一文字ずつ減らして全文と比較し、減らす文字列が最後まで行ったら、もう一度比較対象の文章を、文字列の最後尾から一文字ずつ減らして全文と比較をすることによって行う。
この文字列比較の方法を図7を参照して説明する。本例は、新設計書に含まれる文字列と類似候補として選択された既存設計書に含まれる文字列とを比較をして、どこが一致していたのか、また文字列の一部が一致しているかもしれないが、類似と言えるかどうかの判断をする処理の例である。
前記文字列比較の方法は、図7(a)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、既存設計書の比較対象文書(記述内容)が「明日は晴れる」であり、新設計書の5文字が既存設計書の7文字中の5文字に対して順番と共に一致した場合、一致した5文字に色づけ(図面では太枠描写)表示するように動作し、図7(b)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、前記比較対象文書が「きっと東京はれ」であり、新設計書の5文字が比較対象文書7文字中の3文字に対して一致し、設計書の文書と類似計算結果の文字列の一部が一致する場合、一致した3文字に色づけ(図面では太枠描写)表示するように動作し、図7(c)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、前記比較対象文書が「きっと明日の気分は晴れ晴れしている」であり、新設計書の5文字が比較対象文書7文字中の5文字に対して一致し、設計書の文書と類似計算結果の文字列が多く一致しているが、設計書文書の文字数が比較対象の基の文字数より極めて多い(3倍以上)ために、一致した5文字に色づけ(図面では太枠描写。具体的には、標準で白背景に黒文字の場合、赤文字に表示色を変化させる)表示するものの、類似しているとする候補の中から除外するように動作する。
すなわち、本実施形態による類似設計書出力ユニット103による文字列比較の方法は、比較元(新設計書)の文字列と比較先(既存設計書)の文字列が一致する箇所があるか否かを比較先の先頭文字列から順に比較し、比較先に一致する箇所が無かった場合、比較元(新設計書)の文字列を1文字ずつ減らし、比較先の文字列を1文字目から順に文章同士の比較し、比較元(新設計書)の減らす文字列が最後まで行ったら、もう一度比較対象の文章を、文字列の最後尾から一文字ずつ減らして全文と比較をすることによって行う。なお、前述の文字列比較の方法に、類似度検索結果110から汎用連想計算エンジンの検索処理(301〜307)を行い、その結果に最初に検索した設計書が含まれていれば、類似性が向上するため、この見直し処理を加えても良い。
このように本実施形態による類似設計書検索システム及び方法は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムを用い、該汎用連想計算システムから出力された新設計書に含まれる入力文字列と類似する既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でない既存設計書候補を選択し、この選択した既存設計書候補と新設計書文字列と一致する文字色を標準色に対して変化させることによって、作成過程の新設計書のむ文字列に基づいて過去の類似する既存設計書を検索し、一致文字を色分け表示することができる。
101 コンピュータサーバ、102 類似設計書検索システム、
103 類似設計書出力ユニット、104 設計書解析処理ユニット、
105 類似計算結果表示作成処理部、106 設計書解析処理部
107 設計書ファィル、108 出力可否判定処理部、
109 設計書文書抽出処理部、110 類似度検索結果、
110 類似度検索結果ファイル、111 出力編集処理部、
112 汎用連想計算システム、113 汎用連想計算エンジン、
114 汎用連想計算エンジン辞書

Claims (8)

  1. 複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えた類似設計書検索システムであって、
    前記設計書解析処理ユニットが、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程と、
    前記類似設計書出力ユニットが、
    前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
    該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
    該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
    該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
    該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行することを特徴とする類似設計書検索システム。
  2. 前記類似設計書出力ユニットが、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
    新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
    該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
    該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
    該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
    該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
    を含むことを特徴とする請求項1記載の類似設計書検索システム。
  3. 前記類似設計書出力ユニットが、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行し、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行することを特徴とする請求項1又は2記載の類似設計書検索システム。
  4. 前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを特徴とする請求項1から3何れかに記載の類似設計書検索システム。
  5. 複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えたコンピュータシステムにおける類似設計書検索方法であって、
    前記設計書解析処理ユニットに、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程を実行させ、
    前記類似設計書出力ユニットに、
    前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
    該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
    該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
    該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
    該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行させることを特徴とする類似設計書検索方法。
  6. 前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
    新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
    該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第工程と、
    該第工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第工程と、
    該第工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
    該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
    を含むことを特徴とする請求項5記載の類似設計書検索方法。
  7. 前記類似設計書出力ユニットに、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行させ、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行させることを特徴とする請求項5又は6記載の類似設計書検索方法。
  8. 前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを特徴とする請求項5から7何れかに記載の類似設計書検索方法。
JP2012063878A 2012-03-21 2012-03-21 類似設計書検索システム及び類似設計書検索方法 Expired - Fee Related JP5779529B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012063878A JP5779529B2 (ja) 2012-03-21 2012-03-21 類似設計書検索システム及び類似設計書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012063878A JP5779529B2 (ja) 2012-03-21 2012-03-21 類似設計書検索システム及び類似設計書検索方法

Publications (2)

Publication Number Publication Date
JP2013196468A JP2013196468A (ja) 2013-09-30
JP5779529B2 true JP5779529B2 (ja) 2015-09-16

Family

ID=49395306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012063878A Expired - Fee Related JP5779529B2 (ja) 2012-03-21 2012-03-21 類似設計書検索システム及び類似設計書検索方法

Country Status (1)

Country Link
JP (1) JP5779529B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7775572B2 (ja) * 2021-02-22 2025-11-26 沖電気工業株式会社 テキスト分類装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2013196468A (ja) 2013-09-30

Similar Documents

Publication Publication Date Title
Limsettho et al. Automatic unsupervised bug report categorization
US8533140B2 (en) Method and system for design check knowledge construction
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
JP4427500B2 (ja) 意味解析装置、意味解析方法および意味解析プログラム
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
CN114239588A (zh) 文章处理方法、装置、电子设备及介质
Jankowska et al. Relative N-gram signatures: Document visualization at the level of character N-grams
CN107679035A (zh) 一种信息意图检测方法、装置、设备和存储介质
CN115062148A (zh) 一种基于数据库的风险控制方法
US20130013604A1 (en) Method and System for Making Document Module
JPWO2014064777A1 (ja) 文書評価支援システム、及び文書評価支援方法
Jeon et al. Making a graph database from unstructured text
JP2011238159A (ja) 計算機システム
JP2015162004A (ja) 開発ドキュメント間トレースリンク生成支援装置及び方法及びプログラム
TW202139054A (zh) 表單數據檢測方法、電腦裝置及儲存介質
US9218336B2 (en) Efficient implementation of morphology for agglutinative languages
CN102799584A (zh) 一种针对检测仪器输出数据筛选提取的处理方法
JP5779529B2 (ja) 類似設計書検索システム及び類似設計書検索方法
JP2013218507A (ja) 構造解析装置及びプログラム
CN119829021A (zh) 一种基于生成对抗网络生成前端原型的方法
JP6747427B2 (ja) 検索システム、検索方法および検索プログラム
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
JP2008065468A (ja) テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体
KR20220097844A (ko) 항목 및 항목 값 추출이 가능한 비정형 문서 처리장치 및 그 방법
Zhou et al. Efficient web page main text extraction towards online news analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150713

R150 Certificate of patent or registration of utility model

Ref document number: 5779529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees