JP7543339B2 - Document mapping display device, document mapping display method, and document mapping display program - Google Patents
Document mapping display device, document mapping display method, and document mapping display program Download PDFInfo
- Publication number
- JP7543339B2 JP7543339B2 JP2022071856A JP2022071856A JP7543339B2 JP 7543339 B2 JP7543339 B2 JP 7543339B2 JP 2022071856 A JP2022071856 A JP 2022071856A JP 2022071856 A JP2022071856 A JP 2022071856A JP 7543339 B2 JP7543339 B2 JP 7543339B2
- Authority
- JP
- Japan
- Prior art keywords
- documents
- dimensional plane
- document
- unit
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013507 mapping Methods 0.000 title claims description 86
- 238000000034 method Methods 0.000 title description 20
- 230000006870 function Effects 0.000 claims description 57
- 238000009825 accumulation Methods 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 37
- 239000000284 extract Substances 0.000 claims description 21
- 230000009193 crawling Effects 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 15
- 238000003058 natural language processing Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 34
- 239000003086 colorant Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、文献マッピング表示装置、文献マッピング表示方法、及び文献マッピング表示プログラムに関し、特に論文、特許公報等の文献についてどの分野において増加しているのか等を可視化するための文献マッピング表示装置とその方法及びプログラムに関する。 The present invention relates to a document mapping display device, a document mapping display method, and a document mapping display program, and in particular to a document mapping display device and method and program for visualizing in which fields documents such as papers and patent publications are increasing.
公開されている論文、特許公報等の文献について、その文献内に存在する所定の文章に着目して二次元平面上の分布図として文献の位置、数が表現されることがある。例えば、二次元平面上において情報要素の多少に応じて配色を濃くする等の視覚的な表示(いわゆるヒートマップ等の表示)が用いられていた(特許文献1参照)。 For published documents such as papers and patent publications, the location and number of documents are sometimes expressed as a distribution map on a two-dimensional plane, focusing on specific sentences present in the document. For example, a visual display (such as a so-called heat map) has been used in which the color scheme is darkened depending on the amount of information elements on the two-dimensional plane (see Patent Document 1).
しかしながら、複数の文献を二次元平面上に配置する手法では、文献の類似度を視覚的に表示することは可能であっても、二次元平面上の配置を理解する者の経験、感覚等により左右されることもあり、客観性は十分とは言えない。また、複数の文献を二次元平面上に配置する手法の場合、複数の文献の集合が変化すると二次元平面上の文献の配置も変化するため、時間経過による文献の推移を判断することが難しかった。なお、従前の表示の手法によると、文献中に存在する所定の文章を参考に、複数の文献が二次元平面上に視覚的に整理されるため、どの分野が注目されているのか等の文献の動向調査に用いられていた。 However, with the method of arranging multiple documents on a two-dimensional plane, although it is possible to visually display the similarity of documents, it can be influenced by the experience and intuition of the person who understands the arrangement on the two-dimensional plane, and it cannot be said to be sufficiently objective. Furthermore, with the method of arranging multiple documents on a two-dimensional plane, when the collection of multiple documents changes, the arrangement of the documents on the two-dimensional plane also changes, making it difficult to determine the progress of the documents over time. Note that with previous display methods, multiple documents are visually organized on a two-dimensional plane with reference to certain sentences present in the documents, and this was used to investigate trends in documents, such as which fields are attracting attention.
本発明は上述の点に鑑みなされたものであり、公開されている論文、特許公報等の文献について、その文献内に存在する所定の文章に着目して二次元平面上の分布図に表現する際の客観性を担保するとともに、時間経過による文献の推移を可視化可能とすることのできる文献マッピング表示装置を提供し、併せて文献マッピング表示方法、文献マッピング表示プログラムも提供する。 The present invention has been made in consideration of the above points, and provides a document mapping display device that ensures objectivity when displaying published documents such as papers and patent publications in a two-dimensional distribution map focusing on specific sentences present in the document, and that can visualize the progress of documents over time, as well as a document mapping display method and a document mapping display program.
すなわち、実施形態の文献マッピング表示装置は、複数の文献を取得する文献取得部と、複数の文献から所定の文章を取得する文章取得部と、複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出部と、二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算部と、成長度を出力する出力部とを備えることを特徴とする。
That is, the document mapping display device of the embodiment is characterized by comprising a document acquisition unit that acquires multiple documents, a sentence acquisition unit that acquires specified sentences from the multiple documents, a document arrangement unit that arranges the multiple documents on a two-dimensional plane according to similarities between specified sentences contained in each of the multiple documents, an extraction unit that extracts the amount of change in the number of documents over time in a specified area existing on the two-dimensional plane, a calculation unit that calculates a growth degree based on the amount of change in the number of documents over time in a specified area existing on the two-dimensional plane, and an output unit that outputs the growth degree.
加えて、実施形態の文献マッピング表示装置は、複数の文献を取得する文献取得部と、複数の文献から所定の文章を取得する文章取得部と、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出部と、二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算部と、二次元平面に存在する所定領域における複数の文献に基づいて集積領域を検出する集積検出部と、所定領域における成長度と集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力部とを備えることを特徴とする。
In addition, the document mapping display device of the embodiment is characterized by comprising a document acquisition unit that acquires multiple documents, a sentence acquisition unit that acquires specified sentences from the multiple documents, a document arrangement unit that arranges the multiple documents on a two-dimensional plane according to the similarity of specified sentences contained in each of the multiple documents, an extraction unit that extracts the amount of change in the number of documents over time in a specified area existing on the two-dimensional plane, a calculation unit that calculates a growth degree based on the amount of change in the number of documents over time in a specified area existing on the two-dimensional plane, an accumulation detection unit that detects an accumulation area based on the multiple documents in the specified area existing on the two-dimensional plane, and a time series change output unit that displays the growth degree in the specified area and the time series change points in the accumulation area on the two-dimensional plane.
さらに、文献取得部は、クローリング部を備えインターネット回線を通じて複数の文献を取得することとしてもよい。 Furthermore, the document acquisition unit may be equipped with a crawling unit and acquire multiple documents via an Internet line.
さらに、複数の文献のそれぞれには、文献の特徴を示すタグ情報が文献に応じて付されていて、文献取得部は、前記タグ情報に基づいて前記複数の文献を取得することとしてもよい。 Furthermore, tag information indicating characteristics of each of the multiple documents may be attached to each of the multiple documents, and the document acquisition unit may acquire the multiple documents based on the tag information.
さらに、文献配置部における所定の文章同士の類似性に従う二次元平面への配置は自然言語処理に基づくこととしてもよい。 Furthermore, the placement of specified sentences on a two-dimensional plane according to similarities between sentences in the document placement section may be based on natural language processing.
さらに、文献配置部は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成するベクトル化部を備えることとしてもよい。 Furthermore, the document placement unit may include a vectorization unit that generates a feature vector for each of the multiple documents using natural language processing.
さらに、抽出部は、二次元平面をグリッド状に区画して生じる一の区画を所定領域として所定領域内に存在する文献数を抽出することとしてもよい。 Furthermore, the extraction unit may be configured to extract the number of documents present within a given region, the given region being one of the sections that is generated by dividing a two-dimensional plane into a grid.
さらに、抽出部は、二次元平面に存在する所定領域における文献数の比較に基づいて文献数の時系列の変化量を抽出することとしてもよい。
Furthermore, the extraction unit may extract the amount of change in the number of documents over time based on a comparison of the number of documents in a predetermined area existing on a two-dimensional plane.
さらに、抽出部は、二次元平面における所定の文章の集合の変化を抽出することとしてもよく、また、抽出部は、所定領域における前記文献数の変化量に基づいて二次元平面における所定の文章の集合の変化の差分を抽出することとしてもよい。 Furthermore, the extraction unit may extract a change in a set of specified sentences on a two-dimensional plane, and the extraction unit may extract a difference in the change in the set of specified sentences on a two-dimensional plane based on the amount of change in the number of documents in a specified area.
さらに、計算部は、一の区画に隣接する他の区画に存在する文献数の時系列の変化量から一の区画の成長度を計算することとしてもよい。
Furthermore, the calculation unit may calculate the growth rate of a given section from the amount of change over time in the number of documents present in another section adjacent to the given section.
さらに、出力部は、成長度の大小を二次元平面において矢印の種類により表示することとしてもよい。またさらに、出力部は、成長度を文献それぞれに対して数値として表示することとしてもよい。 The output unit may further display the degree of growth on a two-dimensional plane using a type of arrow. The output unit may further display the degree of growth for each document as a numerical value.
さらに、集積検出部は、二次元平面に存在する所定領域における複数の文献の密度に基づいて集積領域を検出することとしてもよく、集積領域には、任意の集積領域数が指定されることとしてもよい。また、時系列変化出力部は、二次元平面において複数の文献の集積領域における時系列の変化点を円により表示し、円同士をつなぐ線により表示することとしてもよい。またさらに、時系列変化出力部は、成長度の大小を二次元平面において矢印の種類により表示することとしてもよい。 Furthermore, the accumulation detection unit may detect an accumulation area based on the density of multiple documents in a specified area existing on a two-dimensional plane, and any number of accumulation areas may be specified for the accumulation area. Furthermore, the time series change output unit may display time series change points in the accumulation area of multiple documents on a two-dimensional plane as circles and lines connecting the circles. Furthermore, the time series change output unit may display the magnitude of the growth level on a two-dimensional plane using types of arrows.
本発明の文献マッピング表示装置は、複数の文献を取得する文献取得部と、複数の文献から所定の文章を取得する文章取得部と、複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出部と、二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算部と、成長度を出力する出力部とを備えるため、公開されている論文、特許公報等の文献について、その文献内に存在する所定の文章に着目して二次元平面上の分布図に表現する際の客観性を担保するとともに、時間経過による文献の推移を可視化可能とすることができる。なお、文献マッピング表示方法及び文献マッピング表示プログラムにおいても同様の効果を得ることができる。
The document mapping display device of the present invention includes a document acquisition unit that acquires a plurality of documents, a text acquisition unit that acquires a predetermined text from the plurality of documents, a document arrangement unit that arranges the plurality of documents on a two-dimensional plane according to the similarity of the predetermined text contained in each of the plurality of documents, an extraction unit that extracts the amount of change in the number of documents in a predetermined area on the two-dimensional plane over time , a calculation unit that calculates a growth rate based on the amount of change in the number of documents in a predetermined area on the two-dimensional plane over time, and an output unit that outputs the growth rate, so that it is possible to ensure objectivity when expressing documents such as published papers and patent publications on a distribution map on a two-dimensional plane by focusing on the predetermined text contained in the document, and to visualize the transition of documents over time. Note that the same effect can be obtained in the document mapping display method and the document mapping display program.
加えて、本発明の文献マッピング表示装置は、複数の文献を取得する文献取得部と、複数の文献から所定の文章を取得する文章取得部と、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出部と、二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算部と、二次元平面に存在する所定領域における複数の文献に基づいて集積領域を検出する集積検出部と、所定領域における成長度と集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力部とを備えるため、公開されている論文、特許公報等の文献について、その文献内に存在する所定の文章に着目して二次元平面上の分布図に表現する際の客観性を担保するとともに、時間経過による文献の推移を可視化可能とすることができる。なお、文献マッピング表示方法及び文献マッピング表示プログラムにおいても同様の効果を得ることができる。
In addition, the document mapping display device of the present invention includes a document acquisition unit that acquires a plurality of documents, a text acquisition unit that acquires a predetermined text from the plurality of documents, a document arrangement unit that arranges the plurality of documents on a two-dimensional plane according to the similarity of the predetermined text contained in each of the plurality of documents, an extraction unit that extracts the amount of change in the number of documents in a predetermined area existing on the two-dimensional plane over time , a calculation unit that calculates the degree of growth based on the amount of change in the number of documents in a predetermined area existing on the two-dimensional plane over time, an accumulation detection unit that detects an accumulation area based on the plurality of documents in the predetermined area existing on the two-dimensional plane, and a time series change output unit that displays the degree of growth in the predetermined area and the time series change points in the accumulation area on the two-dimensional plane on the two-dimensional plane, so that it is possible to ensure objectivity when expressing documents such as published papers and patent publications on a distribution map on a two-dimensional plane by focusing on the predetermined text contained in the document, and to visualize the transition of documents over time. The same effect can be obtained in the document mapping display method and the document mapping display program.
第1実施形態及び第2実施形態の文献マッピング表示装置は、複数の文献についてそれらの文献中に存在する所定の文章による類似性の高低、いわゆる文献同士の近さを二次元平面上に表すとともに、二次元平面における文献数の変化量を抽出して、どの方向に文献数が伸びているのかを視覚的に明らかにして表示する装置である。 The document mapping display device of the first and second embodiments is a device that displays on a two-dimensional plane the degree of similarity between multiple documents based on specific sentences present in those documents, i.e., the closeness between documents, and extracts the amount of change in the number of documents on the two-dimensional plane, visually clarifying and displaying the direction in which the number of documents is increasing.
複数の文献とは、例えば、国内外において発行(刊行)される論文(研究論文、学会報告)、技報(技術報告)、公開特許公報、特許公報等である。加えて、新聞、雑誌の記事、立法、行政、司法等により公開される法律、規則、通達、若しくは法人等からの発表等の文字により記述された文献であれば、種類は問われない。 The multiple documents include, for example, papers (research papers, academic conference reports), technical reports, published patent bulletins, patent publications, etc. issued domestically or internationally. In addition, any type of document written in text, such as newspaper or magazine articles, laws, regulations, notices made public by legislative, administrative, or judicial bodies, or announcements from corporations, etc., is acceptable.
複数の文献に存在する所定の文章とは、文献内に見られる具体的な意味内容を示す文章となる。例えば、文献の名称、文献の要約、文献の抄録等である。むろん、文章の数は1つの文献当たり1文章に限られず、適宜の数である。 A specific sentence that exists in multiple documents is a sentence that indicates the specific meaning found in the documents. For example, the name of the document, a summary of the document, or an abstract of the document. Of course, the number of sentences is not limited to one per document, but can be any appropriate number.
加えて、複数の文献のそれぞれには、文献の特徴を示すタグ情報が個々の文献に応じて付されている。文献が論文の場合、タグ情報には、文献の要約の記載、文献のキーワードに加え、文献の公開年度、さらには著者、所属等の書誌事項も含まれる。また、特許公報等の場合、国際特許分類(IPC)、発明者、出願人等の書誌事項もタグ情報に加えられる。なお、これらのタグ情報は、当該文献マッピング表示装置の使用者(ユーザ)による入力もされる。 In addition, tag information indicating the characteristics of each document is attached to each document. If the document is a paper, the tag information includes a summary of the document, keywords for the document, the year of publication of the document, and bibliographic information such as the author and affiliation. In the case of patent publications, bibliographic information such as the International Patent Classification (IPC), inventor, and applicant is also added to the tag information. Note that this tag information is also input by the user of the document mapping display device.
図1は第1実施形態及び第2実施形態に共通の実施形態の文献マッピング表示装置1の構成を示す概略図である。文献マッピングの対象となる文献については、CD-ROM、DVD-ROM等の固定メディア2に格納された状態、または、インターネット回線3を通じて取得可能な文献である。固定メディア2またはインターネット回線3を通じて取得される文献は文献マッピング表示装置1にて取得される。文献マッピング表示装置1は、パーソナルコンピュータ(PC)、タブレット端末、スマートフォン等、種々の電子計算機(計算リソース、コンピュータ)である。また、文献マッピング表示装置1には、データ蓄積のためのサーバ(図示せず)が接続される。
Figure 1 is a schematic diagram showing the configuration of a literature
図2は第1実施形態及び第2実施形態に共通の文献マッピング表示装置1内の構成を示すブロック図である。当該ブロック図から理解されるように、ハードウェア的にCPU11、RAM12、ROM13、記憶部14、I/O(インプット・アウトプットインターフェース)15により構成される。その他にメインメモリ、LSI等も含まれる。またソフトウェア的に、メインメモリにロードされた文献マッピング表示プログラム等により実現される。
Figure 2 is a block diagram showing the internal configuration of the document
文献マッピング表示装置1の各機能部をソフトウェアにより実現する場合、文献マッピング表示装置1は各機能を実現するソフトウェアであるプログラムの命令を実行することで実現される。このプログラムを格納する記録媒体は、「一時的でない有形の媒体」、例えば、CD、DVD、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、このプログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワーク、放送波等)を介して文献マッピング表示装置1(コンピュータ)に供給されてもよい。
When each functional part of the document
文献マッピング表示装置1における各種の記憶部は、RAM12、ROM13であり、記憶部14としてのHDDまたはSSD等の記憶装置である。また、演算処理を実行する各機能部はCPU11等の演算素子である。文献マッピング表示装置1は、図3のブロック図のとおり、文献取得部110、文章取得部120、文献配置部130、抽出部140、計算部150、出力部160、クローリング部111、ベクトル化部131等の機能部を備える。
The various storage units in the document
I/O15は通信(送受信)用のインターフェース、バッファ等である。I/O15は、インターネット回線との接続またはCD-ROM、DVD-ROM等の読取部4(リーダー)からの入力信号の受信、表示部7等への出力信号の送信に用いられ、CPU11と連携する。表示部7は公知のディスプレイ(液晶表示装置、有機EL表示装置等)である。加えて、表示部7はタブレット端末、スマートフォン等の画像表示機能を備える機器としてもよい。さらに、I/O15には、入力装置としてキーボード5、マウス6等の機器が接続される。
The I/
第1実施形態及び第2実施形態に共通の文献マッピング表示装置1(コンピュータ)は、後述するように、複数の文献と、所定の文章に基づいて二次元平面上の分布図に表現し成長度を可視化して表示する機能を備える。 The document mapping display device 1 (computer) common to the first and second embodiments has a function to visualize and display the degree of growth by plotting a distribution map on a two-dimensional plane based on multiple documents and a specified text, as described below.
始めに第1実施形態の文献マッピング表示装置1(コンピュータ)の個々の機能部について、図3のブロック図等を参照して順に説明する。 First, the individual functional parts of the document mapping display device 1 (computer) of the first embodiment will be described in order with reference to the block diagram in FIG. 3.
文献取得部110は、複数の文献を取得する。文献の取得に際しては、CD-ROM、DVD-ROM等の固定メディア2に格納された文献であれば、読取部4を通じてデータとして取得可能である。あるいは、インターネット回線に接続されていれば、外部のサーバ(図示せず)から対象となる文献を受信して取得することができる。取得後の文献は、一次的に記憶部14に記憶(格納)される。
The
文献取得部110はクローリング部111を備えることができる。クローリング部111は、クローリング部は、インターネット上に存在するWebサイトの情報を取得して、検索用データベース・インデックスを作成する。そして、クローリング部111は自動的に目的とする文献の存在するWebサイトにアクセスして目的とする文献を取得する。
クローリングに際しては、文献マッピング表示装置1のユーザから目的とする文献(論文の名称、所定官庁の特許等の公報)の情報が入力される。そこで、文献取得部110は文献の情報に基づいてWebサイトを巡回し、該当する文献のhtml情報を取得し、該当する文献を取得する。
The
When crawling, information on the target document (the title of a paper, a publication such as a patent issued by a specific government agency) is input by a user of the document
文章取得部120は、複数の文献から所定の文章を取得する。
The
文献配置部130は、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する。さらに、文献配置部130における所定の文章同士の類似性に伴う二次元平面への配置は自然言語処理に基づく。文献中に存在する文章等には言語特有の表現上の揺らぎ、ぶれ等が存在する。そのため、所定の文章同士の類似度の比較を円滑にするため、自然言語処理の利用が望ましい。
The
ここで言う所定の文章同士の類似性とは、相互の文章における意味内容の近さを示す。 The similarity between given sentences here refers to the closeness of the meaning of the sentences.
そして、文献配置部130はベクトル化部131を備える。このベクトル化部131は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成する。すなわち、個々の文献は特徴ベクトルを保持している。そして、特徴ベクトルは次元数の削減を通じて二次元に表示可能となっている。そのため、複数の文献のそれぞれは、二次元平面においては基準点(図示せず)から次元削減された特徴ベクトルに応じた位置に配置されることとなる。特徴ベクトルの生成には、例えば、Word2vec等の単語の埋め込みを生成するために使用される一連のモデル群が利用される。
The
文献配置部130が生成する特徴ベクトルは、次元数が数百次元と高次元に及ぶ。このように特徴ベクトルが高次元に及ぶと図示、可視化に非常に煩雑となる。そこで、高次元に及ぶ特徴ベクトルは、二次元にまで次元数が削減される(次元圧縮)。次元数の削減に際しては、事前学習ができるもの、さらには、事前学習した結果に基づいて分布を配置するUMAP処理等の公知の次元圧縮の手法が用いられる。つまりは、次元数の削減において事前学習ができ、学習した結果を用いてその都度実行する際、次元圧縮した二次元平面上の分布は著しく変化しない。これにより、経年の変化量を捉えることができる。なお、事前学習に際しては、複数の文献の所定の文章を網羅的に事前学習することが望ましい。これらは、国内特許であれば、ある時点でのすべての公報に対して事前学習しておいてもよい。さらには事前学習を、例えば国連調査のように数年毎に更新してもよい。
The feature vector generated by the
図4の模式図は、第1実施形態の複数の文献を二次元平面20に配置した一例である。文献マッピングの対象となる文献は日本国内の特許である。図中、1つの点が1件の文献に相当する。 The schematic diagram in Figure 4 shows an example of multiple documents in the first embodiment arranged on a two-dimensional plane 20. The documents that are the subject of document mapping are Japanese patents. In the diagram, one point corresponds to one document.
図4の模式図では、複数の文献が二次元平面に表示され、文献の集合が可視化されている。しかしながら、図4の模式図の段階では、ある時点における文献の集合が表示されているに留まる。 In the schematic diagram in Figure 4, multiple documents are displayed on a two-dimensional plane, visualizing the collection of documents. However, at the schematic diagram stage in Figure 4, the collection of documents is only displayed at a certain point in time.
抽出部140は、二次元平面に存在する所定領域における文献数の変化量を抽出する。また、所定領域における文献数の変化量に基づいて二次元平面における所定の文章の集合の変化または所定の文章の集合の変化の差分を抽出する。ここで言う文献数の変化量とは、所定領域における或る年度の文献数と所定領域における或る年度の前年度の文献数の差としてもよい。計算部150は、二次元平面に存在する所定領域における文献数の変化量に基づいて当該所定領域の成長度として計算する。また成長度とは文献の変化量からベクトル量を含む特徴(例えば、勾配等)を求めたものを示す。
The
実施形態にあっては、抽出部140は、二次元平面20(図4参照)をグリッド状に区画して生じる一の区画を所定領域として当該所定領域内に存在する文献数と文献のタグ情報に基づいて文献数の変化量を抽出する。この様子は図5の模式図として示される。
In this embodiment, the
前出の所定領域とは、図5等に示される二次元平面20の中から分析対象とする所定範囲を規定して区画される部分であり、後出の図6のグリッド状(格子状)に区画される一の(1つの)区画である。 The aforementioned specified area is a portion that is partitioned by defining a specified range to be analyzed from within the two-dimensional plane 20 shown in FIG. 5, etc., and is one (one) partition partitioned in a grid pattern (lattice pattern) as shown in FIG. 6 below.
図4の図面上では個々の文献は灰色の点として表現されている。ここで、個々の文献のそれぞれに前出のタグ情報を反映することができる。例えば、タグ情報としてある国際特許分類を「青色」、別の国際特許分類を「橙色」、さらに別の国際特許分類を「緑色」等と色分けすることが可能である。そうすると、タグ情報を手掛かりに、文献分布の傾向把握が可能となる。 In the diagram in Figure 4, each document is represented as a gray dot. The tag information mentioned above can be reflected in each document. For example, it is possible to color-code one international patent classification as tag information, "blue," another as "orange," and yet another as "green." This makes it possible to grasp trends in document distribution using the tag information as a clue.
図5(A)から理解されるように、二次元平面20の中から分析対象とする領域21が選定される。当該二次元平面20の領域21は、均等な所定間隔31を有するグリッド30によりグリッド状(格子状)に区画される。こうして分析対象とする領域21はグリッド30により複数の区画32(いわゆる升目)に区画される。そして、個々の区画32(升目)に存在する文献数の変化量が抽出される。 As can be seen from FIG. 5(A), an area 21 to be analyzed is selected from a two-dimensional plane 20. The area 21 on the two-dimensional plane 20 is partitioned into a grid (lattice) shape by a grid 30 having a uniform, predetermined spacing 31. In this way, the area 21 to be analyzed is partitioned into a plurality of sections 32 (so-called squares) by the grid 30. Then, the amount of change in the number of documents present in each of the sections 32 (squares) is extracted.
図5(B)では、領域21は横方向をx軸、縦方向をy軸とするx-y平面として表現される。図中の区画32に存在する数字は、具体的な文献数の変化量である。なお、領域21に対する所定間隔31は任意に設定可能である。所定間隔31が広くなると、マクロ的な把握が可能となり、所定間隔31が狭くなると、ミクロ的な把握が可能となる。 In FIG. 5(B), the region 21 is represented as an x-y plane with the horizontal direction being the x-axis and the vertical direction being the y-axis. The numbers in the sections 32 in the figure represent the specific change in the number of documents. The predetermined interval 31 for the region 21 can be set arbitrarily. A wider predetermined interval 31 allows for a macroscopic understanding, and a narrower predetermined interval 31 allows for a microscopic understanding.
個々のグリッド30により生じた複数の区画32(升目)に存在する文献数が抽出された後、計算部150は、一の区画に隣接する他の区画に存在する文献数同士から一の区画における成長度を計算する。すなわち、縦軸と横軸の関係から一の区画に隣接する前後及び上下の区画からの差分に基づいて一の区画における特徴が計算される。
After the number of documents present in the multiple sections 32 (grids) generated by each grid 30 is extracted, the
例えば、或る年度の複数の文献が二次元平面に配置されているとき(前出の図4、図5(A)参照)、所定の領域の或る年度の具体的な文献数が求められる(図5(B)参照)。すなわち、年度のタグ情報に基づいて所定領域の文献数が抽出される。そして、前出の或る年の前年度についても、複数の文献は二次元平面に配置可能であるため、所定の領域の或る年度の前年度の具体的な文献数が求められる(図5(B)参照)。つまり、年度別にタグ情報に基づいて文献数の変化量が求められる。そこで、個々の区画32毎に、或る年度とその前年度の数値同士(いわゆる文献数同士)の比較(差分)が可能である。そうすると、差分量の多少から文献数の変化の程度の把握が容易となる。 For example, when multiple documents from a certain year are arranged on a two-dimensional plane (see Figures 4 and 5(A) above), the specific number of documents for a certain year in a specified area is found (see Figure 5(B)). That is, the number of documents in a specified area is extracted based on the tag information for the year. Then, since multiple documents can be arranged on a two-dimensional plane for the previous year of the certain year, the specific number of documents for a certain area in the previous year of the certain year is found (see Figure 5(B)). That is, the amount of change in the number of documents is found for each year based on the tag information. Therefore, it is possible to compare (difference) the numerical values (so-called number of documents) for a certain year and the previous year for each section 32. This makes it easy to grasp the degree of change in the number of documents from the amount of difference.
前述の差分量からの文献数の変化は、いわゆる年度毎(年単位毎)の文献数変化の把握である。これに加え、複数年度間の差分量(平均の差分量)と、或る年度とその前年度の差分量との比較も可能である。毎年の文献数変化を把握するとともに、ここ数年にわたる文献数変化量との上振れ、下振れ等の差分量についての変化量も算出可能である。当該抽出は抽出部140により実行される。そして、計算部150により、縦軸と横軸の関係から一の区画に隣接する前後及び上下の区画からの差分に基づいて一の区画における特徴が計算される。
The change in the number of documents from the difference amount described above is what is known as a grasp of the change in the number of documents from year to year (yearly unit). In addition to this, it is also possible to compare the difference amount between multiple years (average difference amount) and the difference amount between a certain year and the previous year. In addition to grasping the change in the number of documents from year to year, it is also possible to calculate the amount of change in the difference amount, such as upward and downward fluctuations, from the change in the number of documents over the past few years. This extraction is performed by the
図6の模式図は一の区画における勾配の計算の仕方を示す。図中のそれぞれの区画内の数値は文献数の変化量である。図6(A)は横方向となるx軸の計算を示す。計算対象の区画41の文献数の変化量は「7」であり、左に隣接する区画42の文献数の変化量は「5」、右に隣接する区画43の文献数の変化量は「9」である。実施形態の場合、区画43の文献数の変化量「9」から区画42の文献数の変化量「5」が引かれて、差分「4」が得られる。差分に「1/2」が掛けられて「2」が得られる。この「2」が、計算対象の区画41の横方向となるx軸方向の成長度(dx)である。なお、両端は前方差分または後方差分となる(図示せず)。
The schematic diagram in FIG. 6 shows how to calculate the gradient in one section. The numerical values in each section in the diagram are the amount of change in the number of documents. FIG. 6(A) shows the calculation of the x-axis, which is the horizontal direction. The amount of change in the number of documents in
図6(B)は縦方向となるy軸の計算を示す。計算対象の区画41の文献数の変化量は「7」であり、上に隣接する区画44の文献数の変化量は「2」、下に隣接する区画45の文献数の変化量は「0」である。実施形態の場合、区画44の文献数の変化量「0」から区画45の文献数の変化量「2」が引かれて、差分「-2」が得られる。差分に「1/2」が掛けられて「-1」が得られる。この「-1」が、計算対象の区画41の縦方向となるy軸方向の成長度(dy)である。なお、両端は前方差分または後方差分となる(図示せず)。
Figure 6 (B) shows the calculation of the y-axis, which is the vertical direction. The change in the number of documents in the
図6(C)はある区画の全体の成長度を求める計算例である。ある区画における横方向(x方向)の成長度(dx)及び縦方向(y方向)の成長度(dy)から、ある区画の全体の成長度(G)が計算される式である。すなわち、各方向の成長度の平方の和に対して平方根が求められる。図6の例によると、22+(-1)2=5の平方根(√(5))となり、約2.24となる。なお、図6等に開示の成長度の計算は一例であり、成長度の計算は、図示及び説明の方法に限定されない。 FIG. 6C is an example of a calculation for determining the overall growth rate of a certain section. This is a formula for calculating the overall growth rate (G) of a certain section from the growth rate (dx) in the horizontal direction (x direction) and the growth rate (dy) in the vertical direction (y direction) of the certain section. In other words, the square root is calculated for the sum of the squares of the growth rates in each direction. In the example of FIG. 6, 2 2 +(−1) 2 = the square root of 5 (√(5)), which is about 2.24. Note that the calculation of the growth rate disclosed in FIG. 6 and the like is an example, and the calculation of the growth rate is not limited to the method shown and described.
計算部150は、図6にて説明の計算を全ての区画に対して実行する。図7の模式図は各区画における成長度を示す例である。図7(A)は全ての区画における横方向となるx軸における成長度(dx)の表示であり、図7(B)は全ての区画における縦方向となるy軸における成長度(dy)の表示である。図7(C)は全ての区画における成長度(G)の一覧である。
The
既述のとおり、(i)二次元平面の中からの分析対象とする領域の選定、(ii)その領域へのグリッドの設定による個々の区画の作成、(iii)各区画の成長度の算出の3段階が順に実行される。そうすると、ある特定の区画(例えば前出の区画41)について、その区画における横方向となるx軸方向の成長度(dx)及び縦方向となるy軸方向の成長度(dy)が算出可能となる。
As mentioned above, three steps are executed in sequence: (i) selecting an area to be analyzed from within a two-dimensional plane, (ii) creating individual sections by setting a grid in that area, and (iii) calculating the growth rate of each section. Then, for a particular section (
そして、出力部160は成長度を出力する。成長度の出力は、図1の表示部7(ディスプレイ)への画像として表示される。図8は表示部7における表示例であり、図8(A)では、成長度は二次元平面において矢印として表示される。
Then, the
図8(A)の例では、矢印は2種類用意され、所定の閾値以上の成長度の場合には黒い矢印22、別の所定の閾値以上の成長度の場合には白抜きの矢印23として表示されている。図8(B)では、成長度は個々の文献のそれぞれについて、図示の例では文献番号、発明者との関係で数値表示されている。
In the example of FIG. 8(A), two types of arrows are provided, a
図8(A)の場合、矢印22,23の存在箇所、色を通じて二次元平面における成長度の高い領域の客観的な把握が可能となる。また、図8(B)の場合、文献毎に成長度は数値として具体的に把握することができる。
In the case of FIG. 8(A), the locations and colors of the
続いて、第1実施形態の文献マッピング表示方法を文献マッピング表示プログラムとともに説明する。 Next, the document mapping display method of the first embodiment will be explained together with the document mapping display program.
第1実施形態の文献マッピング表示方法は、第1実施形態の文献マッピング表示プログラムに基づいて、文献マッピング表示装置1のCPU11により実行される。文献マッピング表示方法は、文献マッピング表示装置1のCPU11に対して、文献取得機能、文章取得機能、文献配置機能、抽出機能、計算機能、出力機能を実行させ、さらに、クローリング機能を実行させる。各機能は前述の説明と重複するため、詳細は省略する。
The literature mapping display method of the first embodiment is executed by the
図9、図10、及び図11のフローチャートは第1実施形態の文献マッピング表示装置1のCPU11における文献マッピング表示方法の全体の流れであり、図9では文献取得ステップ(S110)、文章取得ステップ(S120)、文献配置ステップ(S130)、抽出ステップ(S140)、計算ステップ(S150)、出力ステップ(S160)が実行され、図10ではクローリングステップ(S111)が実行される。図11ではベクトル化ステップ(S131)が実行される。
The flowcharts in Figures 9, 10, and 11 show the overall flow of the document mapping display method in the
文献取得機能は、複数の文献を取得する(S110;文献取得ステップ)。文章取得機能は、複数の文献から所定の文章を取得する(S120;文章取得ステップ)。文献配置機能は、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する(S130;文献配置ステップ)。抽出機能は、二次元平面に存在する所定領域における文献数の変化量を抽出する(S140;抽出ステップ)。さらに、抽出機能は、所定領域における文献数の変化量に基づいて二次元平面における所定の文章の集合の変化、または所定の文章の集合の変化の差分を抽出する。計算機能は、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する(S150;計算ステップ)。出力機能は、成長度を出力する(S160;出力ステップ)。また、クローリング機能は、インターネット回線を通じて複数の文献を取得する(S111;クローリングステップ)(図10参照)。ベクトル化機能は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成する(S131;ベクトル化ステップ)(図11参照)。 The document acquisition function acquires a plurality of documents (S110; document acquisition step). The text acquisition function acquires a predetermined text from the plurality of documents (S120; text acquisition step). The document arrangement function arranges the plurality of documents on a two-dimensional plane according to the similarity of the predetermined text contained in each of the plurality of documents (S130; document arrangement step). The extraction function extracts the amount of change in the number of documents in a predetermined area present on the two-dimensional plane (S140; extraction step). Furthermore, the extraction function extracts the change in the set of predetermined texts in the two-dimensional plane, or the difference in the change in the set of predetermined texts, based on the amount of change in the number of documents in the predetermined area. The calculation function calculates the growth rate based on the amount of change in the number of documents in a predetermined area present on the two-dimensional plane (S150; calculation step). The output function outputs the growth rate (S160; output step). The crawling function acquires a plurality of documents through an Internet line (S111; crawling step) (see FIG. 10). The vectorization function generates a feature vector for each of the plurality of documents by natural language processing (S131; vectorization step) (see FIG. 11).
続いて第2実施形態の文献マッピング表示装置1(コンピュータ)の個々の機能部について、図12のブロック図等を参照して順に説明する。第2実施形態の文献マッピング表示装置1の機械構成については第1実施形態の文献マッピング表示装置1と共通であるため説明を省略する。第2実施形態の文献マッピング表示装置1は、図12のブロック図のとおり、文献取得部110、文章取得部120、文献配置部130、抽出部140、計算部150、集積検出部170、時系列変化出力部180、クローリング部111、ベクトル化部131等の機能部を備える。なお、第2実施形態において、第1実施形態の文献マッピング表示装置1と共通する構成については同じ符号が用いられ、重複説明は省略される。
Next, the individual functional units of the document mapping display device 1 (computer) of the second embodiment will be described in order with reference to the block diagram of FIG. 12 and the like. The mechanical configuration of the document
図12のブロック図において、文献取得部110は、複数の文献を取得する。文献取得部110の機能は第1実施形態と同様である。文献取得部110に含まれるクローリング部111の機能は第1実施形態と同様である。文章取得部120は、複数の文献から所定の文章を取得する。文章取得部120の機能は第1実施形態と同様である。
In the block diagram of FIG. 12, the
第2実施形態の文献配置部130は、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する。第2実施形態の文献配置部130における文献に含まれる所定の文章同士の類似性に伴う二次元平面への配置は自然言語処理に基づく。文献の文章中に存在する文言等には言語特有の表現上の揺らぎ、ぶれ等が存在する。そのため、所定の文章同士の類似度の比較を円滑にするため、自然言語処理の利用が望ましい。ここで言う所定の文献に含まれる所定の文章同士の類似性とは、文献相互における意味内容の近さを示す。
The
そして、文献配置部130はベクトル化部131を備える。このベクトル化部131は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成する。ベクトル化部131の機能は第1実施形態と同様である。文献配置部130が生成する特徴ベクトルについても、第1実施形態と同様に二次元にまで次元数が削減される(次元圧縮)。そこで、図13の模式図のように二次元平面への表示を可能としている。
The
図13の模式図は、第2実施形態の複数の文献を二次元平面25に配置した一例である。図中の灰色部分は個々の文献の集合に相当する。なお、灰色の濃淡による区分けは技術分野のおおまかな境界を示している。実際の表示は複数の異なる色のカラー表示であり、点の集合とされる。図示は便宜上異なる濃淡の灰色としている。 The schematic diagram in FIG. 13 is an example of a plurality of documents in the second embodiment arranged on a two-dimensional plane 25. The gray parts in the diagram correspond to collections of individual documents. The division by the shade of gray indicates the rough boundaries of technical fields. The actual display is a color display of multiple different colors, and is considered as a collection of points. For convenience, the illustration shows different shades of gray.
抽出部140は、二次元平面25に存在する所定領域における文献数の変化量を抽出する。計算部150は、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する。第2実施形態の文献マッピング表示装置1における抽出部140及び計算部150の機能は、第1実施形態と同様であり、前述の図5、図6、図7、図8における説明と同様の処理が実行される。
The
集積検出部170は、二次元平面に存在する所定領域における複数の文献に基づいて集積領域を検出する(クラスタリング)。さらには、集積検出部170は、二次元平面に存在する所定領域における複数の文献の密度に基づいて集積領域を検出する(クラスタリング)。検出に際しては、二次元平面に配置された複数の文献は密度ベースクラスタリング手法、k平均法、k近傍法等が用いられる。集積領域は、当該文献マッピング表示装置1のユーザの設定により任意の集積領域数が指定される。このため、ユーザの要望に即した集積領域数に応じた分析が可能となる。
The
時系列変化出力部180は、所定領域における成長度と集積領域の二次元平面における時系列の変化点を二次元平面に表示する。さらに言うと、二次元平面25に存在する所定領域における成長度と複数の文献の集積領域の二次元平面25における時系列の変化点を二次元平面25に表示する。表示形態は次述の図14、図15となる。
The time series
時系列変化出力部180では、集積検出部170にて検出した集積領域毎(クラスタ毎)に時系列の変化点を計算した後に出力される。集積領域毎(クラスタ毎)の時系列の変化点は、二次元平面25に存在する所定領域における複数の文献のうち、集積検出部170にて検出されたそれぞれの集積領域毎(クラスタ毎)に属する複数の文献が使用される。
The time series
さらに時系列変化出力部180では、それぞれの集積領域(クラスタ)に属する複数の文献を期間毎に当該文献の密となる位置が算出され、複数期間がつなげられて時系列の変化点が表示される。当該文献の密となる位置の算出に際しては、ガウシアン分布等が用いられる。
Furthermore, the time series
具体的には、図14の模式図のとおり、文献が数多く密集する(密となる)位置を強調するため、円等の図形が用いられる。これらの円は二次元平面25の随所に表示されている。 Specifically, as shown in the schematic diagram of FIG. 14, shapes such as circles are used to emphasize locations where many documents are concentrated (dense). These circles are displayed at various points on a two-dimensional plane 25.
図14は3年分の表示態様を例示している。それぞれの集積領域(灰色の濃淡により区分けされる領域)には、円が3個含まれる。例えば、各円は、二次元平面25の中の集積領域における今年、1年前、2年前の複数の文献の密となる位置に相当する。図示は3年間分の例であるため円を3個としている。そこで、5年分の累積調査ならば5個の円に数は増やされる。また、年毎(期間毎)に円以外の図形(四角等)が用いられるようにしても良い。さらに、各円は時系列の順に線でつながれる。図14の表示とすると、複数の文献の密となる位置と、当該位置の時系列を伴う変化の両方が一括して二次元平面25に表示可能となり、視覚的な把握が容易となる。むろん、表示の期間は図示に限らず適宜である。例えば2年毎としてもよい。 Figure 14 shows an example of a display format for three years. Each accumulation area (area divided by shades of gray) contains three circles. For example, each circle corresponds to a location where multiple documents are densely packed this year, one year ago, and two years ago in the accumulation area in the two-dimensional plane 25. Since the figure shows an example for three years, there are three circles. Therefore, if it is a cumulative survey for five years, the number of circles is increased to five. Also, shapes other than circles (such as squares) may be used for each year (period). Furthermore, each circle is connected by a line in chronological order. With the display shown in Figure 14, both the locations where multiple documents are densely packed and the changes in the locations over time can be displayed together on the two-dimensional plane 25, making it easy to visually grasp. Of course, the period of display is not limited to the one shown in the figure and can be any appropriate period. For example, it may be every two years.
より詳しくは、図14を部分的に拡大した図15の拡大模式図が参照される。図15では、2018年、2019年、2020年の過去3年分の経時変化の様子が表される。2018年の文献の密となる位置に円28a、2019年の文献の密となる位置に円28b、2020年の文献の密となる位置に円28cとして表示される。また、経時変化の表示を明確化するため、円28a、28b、28cの順に灰色の程度が濃くなるようにしている。このような複数の文献の密となる位置を示す円の位置から二次元平面25における移動(位置の軌跡)がわかりやすくなる。 For more details, see the enlarged schematic diagram of FIG. 15, which is a partial enlargement of FIG. 14. FIG. 15 shows the changes over time for the past three years, 2018, 2019, and 2020. Circles 28a are displayed at locations where there is a high density of documents in 2018, circles 28b at locations where there is a high density of documents in 2019, and circles 28c at locations where there is a high density of documents in 2020. In order to clarify the display of the changes over time, circles 28a, 28b, and 28c are displayed in increasing gray in that order. The positions of the circles indicating the locations where such multiple documents are dense make it easier to understand the movement (locus of position) on the two-dimensional plane 25.
さらに、複数の文献の密となる位置を示す円28aと28bの間は線29pによりつながれ、円28bと28cの間は線29qによりつながれる。線を配置することにより、当該線の長さ(丸同士の距離)が明確化するため、二次元平面25における移動の量(大きく動いているのか、その位置に留まっているのか)の把握が容易となる。また、図示では、線自体も経時変化の表示を明確化するため、線29p、線29qの順に灰色の程度が濃くなるようにしている。 Furthermore, circles 28a and 28b, which indicate the location where multiple documents are densely packed, are connected by line 29p, and circles 28b and 28c are connected by line 29q. By arranging the lines, the length of the lines (the distance between the circles) is made clear, making it easier to grasp the amount of movement in two-dimensional plane 25 (whether there is a large movement or whether the position remains the same). In the illustration, the lines themselves are also made to be darker in gray in the order of line 29p, then line 29q, in order to clearly show the change over time.
図15の例では、矢印は2種類用意され、所定の閾値以上の成長度の場合には黒い矢印26、別の所定の閾値以上の成長度の場合には白抜きの矢印27として表示されている。第1実施形態と同様に、矢印26,27の存在箇所、色を通じて二次元平面25における成長度の高い領域の客観的な把握が可能となる。なお、矢印の種類は図示の2種類には限られない。図示では矢印26,27は三角形として示されている。これは二次元平面25中の表示の簡略化の便宜である。 In the example of FIG. 15, two types of arrows are provided, and when the growth level is above a predetermined threshold, a black arrow 26 is displayed, and when the growth level is above another predetermined threshold, a white arrow 27 is displayed. As in the first embodiment, the locations and colors of the arrows 26 and 27 make it possible to objectively grasp areas of high growth on the two-dimensional plane 25. Note that the types of arrows are not limited to the two types shown. In the illustration, the arrows 26 and 27 are shown as triangles. This is for the convenience of simplifying the display on the two-dimensional plane 25.
続いて、第2実施形態の文献マッピング表示方法を文献マッピング表示プログラムとともに説明する。 Next, the literature mapping display method of the second embodiment will be explained together with the literature mapping display program.
第2実施形態の文献マッピング表示方法は、第2実施形態の文献マッピング表示プログラムに基づいて、文献マッピング表示装置1のCPU11により実行される。文献マッピング表示方法は、文献マッピング表示装置1のCPU11に対して、文献取得機能、文章取得機能、文献配置機能、抽出機能、計算機能、集積検出機能、時系列変化出力機能を実行させ、さらに、クローリング機能を実行させる。各機能は前述の説明と重複するため、詳細は省略する。
The literature mapping display method of the second embodiment is executed by the
図16、図17、及び図18のフローチャートは第2実施形態の文献マッピング表示装置1のCPU11における文献マッピング表示方法の全体の流れであり、図16では文献取得ステップ(S110)、文章取得ステップ(S120)、文献配置ステップ(S130)、抽出ステップ(S140)、計算ステップ(S150)、集積検出ステップ(S170)、時系列変化出力ステップ(S180)が実行され、図17ではクローリングステップ(S111)が実行される。図18ではベクトル化ステップ(S131)が実行される。
The flowcharts in Figures 16, 17, and 18 show the overall flow of the document mapping display method in the
文献取得機能は、複数の文献を取得する(S110;文献取得ステップ)。文章取得機能は、複数の文献から所定の文章を取得する(S120;文章取得ステップ)。文献配置機能は、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する(S130;文献配置ステップ)。抽出機能は、二次元平面に存在する所定領域における文献数の変化量を抽出する(S140;抽出ステップ)。さらに、抽出機能は、所定領域における文献数の変化量に基づいて二次元平面における所定の文章の集合の変化、または所定の文章の集合の変化の差分を抽出する。計算機能は、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する(S150;計算ステップ)。集積検出機能は、二次元平面に存在する所定領域における複数の文献に基づいて(複数の文献の密度に基づいて)集積領域を検出する(S170;集積検出ステップ)。時系列変化出力機能は、所定領域における成長度と前記集積領域の二次元平面における時系列の変化点を二次元平面に表示する(S180;時系列変化出力ステップ)。また、クローリング機能は、インターネット回線を通じて複数の文献を取得する(S111;クローリングステップ)(図17参照)。ベクトル化機能は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成する(S131;ベクトル化ステップ)(図18参照)。 The document acquisition function acquires a plurality of documents (S110; document acquisition step). The text acquisition function acquires a predetermined text from the plurality of documents (S120; text acquisition step). The document arrangement function arranges the plurality of documents on a two-dimensional plane according to the similarity of the predetermined text contained in each of the plurality of documents (S130; document arrangement step). The extraction function extracts the amount of change in the number of documents in a predetermined area present on the two-dimensional plane (S140; extraction step). Furthermore, the extraction function extracts the change in the set of predetermined texts in the two-dimensional plane, or the difference in the change in the set of predetermined texts, based on the amount of change in the number of documents in the predetermined area. The calculation function calculates the growth degree based on the amount of change in the number of documents in a predetermined area present on the two-dimensional plane (S150; calculation step). The accumulation detection function detects an accumulation area based on the plurality of documents in a predetermined area present on the two-dimensional plane (based on the density of the plurality of documents) (S170; accumulation detection step). The time series change output function displays the growth degree in the predetermined area and the time series change points in the two-dimensional plane of the accumulation area on the two-dimensional plane (S180; time series change output step). The crawling function also acquires multiple documents via an Internet line (S111; crawling step) (see FIG. 17). The vectorization function generates feature vectors for each of the multiple documents through natural language processing (S131; vectorization step) (see FIG. 18).
上述した本発明のコンピュータプログラムは、プロセッサが読み取り可能な記録媒体に記録されていてよく、記録媒体としては、「一時的でない有形の媒体」、例えば、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。 The computer program of the present invention described above may be recorded on a processor-readable recording medium, and the recording medium may be a "non-transitory tangible medium" such as a disk, card, semiconductor memory, or programmable logic circuit.
なお、上記コンピュータプログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。 The computer program can be implemented using, for example, a scripting language such as ActionScript or JavaScript (registered trademark), an object-oriented programming language such as Objective-C or Java (registered trademark), or a markup language such as HTML5.
1 文献マッピング表示装置
2 固定メディア
3 インターネット回線
4 読取部
5 キーボード
6 マウス
7 表示部(ディスプレイ)
11 CPU
12 RAM
13 ROM
14 記憶部
15 I/O(インプット・アウトプットインターフェース)
20,25 二次元平面
22,23,26,27 矢印
28a,28b,28c 円
29p,29q 線
30 グリッド
31 グリッドの間隔
32,41,42,43,44,45 区画
110 文献取得部
111 クローリング部
120 文章取得部
130 文献配置部
131 ベクトル化部
140 抽出部
150 計算部
160 出力部
170 集積検出部
180 時系列変化出力部
1 Literature
11 CPU
12 RAM
13 ROM
14 Memory unit 15 I/O (input/output interface)
20, 25 Two-
Claims (20)
前記複数の文献から所定の文章を取得する文章取得部と、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、
前記二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出部と、
前記二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算部と、
前記成長度を出力する出力部と、を備える
ことを特徴とする文献マッピング表示装置。 a document acquisition unit for acquiring a plurality of documents;
a text acquisition unit for acquiring a predetermined text from the plurality of documents;
a document arrangement unit that arranges the plurality of documents on a two-dimensional plane according to similarities between predetermined sentences included in each of the plurality of documents;
an extraction unit that extracts a time series change in the number of documents in a predetermined area existing on the two-dimensional plane;
a calculation unit that calculates a growth rate based on a time series change in the number of documents in a predetermined area present on the two-dimensional plane;
and an output unit that outputs the growth degree.
前記複数の文献から所定の文章を取得する文章取得部と、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、
前記二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出部と、
前記二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算部と、
前記二次元平面に存在する所定領域における前記複数の文献に基づいて集積領域を検出する集積検出部と、
所定領域における成長度と前記集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力部と、を備える
ことを特徴とする文献マッピング表示装置。 a document acquisition unit for acquiring a plurality of documents;
a text acquisition unit for acquiring a predetermined text from the plurality of documents;
a document arrangement unit that arranges the plurality of documents on a two-dimensional plane according to similarities between predetermined sentences included in each of the plurality of documents;
an extraction unit that extracts a time series change in the number of documents in a predetermined area existing on the two-dimensional plane;
a calculation unit that calculates a growth rate based on a time series change in the number of documents in a predetermined area present on the two-dimensional plane;
an accumulation detection unit that detects an accumulation area based on the plurality of documents in a predetermined area existing on the two-dimensional plane;
a time series change output unit that displays, on a two-dimensional plane, a growth rate in a predetermined area and time series change points in the two-dimensional plane of the accumulation area.
前記文献取得部は、前記タグ情報に基づいて前記複数の文献を取得する請求項3に記載の文献マッピング表示装置。 tag information indicating characteristics of the document is attached to each of the plurality of documents in accordance with the document;
The document mapping display device according to claim 3 , wherein the document acquisition section acquires the plurality of documents based on the tag information.
複数の文献を取得する文献取得ステップと、
前記複数の文献から所定の文章を取得する文章取得ステップと、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置ステップと、
前記二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出ステップと、
前記二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算ステップと、
前記成長度を出力する出力ステップと、を実行する
ことを特徴とする文献マッピング表示方法。 The computer
A document acquisition step of acquiring a plurality of documents;
a sentence acquisition step of acquiring a predetermined sentence from the plurality of documents;
a document arrangement step of arranging the plurality of documents on a two-dimensional plane according to similarities between predetermined sentences included in each of the plurality of documents;
an extraction step of extracting a time series change in the number of documents in a predetermined area on the two-dimensional plane;
a calculation step of calculating a growth rate based on a time series change in the number of documents in a predetermined area present on the two-dimensional plane;
and outputting the growth degree.
複数の文献を取得する文献取得機能と、
複数の文献から所定の文章を取得する文章取得機能と、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置機能と、
前記二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出機能と、
前記二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算機能と、
前記成長度を出力する出力機能と、を実現させる
ことを特徴とする文献マッピング表示プログラム。 On the computer,
A document acquisition function that acquires multiple documents;
A text acquisition function for acquiring a specified text from a plurality of documents;
a document arrangement function for arranging the plurality of documents on a two-dimensional plane in accordance with similarities between predetermined sentences contained in each of the plurality of documents;
an extraction function for extracting a time series change in the number of documents in a predetermined area on the two-dimensional plane;
a calculation function for calculating a growth rate based on a time series change in the number of documents in a predetermined area present on the two-dimensional plane;
and an output function for outputting the growth degree.
複数の文献を取得する文献取得ステップと、
前記複数の文献から所定の文章を取得する文章取得ステップと、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置ステップと、
前記二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出ステップと、
前記二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算ステップと、
前記二次元平面に存在する所定領域における前記複数の文献に基づいて集積領域を検出する集積検出ステップと、
所定領域における成長度と前記集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力ステップと、を実行する
ことを特徴とする文献マッピング表示方法。 The computer
A document acquisition step of acquiring a plurality of documents;
a sentence acquisition step of acquiring a predetermined sentence from the plurality of documents;
a document arrangement step of arranging the plurality of documents on a two-dimensional plane according to similarities between predetermined sentences included in each of the plurality of documents;
an extraction step of extracting a time series change in the number of documents in a predetermined area on the two-dimensional plane;
a calculation step of calculating a growth rate based on a time series change in the number of documents in a predetermined area present on the two-dimensional plane;
an accumulation detection step of detecting an accumulation region based on the plurality of documents in a predetermined region existing on the two-dimensional plane;
and a time series change output step of displaying on a two-dimensional plane the degree of growth in a predetermined region and time series change points in the two-dimensional plane of the accumulation region.
複数の文献を取得する文献取得機能と、
前記複数の文献から所定の文章を取得する文章取得機能と、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置機能と、
前記二次元平面に存在する所定領域における文献数の時系列の変化量を抽出する抽出機能と、
前記二次元平面に存在する所定領域における文献数の時系列の変化量に基づいて成長度を計算する計算機能と、
前記二次元平面に存在する所定領域における前記複数の文献に基づいて集積領域を検出する集積検出機能と、
所定領域における成長度と前記集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力機能と、を実現させる
ことを特徴とする文献マッピング表示プログラム。
On the computer,
A document acquisition function that acquires multiple documents;
A text acquisition function for acquiring a predetermined text from the plurality of documents;
a document arrangement function for arranging the plurality of documents on a two-dimensional plane in accordance with similarities between predetermined sentences contained in each of the plurality of documents;
an extraction function for extracting a time series change in the number of documents in a predetermined area on the two-dimensional plane;
a calculation function for calculating a growth rate based on a time series change in the number of documents in a predetermined area present on the two-dimensional plane;
an accumulation detection function for detecting an accumulation region based on the plurality of documents in a predetermined region existing on the two-dimensional plane;
and a time series change output function for displaying on a two-dimensional plane the degree of growth in a predetermined area and time series change points in the two-dimensional plane of the accumulation area.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021089987 | 2021-05-28 | ||
| JP2021089987 | 2021-05-28 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022183023A JP2022183023A (en) | 2022-12-08 |
| JP7543339B2 true JP7543339B2 (en) | 2024-09-02 |
Family
ID=84328783
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022071856A Active JP7543339B2 (en) | 2021-05-28 | 2022-04-25 | Document mapping display device, document mapping display method, and document mapping display program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7543339B2 (en) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005149346A (en) | 2003-11-19 | 2005-06-09 | Nomura Research Institute Ltd | Literature information analysis system and literature information analysis program |
| JP2007265009A (en) | 2006-03-28 | 2007-10-11 | Nomura Research Institute Ltd | Literature information analysis system and literature information analysis program |
| JP2009043063A (en) | 2007-08-09 | 2009-02-26 | Fujifilm Corp | Content distribution server and content distribution method |
| JP2011018267A (en) | 2009-07-10 | 2011-01-27 | Ricoh Co Ltd | Security management system, server device, security management method, program and recording medium |
| JP2019169143A (en) | 2018-03-22 | 2019-10-03 | 富士ゼロックス株式会社 | System, method, device, and program that track copy of printed material owned by rights holder |
-
2022
- 2022-04-25 JP JP2022071856A patent/JP7543339B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005149346A (en) | 2003-11-19 | 2005-06-09 | Nomura Research Institute Ltd | Literature information analysis system and literature information analysis program |
| JP2007265009A (en) | 2006-03-28 | 2007-10-11 | Nomura Research Institute Ltd | Literature information analysis system and literature information analysis program |
| JP2009043063A (en) | 2007-08-09 | 2009-02-26 | Fujifilm Corp | Content distribution server and content distribution method |
| JP2011018267A (en) | 2009-07-10 | 2011-01-27 | Ricoh Co Ltd | Security management system, server device, security management method, program and recording medium |
| JP2019169143A (en) | 2018-03-22 | 2019-10-03 | 富士ゼロックス株式会社 | System, method, device, and program that track copy of printed material owned by rights holder |
Non-Patent Citations (1)
| Title |
|---|
| 伊藤 正彦,インターネット・ウェブ・ソーシャルデータの可視化,可視化情報学会誌 第36巻 第141号 ,日本,一般社団法人可視化情報学会,第36巻,pp.21-26 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022183023A (en) | 2022-12-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12197445B2 (en) | Computerized information extraction from tables | |
| Zhao | R and data mining: Examples and case studies | |
| Auffarth | Machine learning for time-series with Python | |
| JP2022541199A (en) | A system and method for inserting data into a structured database based on image representations of data tables. | |
| CN104346419B (en) | Database analysis device and method | |
| CN112424784B (en) | Systems, methods, and computer-readable media for improved table identification using neural networks | |
| Bauer et al. | Variable grid method: An intuitive approach for simultaneously quantifying and visualizing spatial data and uncertainty | |
| Niesterowicz et al. | Unsupervised regionalization of the United States into landscape pattern types | |
| Toomey | R for data science | |
| CN120086427A (en) | A method and system for intelligently collecting and analyzing web merchant information | |
| Tripathi | Practical machine learning cookbook | |
| Walker | Data Cleaning and Exploration with Machine Learning | |
| Banissi et al. | Information visualisation: techniques, usability and evaluation | |
| JP7543339B2 (en) | Document mapping display device, document mapping display method, and document mapping display program | |
| CN118796800B (en) | A method, system and medium for constructing a large database for international achievement transformation services | |
| CN117312468A (en) | Geospatial point data sampling method driven by emotional feature consistency | |
| Garcia-Algarra et al. | A structural approach to disentangle the visualization of bipartite biological networks | |
| CN114360735A (en) | Infectious disease time-space aggregation detection and analysis method and system and electronic equipment | |
| Joque | Visualizing historical web data | |
| US12596753B2 (en) | Computing page relevance for tabular contents from a document | |
| KR101327159B1 (en) | Topic Flow Analysis Method for Document | |
| Escarassatti et al. | Visual representation of bibliographic production data from Lattes Platform | |
| CN119149854B (en) | Website asset identification method and device, model training method and electronic equipment | |
| US11600028B1 (en) | Semantic resizing of line charts | |
| CN119129606B (en) | Emotion analysis method, emotion analysis device, computer equipment and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230510 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240312 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240313 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240508 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240806 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240821 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7543339 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |