Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4568838B2 - Visual and auditory similar product name presentation device - Google Patents
[go: Go Back, main page]

JP4568838B2 - Visual and auditory similar product name presentation device - Google Patents

Visual and auditory similar product name presentation device Download PDF

Info

Publication number
JP4568838B2
JP4568838B2 JP2004271381A JP2004271381A JP4568838B2 JP 4568838 B2 JP4568838 B2 JP 4568838B2 JP 2004271381 A JP2004271381 A JP 2004271381A JP 2004271381 A JP2004271381 A JP 2004271381A JP 4568838 B2 JP4568838 B2 JP 4568838B2
Authority
JP
Japan
Prior art keywords
product name
distance
character string
name word
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004271381A
Other languages
Japanese (ja)
Other versions
JP2006085556A (en
Inventor
和世 田中
Original Assignee
国立大学法人 筑波大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 筑波大学 filed Critical 国立大学法人 筑波大学
Priority to JP2004271381A priority Critical patent/JP4568838B2/en
Publication of JP2006085556A publication Critical patent/JP2006085556A/en
Application granted granted Critical
Publication of JP4568838B2 publication Critical patent/JP4568838B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願発明は、商品名などのもつ文字系列の視覚的類似性(文字を読み取る際の読み間違いを引き起こし易い字形的類似性)や聴覚的類似性(音声として聴いた際の聞き間違いを引き起こし易い類似性)の尺度に基いて、個々の商品名などがユーザによって文字列として入力された場合、その商品名などに対する読み間違いや聴き間違い易い類似品名を提示する装置に関する。ユーザに入力ミスなどの警告を出す機能をもつユーザ支援システムの1種である。例えば薬剤師がユーザであるとき、類似薬剤名による調剤ミスに対する警告システムとして活用することができる。   The present invention is a visual similarity (characteristic similarity that is likely to cause reading errors when reading characters) or auditory similarity (similarity that is likely to cause mistakes when listening as speech). The present invention relates to an apparatus for presenting similar product names that are easy to read or hear mistakes with respect to the product names when individual product names or the like are input as character strings by the user. This is a type of user support system that has a function to alert the user of input errors. For example, when the pharmacist is a user, it can be used as a warning system for dispensing errors due to similar drug names.

ユーザによって入力された文字列が誤りであることを防止するものとして、ソースプログラムのコーディング時に発生する入力ミスを少なくするものが考えられている。その方法は、記憶装置にはソースプログラムの作成に使用する言語の文法,上記言語で用意されている語及びソースプログラムを作成するための入力された文字列等が格納され、キーワード抽出手段は、入力された文字列から、予め定められた文法上の条件(例えば、関数名)を満たす語をキーワードとして抽出し、検索手段は、記憶装置に対してあいまい検索を行い、キーワードと類似する語及び一致する語を探し、検索手段においてキーワードに類似する語のみが探し出された場合、確定手段は、探し出された語の内の1つをキーワードに対応する正しい語であるとし、変更手段は、作成中のソースプログラムのキーワードを、確定手段が正しいと判断した語に書き換えるものである(下記特許文献1参照)。   As a means for preventing a character string input by a user from being erroneous, a technique for reducing input mistakes that occur when coding a source program is considered. In this method, the storage device stores the grammar of the language used for creating the source program, the words prepared in the above language, the input character string for creating the source program, and the like. A word satisfying a predetermined grammatical condition (for example, a function name) is extracted as a keyword from the input character string, and the search means performs a fuzzy search on the storage device, and a word similar to the keyword and When a matching word is searched and only a word similar to the keyword is found in the search means, the determination means assumes that one of the searched words is a correct word corresponding to the keyword, and the change means The keyword of the source program being created is rewritten with a word determined by the determining means to be correct (see Patent Document 1 below).

同様に、ユーザに入力ミスを確実に確認させ、かつ、入力された文字列を容易に修正することができる文字列入力方法として、入力部から入力された文字列が、この文字列と類似する文字列の類似語の中に作成中の文書に既に使用されている単語と共起関係にあるものがある場合、類似語を候補単語として表示することでユーザに入力ミスを確認させるようにしたものは、知られている(下記特許文献2参照)。   Similarly, a character string input from the input unit is similar to this character string as a character string input method that allows the user to surely confirm an input mistake and easily correct the input character string. When a similar word in a string has a co-occurrence relationship with a word already used in the document being created, the similar word is displayed as a candidate word so that the user can confirm an input error. The thing is known (refer the following patent document 2).

上記従来例に見られるように、入力された文字列のミスをユーザに確認させる方法は、以前からよく知られていた。しかしながら、文字字形間距離や音声の発音記号間距離を利用した視覚的かつ聴覚的な類似性を考慮して、ユーザに提示しているものは見当たらない。あるいは、もし、本願発明と同様な目的を持った発明も存在するかもしれないが、多くは経験的な知識に基づく簡易なシステムであり、本願発明のように計算機処理に基づく視覚的・聴覚的類似性を評価計算し、品名単語事典に類似品名単語セットを組み込むという明示的な構成をもった視覚的・聴覚的類似品名提示装置は存在しない。   As can be seen in the above conventional example, a method for allowing a user to confirm an error in an input character string has been well known. However, in consideration of visual and auditory similarities using the distance between character shapes and the distance between phonetic symbols, what is presented to the user is not found. Alternatively, there may exist inventions having the same purpose as the present invention, but many are simple systems based on empirical knowledge, and visually and auditorily based on computer processing as in the present invention. There is no visual / auditory similar product name presentation device with an explicit configuration that evaluates and calculates similarity and incorporates a similar product name word set into the product name word encyclopedia.

文字認識や音声認識に関連して、文字で与えられた単語間距離の計算は従来も提案があったが、これらは主に計算機処理によるパターン認識技術としてである。本願発明においても、これらの技術を利用して文字列の読み間違いや聴き間違いのような知覚的距離とすることも可能であるが、本願発明においては、後述するように、視覚的、聴覚的類似性の導入のために、新たに品名単語間の距離計算方法を導入している。また、品名単語の部分列同士の距離が計算でき、品名単語の一部しか入力されないなどの省略形にも対応できる。   In relation to character recognition and speech recognition, calculation of the distance between words given by characters has been proposed in the past, but these are mainly as pattern recognition techniques by computer processing. In the present invention, it is also possible to make a perceptual distance such as a misreading of a character string or an erroneous listening using these techniques. However, in the present invention, as will be described later, visual and auditory In order to introduce similarity, a new distance calculation method between product name words is introduced. Further, the distance between the partial strings of the product name words can be calculated, and it is possible to deal with abbreviations such as only a part of the product name words being input.

なお、本願発明はコンピュータで文字認識や音声認識を行うものではなく、文字読み取りや音声の聞き取りはユーザが行い、その結果が文字列としてコンピュータに入力された時、ユーザが入力した商品名等に類似した品名があることを警告するユーザ支援システムである。
特開平7−160494号公報 特開平11−175518号公報
Note that the present invention does not perform character recognition or voice recognition on a computer. Character reading or voice listening is performed by the user, and when the result is input to the computer as a character string, the product name input by the user is displayed. This is a user support system that warns that there are similar product names.
JP-A-7-160494 Japanese Patent Laid-Open No. 11-175518

日本薬剤師協会のホームページには類似薬剤名による投薬ミスに対する警告が公示されており、またその類の事故が新聞報道等で見受けられる。この原因の一部は、薬剤名の読み間違いや聴き間違いにあると推測される。商品名の注文時等においても同様なミスが起こることが考えられる。処方をする場合等のケースにおいては、コンピュータに品名を入力することが通常であり、この状況において、もしコンピュータ側から警告のメッセージが提示されれば、ミスを減少させることが可能である。本願発明は、大量のデータを用いた計算機処理によって、これらの機能を有する性能の高いシステムを構築することを目的としている。   A warning about medication errors due to similar drug names is published on the website of the Japan Pharmacists Association, and a similar accident can be seen in newspaper reports. It is speculated that part of this cause is due to misreading or listening to the drug name. Similar mistakes may occur when ordering product names. In cases such as prescribing, it is usual to input the product name into the computer. In this situation, if a warning message is presented from the computer, mistakes can be reduced. An object of the present invention is to construct a high-performance system having these functions by computer processing using a large amount of data.

上記目的は、品名単語の表記文字列の文字字形に基づく視覚的距離又は該表記文字列の音声発音についての聴覚的距離(すなわち、視覚的距離、聴覚的距離又は視覚的距離及び聴覚的距離双方)の計算により予め求められた類似品名単語セットが組み込まれている品名単語事典、ユーザから入力された文字列が該事典の辞書項目の中に存在するか否かを判定するブロック、ユーザから入力された文字列が事典の辞書項目にある品名単語と一致するものがなかった場合に起動され、入力された品名単語の文字列に対する類似品名単語を探索するブロック及び入力された品名単語に対する類似品名単語を提示するブロックを有する類似品名提示装置によって達成される。   The purpose is to provide a visual distance based on the character shape of the written character string of the product name word, or an auditory distance for the phonetic pronunciation of the written character string (ie, visual distance, auditory distance or both visual distance and auditory distance). ) Item name word encyclopedia in which a similar item name word set obtained in advance is calculated, a block for determining whether or not a character string input by the user exists in the dictionary item of the encyclopedia, input from the user When the entered character string does not match the item name word in the dictionary item of the encyclopedia, the block that searches for the similar item name word for the character string of the inputted item name word and the similar item name for the inputted item name word This is achieved by a similar product name presentation device having a block for presenting words.

この装置を構築する準備として、予め用意された商品名リスト(文字テキストで与えられる)を基に、このリストに含まれるすべての商品名(以下、「品名単語」と記す。)について、それぞれの品名単語ペア同士の「知覚的距離」を計算しておき、これに基づいて、個々の品名単語について自分自身との距離がある一定値以下である品名単語セットを求めておく。ここで使用する「知覚的距離」は読み間違いや聴き間違いに対応するような距離を採用する(下記の実施の態様<3>及び<4>参照)。ある品名単語Aに対する類似品名単語セットをSn(A), n=1,2,..N と表す。新しい品名単語が追加された場合は同様な処理によって類似品名単語セットを更新する。   As preparations for constructing this device, based on a product name list prepared in advance (given by text), all product names included in this list (hereinafter referred to as “product name words”) are respectively displayed. The “perceptual distance” between the product name word pairs is calculated, and based on this, a product name word set in which the distance from the product name word is less than a certain value is obtained. As the “perceptual distance” used here, a distance corresponding to a reading error or a listening error is adopted (see embodiments <3> and <4> below). A similar product name word set for a product name word A is represented as Sn (A), n = 1, 2,. When a new product name word is added, the similar product name word set is updated by the same process.

商品名等のもつ文字系列の視覚的類似性(文字を読み取る際の読み間違いを引き起こし易い字形的類似性)や聴覚的類似性(音声として聴いた際の聞き間違いを引き起こし易い類似性)の尺度に基いて、個々の商品名等がユーザによって文字列として入力された場合、その商品名等に対する読み間違いや聴き間違い易い類似品名を提示することにより、ユーザに入力ミスなどの警告を出す機能を有しており、例えば、薬剤師がユーザであるとき、類似薬剤名による調剤ミスに対する警告システムとして活用することができる。   A measure of visual similarity (characteristic similarity that tends to cause reading errors when reading characters) and auditory similarity (similarity that can easily cause mistakes when listening as speech) of character sequences of product names, etc. When a product name or the like is input as a character string by the user, a function of issuing a warning such as an input error to the user by presenting a similar product name that is easy to read or mistaken for the product name or the like is provided. For example, when the pharmacist is a user, it can be used as a warning system for dispensing errors due to similar drug names.

以下に、本願発明の実施の態様を説明する。   Hereinafter, embodiments of the present invention will be described.

<1> システムの構成と動作
本願発明は、図1に示すような構成をしており、以下のブロックからなる。
(ア)予め計算されて求められた類似品名単語セットが組み込まれている品名単語事典(ないし、その種の電子化された辞典類)。
(イ)ユーザから入力された文字列が、上記事典の辞書項目(品名単語に相当)の中に存在するか否かを判定するブロック。
(ウ)入力された品名単語の文字列に対する類似品名単語を探索するブロック(このブロックは、事典の辞書項目に入力された品名単語と一致するものがなかった場合に起動される)。
(エ)入力された品名単語に対する類似品名単語を提示するブロック。
<1> System Configuration and Operation The present invention is configured as shown in FIG. 1 and includes the following blocks.
(A) A product name word dictionary (or an electronic dictionary of that kind) incorporating a pre-calculated similar product name word set.
(A) A block for determining whether or not a character string input from a user exists in the dictionary item (corresponding to a product name word) of the encyclopedia.
(C) A block for searching for a similar product name word with respect to a character string of the input product name word (this block is activated when there is no match with the product name word input in the dictionary item of the encyclopedia).
(D) A block that presents similar product name words to the input product name words.

本装置の動作はつぎのようになる。
(1)まず、ユーザが品名単語を入力すると、その文字列と品名事典の辞書項目とを照合し、入力品名単語が事典に含まれているか否かを判定する。含まれている場合は(2)へ、否の場合は(3)へ進む。
(2)入力品名単語について、その事典の内容の一部として類似品名セットをユーザが使用しているパソコンなどの画面に表示する。この場合、音声で知らせるなどの機能も付加できる。
(3)入力品名単語と品名事典の辞書項目との距離を計算し、類似品名単語候補をユーザに提示する。また、ユーザがその提示された品名単語から適当な1個を選択すると、(2)と同様に、その選択された品名単語に対する類似品名単語セットが事典情報とともにパソコンの画面などに提示される。
The operation of this device is as follows.
(1) First, when the user inputs a product name word, the character string and the dictionary item of the product name encyclopedia are collated to determine whether or not the input product name word is included in the encyclopedia. If it is included, go to (2). If not, go to (3).
(2) For the input product name word, a similar product name set is displayed as a part of the contents of the encyclopedia on the screen of a personal computer or the like used by the user. In this case, a function of notifying by voice can be added.
(3) The distance between the input product name word and the dictionary item of the product name encyclopedia is calculated, and similar product name word candidates are presented to the user. When the user selects an appropriate item name from the presented item name words, a similar item name word set for the selected item name word is presented on the screen of the personal computer together with the encyclopedia information, as in (2).

<2> 品名単語事典への組込み
この装置を構築する準備として、予め用意された商品名リスト(文字テキストで与えられる)を基に、このリストに含まれるすべての商品名(以下、「品名単語」と記す)について、それぞれの品名単語ペア同士の「知覚的距離」(類似度に反比例)を計算しておき、これに基づいて、個々の品名単語について自分自身との距離がある一定値以下である品名単語セットを求めておく。ここで使用する「知覚的距離」は読み間違いや聴き間違いに対応するような距離を採用する(以下の実施態様<3>及び<4>参照)。ある品名単語Aに対する類似品名単語セットをSn(A), n=1,2,..N と表す。新しい品名単語が追加された場合は同様な処理によって類似品名単語セットを更新する。
<2> Incorporation into Product Name Word Encyclopedia As preparation for constructing this device, all product names included in this list (hereinafter referred to as “Product Name Words”) based on a product name list (given as text) prepared in advance. ”), The“ perceptual distance ”(inversely proportional to the similarity) between each pair of product name words is calculated, and based on this, the distance between each product name word and itself is below a certain value. Find the product name word set. As the “perceptual distance” used here, a distance corresponding to a reading error or a listening error is adopted (see the embodiments <3> and <4> below). A similar product name word set for a product name word A is represented as Sn (A), n = 1, 2,. When a new product name word is added, the similar product name word set is updated by the same process.

この類似品名単語セットを品名単語事典に組み込んでおく。すなわち、各品名単語(辞書項目)についてその内容説明文とともに「類似品名単語のリスト」を載せておく。ある品名単語Aが選択されるとその内容説明文とともに「類似品名単語のリストSn(A), n=1,2,..N」が(パソコンなどの画面表示や音声で)提示される。   This similar product name word set is incorporated in the product name word dictionary. That is, for each item name word (dictionary item), a “list of similar item name words” is placed together with a description of the contents. When a certain product name word A is selected, “similar product name word list Sn (A), n = 1, 2,...

<3> 品名単語間の視覚的距離(類似性)の計算方法
この場合の視覚的距離とは、読み間違いを引き起こし易いという意味である。そこで、まず事典の品名単語中に含まれるすべての文字について、文字字形による文字間の距離(各文字のペアがどの程度似ているか)を計算しておく。この計算自体は、実際の文字データサンプルを使用して、文字認識技術などで用いられる特徴量を利用して計算する。
<3> Calculation Method of Visual Distance (Similarity) Between Product Name Words In this case, the visual distance means that an erroneous reading is likely to occur. Therefore, first, for all characters included in the article name word of the encyclopedia, the distance between the characters in the character shape (how much each character pair is similar) is calculated. This calculation itself is performed by using a feature data used in character recognition technology or the like using an actual character data sample.

この場合、サンプルデータが活字体の場合と筆記体の場合がある。活字体の場合は、数種類の標準的字体(例えば明朝体、ゴシック体など)で文字サイズも同一のデータから距離値を計算しても差し支えない。本来は、ユーザが使用するフォントと同じことが望ましいが、汎用性の観点から、これは避ける。筆記体の場合は、多数の筆記文字サンプルが必要になり、距離値も分散を考慮した統計的距離(例えば、マハラノビス距離等)を用いることが望ましい。実現が難しい場合は、活字体のフォントの中で筆記体に近い字体を多数使用することにより同様な統計的距離を計算して近似してもよい。   In this case, the sample data may be a typeface or a cursive form. In the case of a typeface, the distance value may be calculated from data of several standard fonts (for example, Mincho, Gothic, etc.) and the same character size. Originally, the same font as that used by the user is desirable, but this is avoided from the viewpoint of versatility. In the case of a cursive body, a large number of written character samples are required, and it is desirable to use a statistical value (for example, Mahalanobis distance, etc.) in consideration of dispersion as a distance value. When realization is difficult, a similar statistical distance may be calculated and approximated by using a large number of fonts close to cursive in a typeface font.

このようにして求めた、文字aと文字bとの字形上の距離をdf(a,b)とする。このとき2つの品名単語AとBを表す文字列をそれぞれ
A: a1 a2 a3 ……. an
B: b1 b2 b3 ……. bm
と表す。例えば、df(a1,b1) は、文字a1とb1の字形の違いを表す距離である。
The distance in the shape of the character a and the character b obtained in this way is defined as df (a, b). At this time, the character strings representing the two product name words A and B are respectively
A: a1 a2 a3 ……. An
B: b1 b2 b3 ....... bm
It expresses. For example, df (a1, b1) is a distance representing the difference between the character shapes of the characters a1 and b1.

品名単語A,Bの知覚距離には、隣接する文字の前後の入れ替りが視覚的には誤り易いことを考慮した距離尺度を導入する。その計算方法は以下の通りである。   For the perceived distance of the product name words A and B, a distance scale is introduced in consideration of the fact that the replacement of adjacent characters before and after is likely to be visually erroneous. The calculation method is as follows.

[品名単語AとBの視覚的距離の計算方法]
(1)上記の文字系列のそれぞれについて、下記のような3個並びの組の系列を作成する。まずAについて、
(a1, a2, a3), (a2, a3, a4), (a3, a4, a5), …, (an-2, an-1, an)
同様にBについて
(b1, b2, b3), (b2, b3, b4), (b3, b4, b5), …, (bm-2, bm-1, bm)
上記の系列から一般項として、(ai-1, ai, ai+1) , (bj-1, bj, bj+1)の2つを選ぶとき、この2つの距離dffを次のように定義する。
距離dff{(ai-1, ai, ai+1) , (bj-1, bj, bj+1)}= min { dff1, dff2, dff3}
この式で、minは{ }内の3変数の最小値を取ることであり、また
dff1= { df (ai-1, bj-1) + df (ai, bj) + df (ai+1, bj+1) }/3
dff2= { df (ai-1, bj) + df (ai, bj-1) + df (ai+1, bj+1) }/3
dff3= { df (ai-1, bj-1) + df (ai, bj+1) + df (ai+1, bj) }/3
である。この定義式は、3個の文字系列のうち、1組が交替していてもこの距離は小さいことを意味する。以下では簡単に、この距離をdff (i, j)と表す。
[How to calculate the visual distance between product words A and B]
(1) For each of the above character sequences, create a sequence of three groups as shown below. First about A
(a1, a2, a3), (a2, a3, a4), (a3, a4, a5),…, (an-2, an-1, an)
Similarly for B
(b1, b2, b3), (b2, b3, b4), (b3, b4, b5),…, (bm-2, bm-1, bm)
When selecting two (ai-1, ai, ai + 1) and (bj-1, bj, bj + 1) as general terms from the above series, define these two distances dff as follows: .
Distance dff {(ai-1, ai, ai + 1), (bj-1, bj, bj + 1)} = min {dff1, dff2, dff3}
In this formula, min is the minimum value of the three variables in {}, and
dff1 = {df (ai-1, bj-1) + df (ai, bj) + df (ai + 1, bj + 1)} / 3
dff2 = {df (ai-1, bj) + df (ai, bj-1) + df (ai + 1, bj + 1)} / 3
dff3 = {df (ai-1, bj-1) + df (ai, bj + 1) + df (ai + 1, bj)} / 3
It is. This definition formula means that this distance is small even if one set of three character sequences is changed. In the following, this distance is simply expressed as dff (i, j).

2つの品名単語の文字列A, Bが与えられたとき、2つの系列に対してdff(i,j), i=1,2,…n, j=1,2,…,mを計算できる。このdff(i, j)を局所距離として、AとBの距離の計算を動的計画法(Dynamic Programming、以下DP)を利用して行う。この目的で利用されるDPの手法は、2つの系列AとBがもっともよく対応するように最適化を図る手法(以下、「非線形伸縮最適整合法」と記す。)で、その計算アルゴリズムはすでによく知られている。次の<4>も同じ手法を用いるので、その方法については<5>で述べる。こうして得られたAとBの視覚的距離をDF(A,B)とおく。DF(A,B)の大きさに基づいて視覚的類似品名単語を選定する。このとき、相互の部分文字系列が類似している場合も選定することができる。ただし、これを提示するか否かは選択の余地がある。
Given character strings A and B of two product name words, dff (i, j), i = 1,2, ... n, j = 1,2, ..., m can be calculated for two sequences . Using this dff (i, j) as a local distance, the distance between A and B is calculated using dynamic programming (hereinafter referred to as DP). The DP method used for this purpose is a method for optimizing the two sequences A and B so that they correspond best (hereinafter referred to as the “nonlinear stretch optimal matching method”). well known. Since the same method is used for the next <4>, the method will be described in <5>. Let DF (A, B) be the visual distance between A and B thus obtained. Visually similar product name words are selected based on the size of DF (A, B). At this time, it is possible to select a case where the partial character sequences are similar to each other. However, there is room for selection as to whether or not to present this.

<4> 品名単語間の聴覚的距離(類似性)の計算方法
この場合の聴覚的距離とは、聞き間違いを引き起こしやすいという意味である。この場合には、品名単語同士の聴覚的距離を計算する必要があるが、そのためには、品名単語が文字列で入力された時、まず、その読みを表記する記号(以下、「音声記号」と記す。例えば、ASCIIコードを使用)で与える必要がある。この読みを与える方法としては、コンピュータによる音声合成技術で用いられている方法が利用できるが、最終的には人間がチェックして作成する。
<4> Calculation method of auditory distance (similarity) between product name words The auditory distance in this case means that it is easy to cause a mistake in hearing. In this case, it is necessary to calculate the auditory distance between the product name words. For this purpose, when the product name word is input as a character string, first, a symbol (hereinafter referred to as “speech symbol”) is used to indicate the reading. (For example, use ASCII code). As a method of giving this reading, a method used in a speech synthesis technique by a computer can be used.

発音を記述する音声記号としてどのような記号体系を採用するかは、1つの問題である。ここでは、2種類の記号を使用する。1つは国際音声記号として知られる記号をASCIIコードで表した記号系(以下「XSAMPA」と記す。)、他の1つはXSAMPAから規則で変換できるサブ音声セグメント(Sub-Phonetic-Segment、以下「SPS」と記す。)である。これまでの実験からはSPSを採用した方が性能的には高いと見込まれるが、次に述べる音響標準パターンの作成にはその分、手間が掛かる。   What kind of symbol system is adopted as a phonetic symbol for describing pronunciation is a problem. Here, two kinds of symbols are used. One is a symbolic system that expresses symbols known as international phonetic symbols in ASCII code (hereinafter referred to as "XSAMPA"), and the other is a sub-speech segment (Sub-Phonetic-Segment, which can be converted by rules from XSAMPA). "SPS".) From the experiments so far, it is expected that SPS is higher in terms of performance, but it takes much time to create the acoustic standard pattern described below.

このようにして求めた、音声記号xとyの聴覚的距離をdh(x,y)とする。このとき2つの品名単語XとYの発音を表す音声記号列をそれぞれ
X: x1 x2 x3 ……. xn
Y: y1 y2 y3 ……. ym
と表す。例えば、dh(x1,y1) は、音声記号x1 とy1の聴覚的距離であり、x1とy1の音響標準パターンを用いて計算される。
The auditory distance between the phonetic symbols x and y obtained in this way is defined as dh (x, y). At this time, the phonetic symbol strings representing the pronunciation of the two product name words X and Y respectively
X: x1 x2 x3 ....... xn
Y: y1 y2 y3 ....... ym
It expresses. For example, dh (x1, y1) is the auditory distance between phonetic symbols x1 and y1, and is calculated using the acoustic standard pattern of x1 and y1.

品名単語X,Yの聴覚的距離には、日本語の発音では特に母音の系列の影響が大きい。このことを考慮した距離尺度を導入する。その計算方法は以下の通りである。   The auditory distance between the product name words X and Y is particularly affected by the vowel sequence in Japanese pronunciation. A distance scale that takes this into account is introduced. The calculation method is as follows.

[品名単語X とYの聴覚的距離計算方法]
ここでの計算手法も上記<3>の視覚的距離の場合と同様に、DPを用いた非線形伸縮最適整合法を利用する。このとき、dh(xi, yj)が局所距離となる。
XとYの聴覚的距離は、次の2つの距離の線形和によって表す。
(1)XとYの音声記号系列同士の非線形伸縮最適整合に基づく距離、
DH1(X,Y)
(2)XとYの音声記号系列のうち、それぞれから母音に関する記号列のみを取り出し、この母音記号系列について非線形伸縮整合を行って得られる距離、
DH2(X,Y)
この(1)と(2)の結果を使用して、XとYの聴覚的距離を
DH= {DH1+αDH2}/(1+α)
と定義する。ここで、αは正実数の係数で、実験で適当に定める。最終的に、このDHの値を尺度として聴覚的類似品名単語を抽出する。
[Method of calculating auditory distance of product name words X and Y]
As in the case of the visual distance of <3> above, the calculation method here uses the nonlinear expansion / contraction optimum matching method using DP. At this time, dh (xi, yj) is the local distance.
The auditory distance between X and Y is represented by the linear sum of the following two distances.
(1) Distance based on nonlinear expansion optimal matching between X and Y phonetic symbol sequences,
DH1 (X, Y)
(2) From the X and Y phonetic symbol sequences, only the symbol sequences related to the vowels are taken out from each of them, and the distance obtained by performing nonlinear expansion matching on the vowel symbol sequences,
DH2 (X, Y)
Using the results of (1) and (2), the auditory distance between X and Y
DH = {DH1 + αDH2} / (1 + α)
It is defined as Here, α is a positive real coefficient, and is appropriately determined by experiment. Finally, auditory similar product name words are extracted using this DH value as a scale.

<5> 動的計画法(DP)を利用した非線形伸縮最適整合法について
この方法は、2つの特徴ベクトル系列をその距離が最小になるように一方を非線形に伸縮して整合させる手法で、すでに音声認識技術などの分野でよく知られている。具体的には、2つの品名単語XとYの発音を表す音声記号列をそれぞれ
X: x1 x2 x3 ……. xn
Y: y1 y2 y3 ……. ym
とするとき、xiとyjの対応付けを最適化することであり、そのためには局所距離d(xi, xj), i=1,2,…n, j=1,2,…,mが必要となる。DPにより最適化された対応付けに基づいて、XとYの距離D(X,Y)が計算できる[参考文献:斉藤英昭他編、「視覚認知と聴覚認知」オーム社1999、pp.198-199]。
<5> Nonlinear Stretching Optimal Matching Method Using Dynamic Programming (DP) This method is a method of matching two feature vector sequences by nonlinear stretching and matching so that the distance between them is minimized. It is well known in the field of speech recognition technology. Specifically, each phonetic symbol string representing the pronunciation of two product name words X and Y
X: x1 x2 x3 ....... xn
Y: y1 y2 y3 ....... ym
Is to optimize the correspondence between xi and yj, which requires local distances d (xi, xj), i = 1,2,… n, j = 1,2,…, m It becomes. Based on the correspondence optimized by DP, the distance D (X, Y) between X and Y can be calculated [Reference: Hideaki Saito et al., “Visual and auditory cognition” Ohmsha 1999, pp.198- 199].

また、この手法の拡張としてシフト連続DP(Shift Continuous DP)と呼ぶ手法があり、この手法を用いると、XとYのそれぞれの任意の部分系列同士の最適整合距離が計算できる[参考文献:伊藤慶明、「類似空間の検出法Shift CDPの性能評価と講演音声への適用」、電子情報通信学会技術研究報告 SP 2001-36, pp. 27-34, 2001]。基本的には、この手法は境界条件の設定によって上記のDPを含む形になるので、より一般的な条件設定が可能となる。 As an extension of this technique, there is a technique called Shift Continuous DP ( Shift Continuous DP ), which can be used to calculate the optimal matching distance between any subsequences of X and Y [Reference: Ito Yoshiaki, “Performance Evaluation of Similar Space Detection Method Shift CDP and Application to Speech”, IEICE Technical Report SP 2001-36, pp. 27-34, 2001]. Basically, this method includes the above-mentioned DP by setting boundary conditions, so that more general conditions can be set.

本装置では、整合距離の計算にこのシフト連続DPを使用して、品名単語の文字系列全体同士を直接最適整合した距離ではなく、部分系列同士の距離が小さい場合に類似品名単語として抽出するようなアルゴリズムを採用している。このとき部分系列の最短の長さを幾つにするかは実験的に決定する。   In this device, this shift continuous DP is used to calculate the matching distance, so that the entire character string of the product name word is not directly optimally matched, but is extracted as a similar product name word when the distance between the partial series is small. Adopting a simple algorithm. At this time, the minimum length of the subsequence is determined experimentally.

<聴覚的距離に基づく類似薬剤名表示システムの実施例>
ここでは、聴覚的距離に基づいて類似薬品名を提示するシステムについての実施例を開示することにより、本願発明の有効性を示す。
<Example of similar drug name display system based on auditory distance>
Here, the effectiveness of the present invention is shown by disclosing an example of a system that presents similar drug names based on auditory distance.

音声では部分的に省略して発声されるケースなども考えられるので、最適整合手法であるDPに関しては、特に相互の部分系列同士の最適整合が計算できるシフト連続DPの手法を使用する。   Since there may be cases where voice is partially omitted and uttered, for the DP that is the optimum matching technique, a shift continuous DP technique that can calculate the optimum matching between the partial sequences is used.

実験で使用した薬剤名は「薬剤識別コード事典」(高杉益充監修H15年改訂版、医薬ジャーナル社)から選択したカタカナ表記の薬剤名約4000語である。薬剤名はカタカナ表記からプログラムにより音声記号表記であるXSAMPA, SPS記号表記へと変換されて使用された。   The name of the drug used in the experiment is approximately 4000 words of the drug name written in katakana selected from the “Drug Identification Code Encyclopedia” (Matsumitsu Takasugi supervision H15 revised edition, Pharmaceutical Journal). The drug name was converted from katakana notation to XSAMPA, SPS symbol notation which is phonetic symbol notation by the program and used.

SPS記号x, yに関する局所距離dh(x,y)は、音声認識システム開発のためにすでに作成されているデータを利用した。日本語母音としてはア、イ、ウ、エ、オ、ンの5母音+撥音とし、その定常部に相当するSPSのラベル(6種)を選んだ。距離DHの計算においては係数α=1とした。   For the local distance dh (x, y) for the SPS symbols x and y, data already created for developing a speech recognition system was used. As the Japanese vowels, we selected 5 vowels (a, i, u, e, o, n) + repellent sounds, and selected 6 types of SPS labels corresponding to the stationary part. In the calculation of the distance DH, the coefficient α = 1.

この結果、上記の薬剤名間のすべての組合せの距離を計算し、距離が小さい薬剤名のサンプル例を示すと、例えば下表のようになる。   As a result, the distances of all combinations between the above drug names are calculated, and sample examples of drug names with a small distance are shown in the following table, for example.

Figure 0004568838
Figure 0004568838

また、長い薬剤名の任意の一部区間の類似単語を抽出するという例では、「クロルフェニラミンニスキャップ」という入力に対して、カルフェニール、ロルフェナミンなどの類似薬剤名を抽出できる。   In the example of extracting a similar word in an arbitrary partial section of a long drug name, a similar drug name such as calphenyl or lorfenamine can be extracted in response to an input of “chlorpheniramine varnish cap”.

なお、これらの結果が人間(とくに実際のユーザ)の聴覚知覚にどの程度よく適合するかの評価を実験的に測定するのはかなり困難である。その理由は、実際のユーザ(この場合には薬剤師など)は、予め専門的知識による先入観をもっており、与えられた条件下である程度予測して薬剤名などを入力するため、単純な意味での聞き間違いとは条件が異なるためである。   Note that it is quite difficult to experimentally measure how well these results fit human auditory perception (especially actual users). The reason is that an actual user (in this case, a pharmacist, etc.) has preconceptions based on expert knowledge in advance and inputs a drug name etc. with a certain degree of prediction under given conditions. This is because mistakes have different conditions.

視覚的・聴覚的類似品名単語提示装置のブロック図Block diagram of a visual and auditory analog name display device

Claims (2)

特定の文字列から成る品名単語と該特定の文字列と異なる文字列を有する品名単語の間において、文字列の音声発音に基づく聴覚的距離が一定値以下である場合、該異なる文字列を有する品名単語を該特定の文字列から成る品名単語の類似品名単語とし、すべての品名単語のそれぞれについて予め求められた類似品名単語が組み込まれている品名単語事典、
ユーザから入力された文字列が該事典の辞書項目の中に存在するか否かを判定するブロック、
該ユーザから入力された文字列が該事典の辞書項目にある品名単語と一致するものがなかった場合に起動され、該入力された文字列と該事典の辞書項目にある品名単語の間における音声発音に基づく聴覚的距離が一定値以下である新たな類似品名単語を探索するブロック及び
該入力された品名単語に対する該新たな類似品名単語を提示するブロックを有する類似品名提示装置であって、
上記聴覚的距離の計算においては、品名単語の読みを表す音声記号列において、母音のみの系列の距離を相対的に大きく評価する距離尺度が導入されている類似品名提示装置
If the auditory distance based on the phonetic pronunciation of the character string is less than or equal to a certain value between the item name word consisting of the specific character string and the item name word having a character string different from the specific character string, the character string has the different character string A product name word dictionary in which product name words are similar product name words of product name words composed of the specific character string, and similar product name words obtained in advance for each of all product name words are incorporated,
A block for determining whether or not a character string input by a user exists in the dictionary item of the encyclopedia;
This is activated when the character string input by the user does not match the item name word in the dictionary item of the encyclopedia, and the voice between the input character string and the item name word in the dictionary item of the encyclopedia A similar product name presentation device having a block for searching for a new similar product name word whose auditory distance based on pronunciation is a predetermined value or less and a block for presenting the new similar product name word for the input product name word ,
In the auditory distance calculation, a similar item name presenting apparatus in which a distance measure for relatively evaluating the distance of a series of vowels only is introduced in a phonetic symbol string representing the reading of the item name word .
特定の文字列から成る品名単語と該特定の文字列と異なる文字列を有する品名単語の間において、文字列の並びの相違に基づく視覚的距離及び該文字列の音声発音に基づく聴覚的距離を計算するブロック、
該視覚的距離又は該聴覚的距離が一定値以下である場合、該異なる文字列を有する品名単語を該特定の文字列から成る品名単語の類似品名単語とし、すべての品名単語のそれぞれについて予め求められた類似品名単語が組み込まれている品名単語事典を作成するブロック、
ユーザから入力された文字列が該事典の辞書項目の中に存在するか否かを判定するブロック、
該ユーザから入力された文字列が該事典の辞書項目にある品名単語と一致するものがなかった場合に起動され、該入力された文字列と該事典の辞書項目にある品名単語の間における上記視覚的距離及び上記聴覚的距離を計算し、該視覚的距離又は該聴覚的距離が一定値以下である新たな類似品名単語を探索するブロック及び
該入力された品名単語に対する該新たな類似品名単語を提示するブロックを有する類似品名提示装置であって、
上記聴覚的距離の計算においては、品名単語の読みを表す音声記号列において、母音のみの系列の距離を相対的に大きく評価する距離尺度が導入されており
上記視覚的距離の計算においては、品名単語を記述する文字について、個々の文字の字形に基づいてすべての2文字間の視覚的距離を定義し、さらに連続する3文字列における文字の隣接間の交替が小さく評価されるような距離尺度が導入されている類似品名提示装置
The visual distance based on the difference in the arrangement of the character strings and the auditory distance based on the phonetic pronunciation of the character strings between the product name words composed of the specific character strings and the product name words having character strings different from the specific character strings. Block to calculate,
When the visual distance or the auditory distance is equal to or less than a predetermined value, the product name word having the different character string is set as a product name word similar to the product name word composed of the specific character string, and each product name word is obtained in advance. A block that creates a product name word encyclopedia that incorporates similar product name words
A block for determining whether or not a character string input by a user exists in the dictionary item of the encyclopedia;
When the character string input from the user does not match the item name word in the dictionary item of the encyclopedia, the above-described operation is performed between the input character string and the item name word in the dictionary item of the encyclopedia. A block for calculating a visual distance and the auditory distance and searching for a new similar product name word having the visual distance or the auditory distance equal to or less than a predetermined value, and the new similar product name word for the input product name word a similar product name presentation device having a block of presenting,
In the above auditory distance calculation, in the phonetic symbol string representing the reading of the product name word, a distance scale that introduces a relatively large distance of the series of vowels only is introduced ,
In the calculation of the visual distance, the visual distance between all two characters is defined based on the character shape of each character for the character describing the product name word, and between the adjacent characters in the three consecutive character strings. A similar product name presenting apparatus in which a distance scale is introduced so that alternation is evaluated to be small .
JP2004271381A 2004-09-17 2004-09-17 Visual and auditory similar product name presentation device Expired - Lifetime JP4568838B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004271381A JP4568838B2 (en) 2004-09-17 2004-09-17 Visual and auditory similar product name presentation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004271381A JP4568838B2 (en) 2004-09-17 2004-09-17 Visual and auditory similar product name presentation device

Publications (2)

Publication Number Publication Date
JP2006085556A JP2006085556A (en) 2006-03-30
JP4568838B2 true JP4568838B2 (en) 2010-10-27

Family

ID=36163993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004271381A Expired - Lifetime JP4568838B2 (en) 2004-09-17 2004-09-17 Visual and auditory similar product name presentation device

Country Status (1)

Country Link
JP (1) JP4568838B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5537621B2 (en) * 2012-08-17 2014-07-02 株式会社東芝 Information transmitting apparatus and information transmitting method
JP6607091B2 (en) * 2016-03-08 2019-11-20 富士通株式会社 Electronic medical record program, electronic medical record apparatus, and electronic medical record processing method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3263468B2 (en) * 1993-02-23 2002-03-04 カネボウ株式会社 Information selection method and device
JPH1069487A (en) * 1996-08-28 1998-03-10 Hitachi Ltd How to manage information using ambiguous names
JP2001337980A (en) * 2000-05-29 2001-12-07 Sony Corp Electronic program guide search method and electronic program guide search device
JP2003296366A (en) * 2002-04-02 2003-10-17 Oki Electric Ind Co Ltd Product name collation method, product name collation system using the same, and program thereof
JP2004171094A (en) * 2002-11-18 2004-06-17 Shinjusha:Kk Document order receiving system

Also Published As

Publication number Publication date
JP2006085556A (en) 2006-03-30

Similar Documents

Publication Publication Date Title
Anderson et al. A cross-linguistic database of phonetic transcription systems
CN1942875B (en) dialog support device
Hammerton et al. Introduction to special issue on machine learning approaches to shallow parsing
JPH07325824A (en) Grammar check system
KR19990078364A (en) Sentence processing apparatus and method thereof
US20150073801A1 (en) Apparatus and method for selecting a control object by voice recognition
KR20040070168A (en) Translating Method, Translated Sentence Outputing Method, Recording Medium, Program, And Computer Device
EP1627325B1 (en) Automatic segmentation of texts comprising chunks without separators
Bach et al. Exploiting discourse information to identify paraphrases
JP6763527B2 (en) Recognition result correction device, recognition result correction method, and program
JP2020071608A (en) Document calibration support system, document calibration support device, learning device, document calibration support method, learning method, and program
JP4568838B2 (en) Visual and auditory similar product name presentation device
JP2004240859A (en) Paraphrasing system
JP2013235117A (en) Word separating device, and word separating method
CN114266244A (en) Training method of single-character wrongly-written character recognition model and training set generation method thereof
Cocks A word-based approach for diacritic restoration in Māori
JPH11238051A (en) Chinese input conversion processing device, Chinese input conversion processing method, recording medium recording Chinese input conversion processing program
Smiley et al. Native language identification using phonetic algorithms
JP6244993B2 (en) Encouraging sound determination device, encouraging sound determination method, and encouraging sound determination computer program
US10073832B2 (en) Method and system for transcription of a lexical unit from a first alphabet into a second alphabet
KR101777141B1 (en) Apparatus and method for inputting chinese and foreign languages based on hun min jeong eum using korean input keyboard
CN116129906A (en) Speech recognition text revising method, device, computer equipment and storage medium
KR20190009061A (en) Word trademark search system and method for search service
JPH10269210A (en) Character input device
JPH11338498A (en) Voice synthesizer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100708

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Ref document number: 4568838

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

EXPY Cancellation because of completion of term