JP4953461B2 - Spam mail determination server, spam mail determination program, and spam mail determination method - Google Patents
Spam mail determination server, spam mail determination program, and spam mail determination method Download PDFInfo
- Publication number
- JP4953461B2 JP4953461B2 JP2008098038A JP2008098038A JP4953461B2 JP 4953461 B2 JP4953461 B2 JP 4953461B2 JP 2008098038 A JP2008098038 A JP 2008098038A JP 2008098038 A JP2008098038 A JP 2008098038A JP 4953461 B2 JP4953461 B2 JP 4953461B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- spam
- spam mail
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、送信されてきた電子メールがスパムメール(迷惑メール)であるか否かを判定するスパムメール判定サーバ、スパムメール判定プログラム及びスパムメール判定方法に関する。 The present invention relates to a spam mail determination server, a spam mail determination program, and a spam mail determination method for determining whether or not a transmitted electronic mail is a spam mail (spam mail).
インターネットにおける電子メールの普及に伴い、いわゆるスパムメールによる被害が社会問題となっている。このようなスパムメールに対処するため、システム上において様々な対策が講じられている。 With the spread of electronic mail on the Internet, damage caused by so-called spam mail has become a social problem. In order to deal with such spam mail, various measures are taken on the system.
例えば、過去に送信されてきたスパムメールに基づいて発信元アドレスや所定文言を記録したスパムフィルタを作成しておき、このようなスパムフィルタを用いて受信した電子メールがスパムメールか否かを判断する方法が知られている。 For example, create a spam filter that records the sender's address and specific text based on spam emails sent in the past, and determine whether the email received using such spam filters is spam email How to do is known.
しかしながら、上記のような方法によると、一旦受信した電子メールがスパムメールであるか否かをユーザが判断し、そのスパムメールの発信者アドレスや含まれる所定文言等を個人PCのフィルタリングプログラムまたはプロバイダのメールサーバのスパムフィルタ等に登録することが前提となる。 However, according to the above method, the user determines whether the received e-mail is a spam mail or not, and the spam mail sender address, the predetermined text contained therein, etc. It is assumed that it is registered in the spam filter of the mail server.
このため、前記発信者アドレスや所定文言がスパムフィルタに存在しないような全くの新規なスパムメールには対応できないという問題があった。 For this reason, there has been a problem that it is impossible to deal with completely new spam mail in which the sender address and the predetermined wording do not exist in the spam filter.
また、送信されてきた電子メールに含まれている文字列により特徴情報を抽出して判定を行う方法が提案されている(例えば、特許文献1)。この方法によれば、電子メールに所定の文字列が含まれていると、本来スパムメールでないものであってもスパムメールと判断されてしまうことがあった。 In addition, a method has been proposed in which feature information is extracted from a character string included in a transmitted e-mail and a determination is made (for example, Patent Document 1). According to this method, if a predetermined character string is included in an e-mail, it may be determined that the e-mail is spam mail even if it is not originally spam mail.
上記のようにスパムメールの判定には種々の方法が知られているが、実際に受けるスパムメールは定型化されたものも多く、通常のメールとは一目見ただけで視覚に映る姿が異なり、内容を見るまでもなくスパムメールと判定できることが多い。 As described above, various methods are known for determining spam mail, but many spam mails that are actually received are stylized, and they differ from normal mail in their visual appearance at first glance. Often, it can be determined as spam mail without looking at the contents.
そこで、本発明は、スパムメールやスパムメールに含まれる部分の視覚的パターンによりスパムメールか否かを判定する技術を提供することを目的とする。 Accordingly, an object of the present invention is to provide a technique for determining whether or not a spam mail is based on a spam mail or a visual pattern of a portion included in the spam mail.
本発明者は、スパムメールを、メールの内容ではなく視覚に映る姿に基づいて判定する仕組みを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。 The present inventor has found a mechanism for determining spam mail based on a visual appearance rather than the contents of the mail, and has completed the present invention. Specifically, the present invention provides the following.
(1)受信した電子メールが表示される全体または一部の視覚的パターンを認識するパターン認識手段と、前記パターン認識手段により認識した電子メールの全体または一部の視覚的パターンを予め蓄積された視覚的パターンと照合するパターン照合手段と、前記パターン照合手段の照合結果に基づき前記電子メールがスパムメールか否かを判定するスパムメール判定手段とを備えるスパムメール判定サーバ。 (1) Pattern recognition means for recognizing all or part of a visual pattern on which received e-mail is displayed, and all or part of visual patterns of e-mail recognized by the pattern recognition means are stored in advance A spam mail determination server comprising pattern matching means for matching with a visual pattern, and spam mail determination means for determining whether or not the electronic mail is spam mail based on a matching result of the pattern matching means.
本発明のこのような構成によれば、受信した電子メールの内容を解析することなく、視覚的外観からスパムメールか否かの判定を行うので、内容的にはスパムメールとの判定を受けない電子メールであっても、視覚的外観が類似していればスパムメールと判定することができる。 According to such a configuration of the present invention, since it is determined whether or not it is spam mail from the visual appearance without analyzing the content of the received electronic mail, the content is not determined as spam mail. Even an e-mail can be determined as a spam mail if the visual appearance is similar.
特に、今までにはなかった判定方法であるため、既存の方法と組み合わせて利用することにより、スパムメールの判定率を高めることができる。 In particular, since it is a determination method that has not existed until now, the determination rate of spam mail can be increased by using it in combination with an existing method.
(2)前記パターン認識手段により認識する前記電子メールの視覚的パターンは、予め定めたサイズの画面に該電子メールを表示する場合の視覚的パターンであることを特徴とする(1)に記載のスパムメール判定サーバ。 (2) The visual pattern of the e-mail recognized by the pattern recognition means is a visual pattern when the e-mail is displayed on a screen having a predetermined size. Spam mail judgment server.
本発明のこのような構成によれば、視覚的外観が、電子メールが表示される画面に依存して変化するので、通常ユーザが利用する画面サイズを前提として(1)の発明を実施することができる。その結果、ユーザの実情に合わせた形で(1)の発明の効果を発揮することができる。 According to such a configuration of the present invention, since the visual appearance changes depending on the screen on which the e-mail is displayed, the invention of (1) is implemented on the premise of the screen size normally used by the user. Can do. As a result, the effect of the invention of (1) can be exhibited in a form that matches the actual situation of the user.
(3)前記パターン照合手段が照合を行う蓄積された視覚的パターンは、前記電子メールで使用される言語に応じて異なることを特徴とする(1)または(2)に記載のスパムメール判定サーバ。 (3) A spam mail determination server according to (1) or (2), wherein the stored visual pattern that is collated by the pattern collating unit differs depending on a language used in the electronic mail. .
本発明のこのような構成によれば、海外からのスパムメールも増えていることから、言語に応じてスパムメールを判定するパターンを分別して判定処理をすることができるので、処理の効率化とともに、判定精度を高めることができる。 According to such a configuration of the present invention, since spam mail from overseas is also increasing, it is possible to classify and determine the pattern for determining spam mail according to the language. The determination accuracy can be improved.
(4)前記パターン認識手段が認識する視覚的パターンは、文ごとに1つのブロックとして認識することを特徴とする(1)から(3)のいずれかに記載のスパムメール判定サーバ。 (4) The spam mail determination server according to any one of (1) to (3), wherein the visual pattern recognized by the pattern recognition means is recognized as one block for each sentence.
本発明のこのような構成によれば、文ごとに1つのブロックとしてパターンを認識するので、1つの長文と1つの短文では、同一の内容であっても異なるパターンとして認識される。スパムメールには比較的短文が多いので、通常メールとスパムメールとの判定に効果がある。 According to such a configuration of the present invention, since a pattern is recognized as one block for each sentence, one long sentence and one short sentence are recognized as different patterns even if they have the same contents. Spam mail has relatively short texts, so it is effective for determining normal mail and spam mail.
(5)前記パターン認識手段が認識する視覚的パターンは、ハイパーリンクを含むリンク文とハイパーリンクを含まない通常文を異種のブロックとして認識することを特徴とする(4)に記載のスパムメール判定サーバ。 (5) The spam mail determination according to (4), wherein the visual pattern recognized by the pattern recognition unit recognizes a link sentence including a hyperlink and a normal sentence not including a hyperlink as different types of blocks. server.
スパムメールには、通常ハイパーリンクが含まれ、そのリンクにアクセスさせることを目的としたものが多く、通常文はリンクにアクセスさせるための誘導的な役割を担うことが多い。 Spam mails usually include hyperlinks, and many of them are intended to access the links, and normal sentences often play a guiding role to access the links.
本発明のこのような構成によれば、通常文とリンク文を区別したパターン認識を行うことにより、誘導的役割を担う通常文の部分の視覚的外観の類似度でスパムメールを判定できるので、外観の類似する誘導手段を用いるスパムメールを効果的に判定することができる。 According to such a configuration of the present invention, by performing pattern recognition that distinguishes a normal sentence and a link sentence, it is possible to determine a spam mail with the similarity of the visual appearance of the portion of the normal sentence that plays a guiding role. It is possible to effectively determine a spam mail using a guiding means having a similar appearance.
(6)前記パターン照合手段は、連続するブロックのサイズに基づき該ブロックが箇条書を構成する文に係るブロックであると判定する機能を有し、箇条書と判定したときは、前記箇条書を構成する文に係るブロックの数の違いを、前記箇条書を構成しない文に係るブロックの数の違いより低く評価することを特徴とする(4)または(5)に記載のスパムメール判定サーバ。 (6) The pattern matching means has a function of determining that the block is a block related to a sentence constituting a clause based on the size of a continuous block, and when determining that the block is a clause, the sentence constituting the item The spam mail determination server according to (4) or (5), wherein the difference in the number of blocks related to is evaluated lower than the difference in the number of blocks related to a sentence that does not constitute the item.
同種のスパムメールといえども、そのメールに含まれる箇条書部分を構成する文の数が異なることは少なくないと考えられる。本発明のこのような構成によれば、連続するブロックのサイズに基づき箇条書部分であることを判定し、箇条書部分を構成する文の数の違いによる差異については、その他の文の数の違いと比べて評価を低くするので、箇条書部分を構成する文の数の相違だけによりスパムメールの判定の精度が低下するのを防止できる。 Even with the same type of spam mail, it is not uncommon for the number of sentences that make up the bullets included in the mail to differ. According to such a configuration of the present invention, it is determined that the item is a bullet part based on the size of successive blocks, and the difference due to the difference in the number of sentences constituting the item part is different from the difference in the number of other sentences. Since the evaluation is made lower than that, it is possible to prevent the accuracy of determining spam mails from being lowered only by the difference in the number of sentences constituting the item part.
(7)コンピュータを、受信した電子メールが表示される全体または一部の視覚的パターンを認識するパターン認識手段と、前記パターン認識手段により認識した電子メールの全体または一部の視覚的パターンを予め蓄積された視覚的パターンと照合するパターン照合手段と、前記パターン照合手段の照合結果に基づき前記電子メールがスパムメールか否かを判定するスパムメール判定手段として機能させるためのスパムメール判定プログラム。 (7) A pattern recognition means for recognizing the whole or part of a visual pattern in which the received electronic mail is displayed, and a visual pattern of the whole or part of the electronic mail recognized by the pattern recognition means. A pattern matching unit for matching with an accumulated visual pattern, and a spam mail determination program for functioning as a spam mail determination unit for determining whether or not the electronic mail is spam mail based on a matching result of the pattern matching unit.
本発明のこのような構成によれば、プログラムによりコンピュータを用いて(1)の発明を実現するので、(1)の発明と同様の効果を奏することができる。 According to such a configuration of the present invention, since the invention of (1) is realized using a computer by a program, the same effects as the invention of (1) can be achieved.
(8)前記パターン認識手段により認識する前記電子メールの視覚的パターンは、予め定めたサイズの画面に該電子メールを表示する場合の視覚的パターンであることを特徴とする(7)に記載のスパムメール判定プログラム。 (8) The visual pattern of the electronic mail recognized by the pattern recognition means is a visual pattern when the electronic mail is displayed on a screen of a predetermined size. Spam mail judgment program.
本発明のこのような構成によれば、プログラムによりコンピュータを用いて(2)の発明を実現するので、(2)の発明と同様の効果を奏することができる。 According to such a configuration of the present invention, since the invention of (2) is realized using a computer by a program, the same effects as the invention of (2) can be achieved.
(9)前記パターン照合手段が照合を行う蓄積された視覚的パターンは、前記電子メールで使用される言語に応じて異なることを特徴とする(7)または(8)に記載のスパムメール判定プログラム。 (9) The spam mail determination program according to (7) or (8), wherein the stored visual pattern that is collated by the pattern matching unit is different depending on a language used in the electronic mail. .
本発明のこのような構成によれば、プログラムによりコンピュータを用いて(3)の発明を実現するので、(3)の発明と同様の効果を奏することができる。 According to such a configuration of the present invention, since the invention of (3) is realized using a computer by a program, the same effects as the invention of (3) can be achieved.
(10)前記パターン認識手段が認識する視覚的パターンは、文ごとに1つのブロックとして認識することを特徴とする(7)から(9)のいずれかに記載のスパムメール判定プログラム。 (10) The spam mail determination program according to any one of (7) to (9), wherein the visual pattern recognized by the pattern recognition means is recognized as one block for each sentence.
本発明のこのような構成によれば、プログラムによりコンピュータを用いて(4)の発明を実現するので、(4)の発明と同様の効果を奏することができる。 According to such a configuration of the present invention, since the invention of (4) is realized using a computer by a program, the same effect as the invention of (4) can be obtained.
(11)前記パターン認識手段が認識する視覚的パターンは、ハイパーリンクを含むリンク文とハイパーリンクを含まない通常文を異種のブロックとして認識することを特徴とする(10)に記載のスパムメール判定プログラム。 (11) The spam mail determination according to (10), wherein the visual pattern recognized by the pattern recognition unit recognizes a link sentence including a hyperlink and a normal sentence not including a hyperlink as different types of blocks. program.
本発明のこのような構成によれば、プログラムによりコンピュータを用いて(5)の発明を実現するので、(5)の発明と同様の効果を奏することができる。 According to such a configuration of the present invention, since the invention of (5) is realized using a computer by a program, the same effect as the invention of (5) can be obtained.
(12)前記パターン照合手段は、連続するブロックのサイズに基づき前記文について認識されたブロックが箇条書を構成する文に係るブロックであると判定する機能を有し、箇条書と判定したときは、前記箇条書を構成する文に係るブロックの数の違いを、前記箇条書を構成しない文に係るブロックの数の違いより少なく評価することを特徴とする(7)から(11)のいずれかに記載のスパムメール判定プログラム。 (12) The pattern matching unit has a function of determining that a block recognized for the sentence is a block related to a sentence constituting a clause based on a continuous block size. The spam according to any one of (7) to (11), wherein a difference in the number of blocks related to a sentence constituting a clause is evaluated to be less than a difference in the number of blocks relating to a sentence not constituting the clause Email judgment program.
本発明のこのような構成によれば、プログラムによりコンピュータを用いて(6)の発明を実現するので、(6)の発明と同様の効果を奏することができる。 According to such a configuration of the present invention, since the invention of (6) is realized using a computer by a program, the same effect as the invention of (6) can be achieved.
(13)コンピュータが受信した電子メールが表示される全体または一部の視覚的パターンを認識するパターン認識ステップと、コンピュータが前記電子メールの全体または一部の視覚的パターンを予め蓄積された視覚的パターンと照合するパターン照合ステップと、コンピュータが前記照合の結果に基づき前記電子メールがスパムメールか否かを判定するスパムメール判定ステップとを備えるスパムメール判定方法。 (13) A pattern recognition step for recognizing all or part of a visual pattern on which an electronic mail received by the computer is displayed, and a visual in which the computer stores the whole or part of the visual pattern of the electronic mail in advance. A spam mail determination method comprising: a pattern matching step for matching with a pattern; and a spam mail determination step in which a computer determines whether the electronic mail is a spam mail based on a result of the comparison.
本発明のこのような構成によれば、(1)に記載の発明をコンピュータを用いて実現するので、(1)と同様の効果を奏することができる。 According to such a configuration of the present invention, since the invention described in (1) is realized using a computer, the same effects as in (1) can be achieved.
この発明によれば、スパムメールか否かの判定をメールの内容ではなく視覚的外観に基づいて判定するので、内容を変えながら送信される定型化されたスパムメールの判定に特に効果がある。また、電子メールの内容により判定する従来の判定方法と併用すれば、更に精度の高い判定が可能となる。 According to the present invention, the determination as to whether or not the mail is spam mail is made based on the visual appearance rather than the mail content, which is particularly effective for the determination of the standardized spam mail transmitted while changing the content. In addition, when used in combination with a conventional determination method that is determined based on the contents of an e-mail, it is possible to perform determination with higher accuracy.
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。 Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.
(第1の実施形態)
[全体構成]
図1は、スパムメール判定サーバとそれに接続された関連する要素の全体構成を示す図である。スパムメール判定サーバ1は、電子メール受信手段2と、電子メール表示内容変換手段3と、パターン認識手段4と、パターン照合手段5と、スパムメール判定手段6と、パターン辞書DB7と、通常メールDB8と、スパムメールDB9とを備える。パターン辞書DB7、通常メールDB8及びスパムメールDB9はスパムメール判定サーバ1の中ではなく、スパムメール判定サーバ1に接続された外部記憶装置に置いてもよい。
(First embodiment)
[overall structure]
FIG. 1 is a diagram showing an overall configuration of a spam mail determination server and related elements connected thereto. The spam
スパムメール判定サーバ1は、インターネット20とユーザ端末10に接続されている。ユーザ端末10は複数台あってもよい。スパムメール判定サーバ1とユーザ端末10はインターネットを介して接続されていることもあれば、その他の形、例えば、スター型ネットワークで接続されていることもある。
The spam
電子メール受信手段2は、インターネット20を介して送信された電子メールを受け取る。電子メール表示内容変換手段3は、受信した電子メールがスパムメールであるか否かをユーザ端末画面への最終的な表示内容にして判定するために、電子メールをユーザ端末画面への表示内容に変換する。パターン認識手段4は、表示内容に変換された電子メールから、その中に含まれる視覚的パターンを認識する。通常、1つの電子メールからは、複数の視覚的パターンが認識される。パターン照合手段5は、パターン辞書DB7に登録されている視覚的パターンと、パターン認識手段4により認識された視覚的パターンとを照合する。スパムメール判定手段6は、パターン照合手段5による照合結果に基づいて電子メールがスパムメールか否かを判定し、通常メールとスパムメールに振り分ける。通常メールは通常メールDB8に、スパムメールはスパムメールDB9にそれぞれ記録される。ユーザ端末10は、スパムメール判定サーバ1にアクセスし、自己宛のメールの送信を要求する。スパムメール判定サーバ1は、ユーザ端末10からの要求に応じて、通常メールDB8またはスパムメールDB9からメールを読み出して、ユーザ端末10に送信する。
The
[スパムメール判定サーバのハードウェア構成図]
図2は、本実施形態に係るスパムメール判定サーバ1のハードウェア構成を示す図である。スパムメール判定サーバ1は、制御部40を構成するCPU(Central Processing Unit)41(マルチプロセッサ構成ではCPU42等複数のCPUが追加されてもよい)、バスライン30、通信I/F(I/F:インターフェイス)43、メインメモリ44、BIOS(Basic Input Output System)45、表示装置46、I/Oコントローラ47、並びにキーボード及びマウス等の入力装置48を備える。
[Hardware configuration diagram of spam mail judgment server]
FIG. 2 is a diagram illustrating a hardware configuration of the spam
制御部40は、スパムメール判定サーバ1を統括的に制御する部分であり、ハードディスク50(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
The
通信I/F43は、スパムメール判定サーバ1が、インターネット20(図1)を介して他のサーバ等から電子メールの送信を受けたり、ユーザ端末10(図1)からの電子メールの送受信要求を受けたりする場合のネットワーク・アダプタである。通信I/F43は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
In the communication I /
BIOS45は、スパムメール判定サーバ1の起動時にCPU41が実行するブートプログラムや、スパムメール判定サーバ1のハードウェアに依存するプログラム等を記録する。
The
表示装置46は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
The
I/Oコントローラ47には、ハードディスク50、及び半導体メモリ51等の記憶装置52を接続することができる。
A
入力装置48は、スパムメール判定サーバ1の管理者による入力の受け付けを行うものである。
The
ハードディスク50は、本ハードウェアをスパムメール判定サーバ1として機能させるための各種プログラム、本発明の機能を実行するプログラム及びプログラムの実行の際に使用するテーブル等を記憶する。なお、スパムメール判定サーバ1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
The
以上、スパムメール判定サーバ1のハードウェア構成について主に説明したが、コンピュータにプログラムをインストールして、そのコンピュータをスパムメール判定サーバ1として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したスパムメール判定サーバ1により実現される機能は、上述の方法を当該コンピュータにより実行することによって、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
Although the hardware configuration of the spam
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、スパムメール判定サーバ1は、記憶装置52、制御部40等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
Note that the computer in the present invention refers to an information processing device including a storage device, a control unit, etc., and the spam
電子メール受信手段2、電子メール表示内容変換手段3、パターン認識手段4、パターン照合手段5及びスパムメール判定手段6には主に制御部40が、パターン辞書DB7、通常メールDB8及びスパムメールDB9には主に記憶装置52が、主として対応する。
The
以上、スパムメール判定サーバ1のハードウェア構成について説明したが、本発明において、ユーザ端末10も同様のハードウェア構成により実現可能である。
The hardware configuration of the spam
[受信電子メール]
図3は、スパムメール判定サーバ1がインターネット20を介して受信した受信電子メールの内容を示す図である。ヘダーと本文から構成されており、ヘダーの中に電子メールで使用されている文字コードが示されている。四角に囲った部分100に示すように、日本語のメールである場合には、「iso−2022−jp」が指定されている。もう一方の四角に囲った部分101にはメールの本文が示されている。ここで、スパムメール判定サーバ1は、電子メール受信手段2として機能する。
Incoming email
FIG. 3 is a diagram showing the contents of the received electronic mail received by the spam
[ユーザ端末画面への表示内容変換]
図4は、受信電子メールの本文をユーザ端末画面への表示内容に変換する様子を示す図である。電子メール本文の内容は、最終的にユーザ端末10(図1)の画面に表示されるが、そこに表示された視覚的パターンによりスパムメールか否かを判定するのが本発明の目的であるので、スパムメール判定サーバ1では、ユーザ端末10の画面への表示内容110を生成し、判定処理を行う。
[Convert display contents to user terminal screen]
FIG. 4 is a diagram illustrating a state in which the text of the received electronic mail is converted into display content on the user terminal screen. The content of the e-mail text is finally displayed on the screen of the user terminal 10 (FIG. 1), and it is an object of the present invention to determine whether or not it is spam mail based on the visual pattern displayed there. Therefore, the spam
図4に示した例では、変換後の表示内容110には画像が含まれていることを示している。ユーザ端末10の画面への表示内容は、ユーザ画面のサイズ等により変化する。例えば、メール表示部の横サイズを変更すると、1つの文が1行表示から2行表示に変わったりする。そこで、一定のルールを決め、そのルールを前提として表示内容の変換を行うようにする。したがって、後述するパターン辞書も同じルールで作成したパターンを登録しておく。ここで、スパムメール判定サーバ1は、電子メール表示内容変換手段3として機能する。
In the example shown in FIG. 4, it is shown that the
[パターンの認識]
図5は、電子メールの表示情報のパターンを認識する様子を示した図である。変換後の表示内容110において、テキスト部を、ハイパーリンクを含まない通常文とハイパーリンクを含むリンク文とに分けて、文ごとにブロック(ハッチングで示した部分)として把握する。パターンを認識する方法は120で表示した部分に示している。
[Pattern recognition]
FIG. 5 is a diagram showing how the pattern of the display information of the e-mail is recognized. In the
この例では、3つの通常文と1つのリンク文があるので、合わせて4つの文に対応するブロックが認識されている。通常文に対するブロックは斜めのハッチング、リンク文に対するブロックは縦しまのハッチングで示している。ブロックは、文の外観を形として把握したものである。 In this example, since there are three normal sentences and one link sentence, the blocks corresponding to the four sentences in total are recognized. Blocks for normal sentences are indicated by diagonal hatching, and blocks for link sentences are indicated by vertical hatching. A block grasps the appearance of a sentence as a shape.
まず、電子メール全体のパターンを認識する。次に、テキスト部と画像部のパターンをそれぞれ認識する。画像部がない電子メールの場合は、テキスト部と全体が一致するため、特にテキスト部のパターンを認識する必要はない。次に、テキスト部の中の、通常文のブロックで構成される部分のパターンを通常文部として、リンク文のブロックで構成される部分のパターンをリンク文部として認識する。前述したとおり、スパムメールは、特定のハイパーリンクへのアクセスを誘うものが多いので、その勧誘部分のパターンを特に把握することを目的として通常文部を認識するものである。 First, the entire e-mail pattern is recognized. Next, the patterns of the text part and the image part are recognized. In the case of an e-mail without an image part, since the text part and the whole match, there is no need to recognize the pattern of the text part. Next, in the text part, a pattern of a part composed of blocks of normal sentences is recognized as a normal sentence part, and a pattern of a part composed of blocks of link sentences is recognized as a link sentence part. As described above, since many spam emails invite access to a specific hyperlink, the normal sentence part is recognized for the purpose of particularly grasping the pattern of the solicitation part.
なお、画像部は、画像全体を1つのパターンとして認識するだけでなく、部分画像についてもパターンを認識することができる。部分画像については、画像認識において利用されているエッジ処理等により切り出すことができる。 Note that the image unit can recognize not only the entire image as one pattern but also a pattern for a partial image. A partial image can be cut out by edge processing or the like used in image recognition.
図6は、リンク文が複数個ある電子メールにおけるパターンの認識方法について示した図である。この場合、リンク文部によって区切られる通常文部をそれぞれ独立して認識する。通常文とリンク文では役割が異なり、リンク文に先行する通常文がリンク文に含まれるハイパーリンクへのアクセスの勧誘を表すと考えられるからである。ここで、スパムメール判定サーバ1は、パターン認識手段4として機能する。
FIG. 6 is a diagram showing a pattern recognition method in an electronic mail having a plurality of link sentences. In this case, the normal sentence parts delimited by the link sentence part are recognized independently. This is because the normal sentence and the link sentence have different roles, and it is considered that the normal sentence preceding the link sentence represents an invitation to access a hyperlink included in the link sentence. Here, the spam
[パターン辞書DB]
図7は、パターン辞書DBを示す図である。パターン辞書DB7には、全体、テキスト部、画像部、通常文部のそれぞれについて、過去のスパムメールから抽出されたパターンや、別途管理者が作成したパターンが登録されている。
[Pattern Dictionary DB]
FIG. 7 is a diagram showing the pattern dictionary DB. In the
図8は、電子メールの言語に応じて準備するパターン辞書を示す図である。スパムメールも、それが作成された言語によってパターンが異なると考えられるからである。図8では、日本語メール用パターン辞書7a、英語メール用パターン辞書7b、中国語メール用パターン辞書7cが示されている。しかし、これらに限られるものではなく、その他の言語についてもパターン辞書を準備してもよい。これらのパターン辞書はパターン辞書DB7上に保有される。
FIG. 8 is a diagram showing a pattern dictionary prepared according to the language of the e-mail. This is because spam mail is considered to have a different pattern depending on the language in which it is created. FIG. 8 shows a Japanese
[パターンの照合]
電子メールから把握した各部のパターンと、当該部分についてパターン辞書に登録されているパターンとを照合することによりパターンの一致または類比を判断する。各パターンは、テキスト部等も含め画像情報として把握し、現状ある画像情報の類比判断の技術を利用して照合する。
[Match pattern]
By comparing the pattern of each part grasped from the electronic mail with the pattern registered in the pattern dictionary for the part, the pattern match or similarity is determined. Each pattern is grasped as image information including a text portion and the like, and collated using a technique for judging the similarity of existing image information.
すでに実用化されている類似画像検索技術では、比較の対象となる画像から視覚的な情報を数百次元の数値列データ(画像特徴量)で示し、データ同士の似ている度合い(類似度)を、画像特徴量ベクトル間の距離、即ち、この画像特徴量の違いとして評価する。 In the similar image search technology already in practical use, visual information is indicated by numerical sequence data (image feature amount) of several hundred dimensions from images to be compared, and the degree of similarity between the data (similarity) Is evaluated as the distance between the image feature quantity vectors, that is, the difference between the image feature quantities.
この方法は、全体及び各部のパターン照合に利用可能であるが、画像部のパターン照合には特に有効である。 This method can be used for pattern matching of the whole and each part, but is particularly effective for pattern matching of the image part.
テキスト部や通常文部のパターン照合では、他の方法も可能である。これらの部分においては、ブロック部の重複度合が類比の判断に重要であるが、ブロック部自体の類比はブロックのサイズと個数により行うことが可能である。ブロックの形状はブロックのサイズによって決定されるので、省略する。しかし、上記の類似画像検索技術を用いた場合は、ブロックの形状も類比の要素とすることが可能であることは確認しておく。 Other methods are possible for pattern matching of text parts and normal sentence parts. In these portions, the degree of overlap of the block portions is important for determining the analog ratio, but the analog ratio of the block portions can be determined by the size and number of blocks. Since the block shape is determined by the block size, it is omitted. However, it is confirmed that when the similar image retrieval technique described above is used, the shape of the block can also be used as a similar factor.
ブロックのサイズは文を構成する字数でほぼ決定されるので、ブロックのサイズはブロックに対応する文の字数を用いるようにしてもよい。または、ブロックの面積を用いてもよい。このようにしてブロックのサイズを順に比較していくことにより、パターンの類比を照合することもできる。 Since the block size is almost determined by the number of characters constituting the sentence, the number of characters of the sentence corresponding to the block may be used as the block size. Alternatively, the area of the block may be used. By comparing the block sizes in this way, the pattern analogy can be verified.
図9は、通常文部のパターン照合の例を示す図である。電子メールから抽出されたパターン130には5つのブロックが含まれている。一方、パターン辞書に登録されたパターン140には4つのブロックしか含まれていない。それぞれに含まれるブロックのサイズは少しずつ異なるが、いずれもブロック1のサイズが大きく(前者では40、後者では45)、それ以外のブロックのサイズは10以下で小さい。このような場合、ブロック2以降は、箇条書であると考えられる。
FIG. 9 is a diagram illustrating an example of pattern matching of a normal sentence part. The
同一のパターンを持つスパムメールであっても、箇条書の項目数が異なることは通常考えられることである。このような場合、ブロックの数が違ってくるためパターンが異なると判断されることもありえる。しかし、箇条書と判断される部分の相違については、類比判断の比重を軽くして判断することが実情に即した判断である。 It is normal to think that the number of items in a bullet is different even for spam emails with the same pattern. In such a case, since the number of blocks is different, it may be determined that the pattern is different. However, regarding the difference between the items that are judged as items, it is a judgment in line with the actual situation to make the judgment by reducing the weight of the analogy judgment.
図10は、ブロックのサイズ比較表を示す図である。図9に示した2つのパターン間のブロックサイズの比較を図10(a)に示している。ブロック1〜4については電子メールから抽出されたパターンにもパターン辞書に登録されたパターンにもあるので、一致度が計算されているが、ブロック5は、電子メールから抽出されたパターンにしかないので、一致度は0となっている。その結果、平均の一致度は65%である。
FIG. 10 shows a block size comparison table. FIG. 10A shows a comparison of block sizes between the two patterns shown in FIG. Since the
しかし、上述したように、ブロック2〜5については、箇条書のブロックであると考えられるので、片方のパターンがない場合でも、箇条書のブロックの平均一致度を基準にして所定の計算をする。例えば、1ブロックについて片方のパターンがない場合は、箇条書のブロックの平均一致度の80%(調整率)として調整した一致度を割当てている。図10(b)にその結果を示している。それによると、ブロック5は、箇条書のブロックの平均一致度78%(=(89+75+70)/3)に調整率の80%を掛けて計算した62%が割り当てられている。その結果、平均一致度は77%となり、箇条書を考慮した類比判断が行われたことになる。
However, as described above, since
なお、箇条書のブロックか否かを判定する条件として、基準とするブロックサイズを決めておき、そのブロックサイズ以下のブロックが複数個連続する場合は箇条書であると判断するようにする。他の方法で判断してもよい。 Note that a reference block size is determined as a condition for determining whether or not the item is a block in the itemized list, and when a plurality of blocks having the block size or less continue, it is determined that the item is a itemized item. You may judge by another method.
図10(c)には、2ブロックについて片方のパターンがない場合について、一致度の調整の仕方を示している。1ブロック目については調整率を80%としたが、2ブロック目については箇条書のブロックの平均一致度の60%(2ブロック目の
調整率)を調整後の一致度として割当てている。このように調整率を逓減させるのは、箇条書といえどもブロック数の差が大きい場合は、パターンが同一と看做せないからである。
FIG. 10C shows how to adjust the degree of coincidence when there is no one pattern for two blocks. For the first block, the adjustment rate is set to 80%, but for the second block, 60% of the average matching degree of the blocks in the itemized list (the adjustment rate of the second block) is assigned as the matching degree after adjustment. The reason why the adjustment rate is decreased in this way is that even if it is an item, when the difference in the number of blocks is large, the patterns cannot be regarded as the same.
本実施形態によれば、送信された電子メールがスパムメールであるか否かの判定を、電子メールの内容ではなく視覚的外観に基づいて行うので、内容的にはスパムメールと判定されなかったものでも定型的な形をしたスパムメールについては、新たにスパムメールと判定することが可能となる。そして、この判定処理をサーバで行うので、サーバに接続されたユーザ端末で等しくこの効果を享受することができる。 According to the present embodiment, the determination as to whether or not the transmitted e-mail is spam mail is based on the visual appearance rather than the contents of the e-mail, so the contents were not determined as spam mail. Spam mail that has a standard shape can be newly determined as spam mail. And since this determination process is performed by the server, this effect can be enjoyed equally by the user terminals connected to the server.
(第2の実施形態)
第2の実施形態は、第1の実施形態でスパムメール判定サーバ1が行った処理をユーザ端末10で行うものである。
(Second Embodiment)
In the second embodiment, the processing performed by the spam
[全体構成]
図11は、ユーザ端末10とそれに接続された関連する要素の全体構成を示す図である。各要素の番号は図1と合わせてある。ユーザ端末10は、電子メール受信手段2と、電子メール表示内容変換手段3と、パターン認識手段4と、パターン照合手段5と、スパムメール判定手段6と、パターン辞書DB7と、通常メールDB8と、スパムメールDB9とを備える。ユーザ端末10はプロバイダ150を介してインターネット20に接続されている。各手段や各DBの役割は第1の実施形態と同様である。
[overall structure]
FIG. 11 is a diagram illustrating an overall configuration of the
また、上記で説明した点以外についても、第1の実施形態と同様である。 The points other than those described above are the same as those in the first embodiment.
このようにすることで、本発明に係るスパムメール排除の処理をユーザ端末においても実施可能となるので、特に被害を防止したいユーザが個別に本発明を実施することができる。 By doing so, the spam mail elimination process according to the present invention can be carried out also at the user terminal, so that the user who wants to prevent damage can implement the present invention individually.
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
1 スパムメール判定サーバ
10 ユーザ端末
20 インターネット
30 バスライン
40 制御部
52 記憶装置
100 文字コードの表示
101 受信電子メール本文
110 変換後の表示内容
120 電子メールのパターン認識図
130 電子メールから抽出されたパターン
140 パターン辞書に登録されたパターン
150 プロバイダ
DESCRIPTION OF
Claims (7)
前記パターン認識手段により認識した電子メールの全体又は一部であり、予め定めたサイズの画面に前記電子メールを表示する場合の視覚的パターンを、予め蓄積された視覚的パターンと照合するパターン照合手段と、
前記パターン照合手段の照合結果に基づき前記電子メールがスパムメールか否かを判定するスパムメール判定手段と、
を備えるスパムメール判定サーバ。 Pattern recognition means for recognizing a visual pattern when displaying the e-mail on a screen of a predetermined size, which is the whole or a part of the received e-mail displayed;
Pattern collating means for collating a visual pattern when displaying the e-mail on a screen of a predetermined size, which is the whole or a part of the e-mail recognized by the pattern recognition means, with a pre-stored visual pattern When,
A spam mail judging means for judging whether or not the email is a spam mail based on a matching result of the pattern matching means;
A spam mail determination server comprising
受信した電子メールが表示される全体又は一部であり、予め定めたサイズの画面に前記電子メールを表示する場合の視覚的パターンを認識するパターン認識手段と、
前記パターン認識手段により認識した電子メールの全体又は一部であり、予め定めたサイズの画面に前記電子メールを表示する場合の視覚的パターンを、予め蓄積された視覚的パターンと照合するパターン照合手段と、
前記パターン照合手段の照合結果に基づき前記電子メールがスパムメールか否かを判定するスパムメール判定手段として機能させるためのスパムメール判定プログラム。 Computer
Pattern recognition means for recognizing a visual pattern when displaying the e-mail on a screen of a predetermined size, which is the whole or a part of the received e-mail displayed;
Pattern collating means for collating a visual pattern when displaying the e-mail on a screen of a predetermined size, which is the whole or a part of the e-mail recognized by the pattern recognition means, with a pre-stored visual pattern When,
A spam mail determination program for functioning as a spam mail determination means for determining whether or not the electronic mail is a spam mail based on a collation result of the pattern collation means.
コンピュータが、前記電子メールの全体又は一部であり、予め定めたサイズの画面に前記電子メールを表示する場合の視覚的パターンを、予め蓄積された視覚的パターンと照合するパターン照合ステップと、
コンピュータが、前記照合の結果に基づき前記電子メールがスパムメールか否かを判定するスパムメール判定ステップと、
を備えるスパムメール判定方法。 A pattern recognition step for recognizing a visual pattern when the computer is the whole or a part of the received e-mail and displaying the e-mail on a screen of a predetermined size ;
A pattern matching step in which a computer is a whole or a part of the e-mail, and a visual pattern when the e-mail is displayed on a screen of a predetermined size is matched with a pre-stored visual pattern;
A spam mail determination step in which the computer determines whether the email is spam mail based on the result of the matching;
A spam mail determination method comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008098038A JP4953461B2 (en) | 2008-04-04 | 2008-04-04 | Spam mail determination server, spam mail determination program, and spam mail determination method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008098038A JP4953461B2 (en) | 2008-04-04 | 2008-04-04 | Spam mail determination server, spam mail determination program, and spam mail determination method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2009251864A JP2009251864A (en) | 2009-10-29 |
| JP4953461B2 true JP4953461B2 (en) | 2012-06-13 |
Family
ID=41312526
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008098038A Expired - Fee Related JP4953461B2 (en) | 2008-04-04 | 2008-04-04 | Spam mail determination server, spam mail determination program, and spam mail determination method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4953461B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4893802B2 (en) | 2009-11-02 | 2012-03-07 | 株式会社デンソー | Engine control device |
| CN108369559B (en) | 2015-12-01 | 2019-10-22 | 艾梅崔克斯株式会社 | Document structure analysis device to which image processing is applied |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050216564A1 (en) * | 2004-03-11 | 2005-09-29 | Myers Gregory K | Method and apparatus for analysis of electronic communications containing imagery |
| JP2007018113A (en) * | 2005-07-06 | 2007-01-25 | Nec Corp | Junk mail reception refusing system, junk mail deciding device, terminal equipment, and its junk mail reception refusing method |
| US7971137B2 (en) * | 2005-12-14 | 2011-06-28 | Google Inc. | Detecting and rejecting annoying documents |
-
2008
- 2008-04-04 JP JP2008098038A patent/JP4953461B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2009251864A (en) | 2009-10-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10229108B2 (en) | System and method for adaptive spell checking | |
| US9268747B2 (en) | Method for detecting negative opinions in social media, computer program product and computer | |
| US7457798B2 (en) | System and method for providing a universal and automatic communication access point | |
| US9336200B2 (en) | Assisting document creation | |
| US8028230B2 (en) | Contextual input method | |
| US20170169822A1 (en) | Dialog text summarization device and method | |
| US8224815B2 (en) | Interactive message editing system and method | |
| US20180307677A1 (en) | Sentiment Analysis of Product Reviews From Social Media | |
| KR20190079685A (en) | Hyperlink destination visibility | |
| US20050075880A1 (en) | Method, system, and product for automatically modifying a tone of a message | |
| US12045719B2 (en) | Identifying portions of electronic communication documents using machine vision | |
| CN114118070A (en) | Document directory generation method and device, electronic equipment and medium | |
| CN105243058A (en) | Webpage content translation method and electronic apparatus | |
| US20120016832A1 (en) | Automated document separation | |
| JP4953461B2 (en) | Spam mail determination server, spam mail determination program, and spam mail determination method | |
| US8307282B2 (en) | Character string display system, character string display method, and storage medium | |
| JP2010165218A (en) | Device, method and program for controlling display of electronic mail | |
| US20150317315A1 (en) | Method and apparatus for recommending media at electronic device | |
| CN114863460B (en) | A manuscript preprocessing method, device, electronic device and storage medium | |
| CN112861504A (en) | Text interaction method, device, equipment, storage medium and program product | |
| CN117909894A (en) | Assessment method, device, equipment and medium for security of large model generated content | |
| US11516166B1 (en) | Header recognition techniques for an email threading tool | |
| US10783321B2 (en) | Document creation support device and program | |
| JP2010134811A (en) | System for determination of address correctness | |
| CN114596568B (en) | A method, device and storage medium for intelligent text recognition of scanned images |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110621 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110819 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120312 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4953461 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150323 Year of fee payment: 3 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |