JP7075348B2 - How to analyze the source and destination of Internet traffic - Google Patents
How to analyze the source and destination of Internet traffic Download PDFInfo
- Publication number
- JP7075348B2 JP7075348B2 JP2018554481A JP2018554481A JP7075348B2 JP 7075348 B2 JP7075348 B2 JP 7075348B2 JP 2018554481 A JP2018554481 A JP 2018554481A JP 2018554481 A JP2018554481 A JP 2018554481A JP 7075348 B2 JP7075348 B2 JP 7075348B2
- Authority
- JP
- Japan
- Prior art keywords
- log
- dns
- source
- com
- domain name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、インターネットDNSドメイン名解決の分野に関し、特にインターネットトラフィックの送信元と宛先の分析方法に関する。 The present invention relates to the field of Internet DNS domain name resolution, and particularly to methods of analyzing sources and destinations of Internet traffic.
いわゆるインターネットトラフィックの送信元と宛先とは、ユーザが先にアクセスしたウェブサイト、その後にアクセスしたウェブサイト等の一連のウェブサイトに対するアクセス経路を指す。如何にウェブサイトのトラフィックの送信元を確認するかについて、業界の主流方式は1種類のみとし、つまり、ウェブサイトのページにJavaScript監視コードを添加することである。最もよく使うのは、google analyticsと百度統計等の第三者検出ツールである。 The source and destination of so-called Internet traffic refer to an access route to a series of websites such as a website accessed first by a user and a website accessed after that. There is only one mainstream method in the industry for how to identify the source of website traffic, that is, to add a Javascript monitoring code to a website page. Most often used are third-party detection tools such as Google analytics and Baidu statistics.
上記統計方法には、大きな限界があり、各ウェブサイトは、ゲストが前回アクセスした1つのウェブサイトだけを知ることができ、該ゲストがこの前にアクセスした複数のウェブサイトを知ることができず、さらに該ゲストが該ウェブサイトから離れてどのウェブサイトにアクセスしていくかを了解することができない。DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングしている分散型データベースであり、ユーザがマシンによって直接に読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。「DNSドメイン名解決技術」とは、ユーザがウェブサイトにアクセスすると、ブラウザにこのウェブサイトのドメイン名を入力する必要があり、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザはこのドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができることである。 The above statistical method has a big limitation, and each website can know only one website that the guest visited last time , and cannot know multiple websites that the guest visited before. Furthermore, it is not possible to understand which website the guest will visit while leaving the website. DNS (Domain Name System) is a distributed database that maps domain names and IP addresses to each other on the Internet, eliminating the need for users to remember IP numbers read directly by the machine. Allows convenient access to the Internet. "DNS domain name resolution technology" means that when a user visits a website, he or she must enter the domain name of this website in the browser, and when he presses the return key, the browser first makes a DNS request. DNS technology allows a browser to obtain a server IP address corresponding to this domain name and then make an HTTP request to this IP address.
DNSログは、毎回のDNSリクエストの応答コンテンツを記録し、ユーザによって要求される全てのドメイン名情報をほとんど記録することができる。しかしながら、ログには、多くの異常及び無効情報が含まれ、例えば、サーバは、DNSリクエストをして大量のドメイン名情報を生成し、ウェブクローラーひいてはネットワーク攻撃は、いずれも大量のDNSリクエストを生成する。これらのリクエストは、ユーザの実際のアクセス経路をリアルかつ効果的に反映できない。 The DNS log can record the response content of each DNS request and almost all the domain name information requested by the user. However, the log contains a lot of anomalous and invalid information, for example, the server makes a DNS request to generate a large amount of domain name information, and the web crawler and thus the network attack both generate a large amount of DNS requests. do. These requests cannot realistically and effectively reflect the user's actual access route.
現在、市場には、インターネットゲストのアクセス経路全体をよく分析できる方法が存在しておらず、本発明は、この不足を補い、DNSログに対する再処理によりウェブサイトのトラフィックがそれぞれどのウェブサイトから由来するのか、離れた後にどのウェブサイトにアクセスしたかを分析する方法である。 Currently, there is no way in the market to analyze the entire access path of Internet guests well, and the present invention makes up for this shortage and reprocesses DNS logs to derive website traffic from each website. It's a way to analyze which websites you visit after you're away.
上記欠陥の存在に鑑みて、本発明は、インターネットトラフィックの送信元と宛先の分析方法を提供し、本発明の方法により、ログ中の非人為的なアクセス行為をできるだけクリアし、インターネットトラフィックの送信元と宛先を効果的に取得することができる。 In view of the existence of the above defects, the present invention provides a method for analyzing the source and destination of Internet traffic, and the method of the present invention clears inhumane access acts in logs as much as possible and transmits Internet traffic. You can effectively get the source and destination.
本発明のインターネットトラフィックの送信元と宛先の分析方法は、DNSログを処理してインターネットトラフィックの送信元と宛先を取得するインターネットトラフィックの送信元と宛先の分析方法であって、ユーザの実際のアクセス経路を反映できないDNSログをフィルタリングするログフィルタリングステップと、ソースIP、タイムスタンプの差及び中央ドメインに基づいて、ログフィルタリングステップの後に取得したDNSログを順に分割して、分割後のアクセス経路を取得するログ分割ステップと、全ての前記分割後のアクセス経路を集約するデータ集約ステップとを含み、前記タイムスタンプの差に基づいてログを分割することは、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割し、その後、
前記タイムスタンプの差に基づいて分割するDNSログに、ユーザの実際なアクセス行為で生成するドメイン名リクエストと、それに伴って生成するドメイン名リクエストを区別する。
The method of analyzing the source and destination of Internet traffic of the present invention is a method of analyzing the source and destination of Internet traffic that processes DNS logs to acquire the source and destination of Internet traffic, and is an actual access of a user. The DNS log acquired after the log filtering step is divided in order based on the log filtering step that filters the DNS log that cannot reflect the route and the source IP, the difference in the time stamp, and the central domain, and the access route after the division is acquired. A log splitting step that includes a log splitting step and a data summarizing step that aggregates all the post-split access routes, and splitting the log based on the difference in the time stamps is a split log based on the source IP. Further, if the difference between the time stamps of the two DNS logs is larger than the length of the predetermined time, the two DNS logs are divided, and then the two DNS logs are divided.
In the DNS log divided based on the difference in the time stamps, the domain name request generated by the actual access action of the user and the domain name request generated accordingly are distinguished .
好ましくは、ログフィルタリングステップにおいて、ブラックリスト及びホワイトリストを設定することにより、重視されるドメイン名リクエストを含むDNSログを保留すると共に、サーバによって生成される非人為的なドメイン名リクエストを含むDNSログを除去する。 Preferably, in the log filtering step, by setting blacklists and whitelists, DNS logs containing emphasized domain name requests are held and DNS logs containing inhumane domain name requests generated by the server. To remove.
好ましくは、DNSログを除去することは、さらに、企業IPのアクセスするログの除去及びIPが解決されていないログの除去を含む。 Preferably, removing DNS logs further includes removing logs accessed by the corporate IP and removing logs for which the IP has not been resolved.
好ましくは、ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することである。 Preferably, partitioning the DNS log based on the source IP is to obtain a continuous DNS log of the same source IP over a period of time.
好ましくは、前記所定時間の長さは3秒間である。 Preferably , the length of the predetermined time is 3 seconds.
好ましくは、タイムスタンプの差に基づいてDNSログを分割するステップの後に、さ
らに、分割して取得されたアクセス経路中のドメイン名をドメインに変換し、連続的な同
じドメインを併合して、前記ソースIPの経路を取得する併合ステップを含む。
Preferably, after the step of splitting the DNS log based on the difference in time stamps, the domain name in the split-acquired access route is further converted to a domain and the same continuous domain is merged as described above. Includes a merge step to get the route of the source IP.
本発明の分析方法により、インターネットトラフィックの送信元と宛先を把握することが可能であり、ウェブサイトのトラフィックの分析及び最適化をよりよく支援でき、さらに、インターネット全体のトラフィックの流れ状況を全面的に了解することにより、全局的観点から分析すると共に、他のウェブサイトのトラフィック状況を了解することができ、己を知り彼を知ることを実現する。 The analysis method of the present invention makes it possible to understand the source and destination of Internet traffic, better assist in the analysis and optimization of website traffic, and provide a complete view of the traffic flow status of the entire Internet. By understanding, you can analyze from a holistic point of view and understand the traffic situation of other websites, and realize that you know yourself and know him.
以下に、図面及び実施例を参照しながら、発明について詳細に説明する。以下の実施例は、本発明を限定するものではない。発明構想の精神及び範囲から逸脱しない場合、当業者が想到し得る変化及び利点はいずれも本発明に含まれる。 Hereinafter, the invention will be described in detail with reference to the drawings and examples. The following examples are not limited to the present invention. Any changes or advantages that can be conceived by one of ordinary skill in the art, provided that they do not deviate from the spirit and scope of the invention, are included in the invention.
上述したように、DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングしている分散型データベースであり、ユーザがマシンによって直接に読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。ユーザがウェブサイトにアクセスすると、まず、ブラウザにこのウェブサイトのドメイン名を入力し、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザは、このドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができる。それは、DNSドメイン名解決技術である。 As mentioned above, DNS (Domain Name System) is a distributed database that maps domain names and IP addresses to each other on the Internet, where users remember IP numbers read directly by the machine. Allows you to access the Internet more conveniently without the need. When the user accesses the website, first enter the domain name of this website in the browser, and when the return key is pressed, the browser first makes a DNS request, and by DNS technology, the browser is sent to this domain name. You can get the corresponding server IP address and then make an HTTP request to this IP address. It is a DNS domain name resolution technique.
上記ドメイン名解決の過程において、DNSログを生成する。DNSログは、毎回のDNSリクエストの応答コンテンツを記録し、ユーザによって要求される全てのドメイン名情報をほとんど記録することができる。DNSログのフォーマットは以下のとおりである。
14.***.***.10|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
即ち、DNSログは、「ソースIP」、「ドメイン名」、「タイムスタンプ」、「解決したIP」及び「状態コード」の5部分の内容を含む。
In the process of resolving the domain name, a DNS log is generated. The DNS log can record the response content of each DNS request and almost all the domain name information requested by the user. The format of the DNS log is as follows.
14. ***. ***. 10 | www. baidu. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
Source IP | Domain Name | Timestamp | Resolved IP | Status Code That is, the DNS log consists of five parts: "Source IP", "Domain Name", "Timestamp", "Resolved IP", and "Status Code". Includes content.
DNSログには、ユーザによって要求される全てのドメイン名情報が含まれるため、本発明者は、DNSログの再処理によりウェブサイトのトラフィックの送信元と宛先を分析することを想到する。しかしながら、DNSログには、多くの異常及び無効情報も含まれ、例えば、サーバは、DNSリクエストをして大量のドメイン名情報を生成し、ウェブクローラーひいてはネットワーク攻撃は、いずれも大量のDNSリクエストを生成する。これらのリクエストは、ユーザの実際のアクセス経路をリアルかつ効果的に反映できない。上記状況に応じて、本発明者は、ログ中の非人為的なアクセス行為をできるだけクリアすることにより、インターネットトラフィックの送信元と宛先を効果的に取得することを想到する。 Since the DNS log contains all the domain name information requested by the user, the inventor conceives to analyze the source and destination of the website traffic by reprocessing the DNS log. However, the DNS log also contains a lot of anomaly and invalid information, for example, the server makes a DNS request to generate a large amount of domain name information, and web crawlers and thus network attacks all make a large amount of DNS requests. Generate. These requests cannot realistically and effectively reflect the user's actual access route. In response to the above situation, the inventor conceives to effectively acquire the source and destination of Internet traffic by clearing as much as possible the inhumane access behavior in the log.
図1は、本発明のインターネットトラフィックの送信元と宛先の分析方法のフローチャートである。図1に示すように、本発明のインターネットトラフィックの送信元と宛先の分析方法は、以下のステップを含む。 FIG. 1 is a flowchart of a method of analyzing a source and a destination of Internet traffic of the present invention. As shown in FIG. 1, the method of analyzing the source and destination of Internet traffic of the present invention includes the following steps.
まず、ユーザの実際のアクセス経路を反映できないDNSログをフィルタリングする(ステップS1)。前述のように、DNSリクエストには、ユーザの実際のアクセス経路をリアルかつ効果的に反映できない多くのドメイン名が含まれるため、クリアする必要がある。例えば、ブラックリスト及びホワイトリストを設定することにより、重視されるドメイン名リクエストを含むDNSログを保留すると共に、サーバによって生成される非人為的なドメイン名リクエストを含むDNSログを除去する。ブラックリストを設定することにより、サーバによって生成される非人為的なドメイン名リクエストを除去することができる。ホワイトリストを設定することにより、重視されるいくつかのドメイン名を保留することができる。ホワイトリストの優先順位は、ブラックリストより高い。また、DNSログを除去することは、さらに、企業IPのアクセスログの除去と、IPが解決されていないログの除去を含む。企業IPを除去するのは、企業IPが多人の同時アクセスログを生成して、個人アクセス経路に対する判断に影響を与えるからである。解決されていないIPを有するログを除去し、即ち、アクセスに失敗したログを除去する。異なる次元によりログをフィルタリングすることにより、ユーザの実際のアクセス経路を反映するDNSログを取得することができる。 First, the DNS log that cannot reflect the actual access route of the user is filtered (step S1). As mentioned above, the DNS request contains many domain names that cannot realistically and effectively reflect the user's actual access route and must be cleared. For example, by setting a blacklist and a whitelist, DNS logs containing important domain name requests are reserved, and DNS logs including inhumane domain name requests generated by the server are removed. By setting a blacklist, you can eliminate inhumane domain name requests generated by the server. By setting a whitelist, you can defer some important domain names. The whitelist has a higher priority than the blacklist. Also, removing DNS logs further includes removing access logs for corporate IPs and removing logs for which IPs have not been resolved. The reason for removing the corporate IP is that the corporate IP generates a simultaneous access log of many people and influences the judgment on the personal access route. Remove logs with unresolved IPs, i.e. remove logs with failed access. By filtering the logs according to different dimensions, it is possible to acquire DNS logs that reflect the actual access route of the user.
次に、ソースIPと、タイムスタンプの差及び中央ドメインに基づいて、ログフィルタリングステップの後に取得したDNSログを順に分割して、分割後のドメインを取得する(ステップS2)。 Next, the DNS log acquired after the log filtering step is sequentially divided based on the source IP, the difference in the time stamp, and the central domain, and the divided domain is acquired (step S2).
詳細のステップは以下のとおりである。
1)ソースIPに基づいて分割する(ステップS21)。ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することである。
例えば、ソースIP1.1.1.1とソースIP2.2.2.2が異なるソースIPであるため、ログを分割する。以下のとおりである。
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
1.1.1.1|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
1.1.1.1|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-----------------------------------------
2.2.2.2|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
2.2.2.2|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
The detailed steps are as follows.
1) Divide based on the source IP (step S21). Splitting a DNS log based on a source IP is to get a continuous DNS log of the same source IP over a period of time.
For example, since the source IP 1.1.1.1 and the source IP 2.2.2.2 are different source IPs, the log is divided. It is as follows.
Source IP | Domain name | Timestamp | Resolved IP | Status code 1.1.1.1 | www. baidu. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
1.1.1.1 | www. qq. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ----------------------------------
2.2.2.2 | www. baidu. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | www. qq. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2)次に、ソースIPに基づいて分割されたログを、またタイムスタンプの差に基づいて分割する(ステップS22)。タイムスタンプの差に基づく分割は、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割することである。2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、この2つのDNSログを分割する(分割の原因は、ログの時間間隔が長過ぎると2つの異なる行為であると見なされることである)。該所定時間の長さは、必要に応じて調整することができる。本実施例では、前記所定時間の長さは3秒間であり、即ちタイムスタンプの差が3秒間より大きいと分割される。 2) Next, the log divided based on the source IP is divided again based on the difference in time stamps (step S22). The division based on the time stamp difference is to further divide the log divided based on the source IP based on the time stamp difference of the DNS log. If the difference between the time stamps of the two DNS logs is greater than the length of the given time, then the two DNS logs are split (the cause of the split is considered to be two different actions if the log time interval is too long. That is). The length of the predetermined time can be adjusted as needed. In this embodiment, the predetermined time length is 3 seconds, that is, if the time stamp difference is larger than 3 seconds, it is divided.
例えば、ソースIP2.2.2.2のDNSログを、さらにそのタイムスタンプの差に基づいて分割し、以下のとおりである。(タイムスタンプ20141211035932は、2014年12月11日3時59分32秒を示す)
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
2.2.2.2|www.baidu.com|20141211000001|180.***.***.107;180.***.***.108|0
2.2.2.2|a.qq.com|20141211000002|180.***.***.107;180.***.***.108|0
2.2.2.2|b.baidu.com|20141211000003|180.***.***.107;180.***.***.108|0
2.2.2.2|c.tanx.com|20141211000004|180.***.***.107;180.***.***.108|0
2.2.2.2|c.allyes.com|20141211000005|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.sina.com|20141211000009|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.qq.com|201412110000015|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.qq.com|201412110000019|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.a.com|201412110000024|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.b.com|201412110000029|180.***.***.107;180.***.***.108|0
For example, the DNS log of the source IP 2.2.2.2 is further divided based on the difference in the time stamps, and is as follows. (Timestamp 20141211035932 indicates 3:59:32 on December 11, 2014)
Source IP | Domain name | Timestamp | Resolved IP | Status code 2.2.2.2 | www. baidu. com | 20141211000001 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | a. qq. com | 20141211000002 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | b. baidu. com | 20141211000003 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | c. tanx. com | 20141211000004 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | c. allies. com | 20141211000005 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. sina. com | 20141211000009 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. qq. com | 201412110000015 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. qq. com | 201412110000019 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. a. com | 201412110000024 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. b. com | 201412110000029 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
上述したように、タイムスタンプ20141211000005の05秒と20141211000009の09秒の間の差が4秒間(3秒間より大きい)であるため、ログは分割される。20141211000009と201412110000015の間の差が6秒間であるため、分割される。 As mentioned above, the log is split because the difference between 05 seconds of the time stamp 20141211000005 and 09 seconds of 20141211000009 is 4 seconds (greater than 3 seconds). Since the difference between 20141211000009 and 201412110000015 is 6 seconds, it is divided.
上述したように、ログは、合計で6つのセグメントに分割された。第1セグメントのログ中のソースIP:2.2.2.2は、www.baidu.com、a.qq.com、b.baidu.com、c.tanx.com、c.allyes.comという5つのドメイン名にアクセスする。ユーザアクセス行為の判断方法により、ユーザが実際にwww.baidu.comのみにアクセスし、残りの4つのドメイン名がユーザによるwww.baidu.comのクリックに伴って生成するドメイン名リクエストであり、ユーザの実際のアクセス行為ではないことを得ることができる。従って、第1セグメントのログから、ユーザがwww.baidu.comというドメイン名にアクセスした経路を得ることができる。ここで言及されたユーザアクセス行為の判断方法は以下のとおりである。あるユーザがurlをクリックすると、現在のurlのドメイン名に加えて、幾つかの他のドメイン名も要求する。クローラー技術により、該urlのドメイン名リクエストをした後の全ての他のドメイン名リクエストを取得し、クロールした一連のドメイン名リクエストとDNSログから分割されたドメイン名セグメントをマッチングして、該DNSログとユーザが実際にアクセスしたドメイン名との対応関係を得ることができる。該方法で得られた対応関係から分かるように、該セグメントのログは、ユーザが実際にwww.baidu.comにアクセスしたことを反映する。第2セグメントのログは、www.sina.comのみを有するため、www.sina.comは、ユーザがアクセスしたドメイン名経路である。 As mentioned above, the log was divided into a total of 6 segments. The source IP: 2.2.2.2 in the log of the first segment can be found at www. baidu. com , a. qq. com , b. baidu. com , c. tanx. com , c. allies. Access 5 domain names called com . Depending on the method of determining the user access act, the user actually visits www. baidu. Only access to com, and the remaining 4 domain names are the user's www. baidu. It is possible to obtain that it is a domain name request generated by clicking com and is not an actual access act of the user. Therefore, from the log of the first segment, the user can use www. baidu. You can get the route to access the domain name com . The method for determining the user access behavior mentioned here is as follows. When a user clicks on a url, they request some other domain names in addition to the current url domain name. By crawler technology, all other domain name requests after making the domain name request of the url are acquired, and the crawled series of domain name requests are matched with the domain name segment divided from the DNS log to match the DNS log. And the domain name actually accessed by the user can be obtained. As can be seen from the correspondence obtained by the method, the log of the segment is actually www. baidu. Reflects that you have accessed com . The log of the second segment is www. sina. Since it has only com, www. sina. com is a domain name route accessed by the user.
以上のログの経路をつなぐと、以下のとおりである。
www.baidu.com>www.sina.com>www.qq.com>www.qq.com>www.a.com>www.b.com
さらに、上記タイムスタンプの差に基づいて分割して取得された経路を同じドメインで併合するが、ここで、セカンドレベルドメインで併合し、併合後の結果は以下のとおりである。
baidu.com>sina.com>qq.com>a.com>b.com
上記経路は、該ソースIPの全てのアクセス行為中の一つの経路であり、このような規則に従って全てのソースIPの全てのアクセス経路を算出することができる。
The above log routes are connected as follows.
www. baidu. com> www. sina. com> www. qq. com> www. qq. com> www. a. com> www. b. com
Further, the routes obtained by dividing based on the difference in the above time stamps are merged in the same domain, but here, they are merged in the second level domain, and the result after the merge is as follows.
baidu. com> sina. com> qq. com> a. com> b. com
The above route is one route in all access actions of the source IP, and all access routes of all source IPs can be calculated according to such a rule.
3)続いて、中央ドメインに基づいて、上記結果をさらに分割する(ステップS23)。中央ドメインは、ユーザ/システムの需要に応じて重点分析すべきドメインであり、即ちユーザがどこから中央ドメインに来たのか、その後に中央ドメインからどのドメインにアクセスしていくのかである。例えば、ログ中のa.comを中央ドメインとすると、以下のとおりである。
baidu.com>sina.com>qq.com>a.com>b.com
以下は、前述のソースIPの一例としての4つの経路であり、かつ各経路中の中央ドメインの前3レイヤーの送信元ドメインのみを挙げ、中央ドメイン後の経路の処理ロジックと中央ドメイン前の経路を処理する処理ロジックが一致する。実際のレイヤー数は、具体的な要件に応じて調整することができる。また、図2(a)にも示されている。
送信元ドメイン3>送信元ドメイン2>送信元ドメイン1>中央ドメイン
経路1:baidu.com>sina.com>qq.com>a.com(中央ドメイン)
経路2:sina.com>baidu.com>qq.com>a.com(中央ドメイン)
経路3:youku.com>sina.com>baidu.com>a.com(中央ドメイン)
経路4:baidu.com>qq.com>youku.com>a.com(中央ドメイン)
3) Subsequently, the above result is further divided based on the central domain (step S23). The central domain is the domain that should be focused on according to the demand of the user / system, that is, where the user came from the central domain and then which domain is accessed from the central domain. For example, a. In the log. Assuming that com is the central domain, it is as follows.
baidu. com> sina. com> qq. com> a. com> b. com
The following are four routes as an example of the above-mentioned source IP, and only the source domain of the previous three layers of the central domain in each route is listed, and the processing logic of the route after the central domain and the processing logic before the central domain are listed. The processing logic that processes the route matches. The actual number of layers can be adjusted according to specific requirements. It is also shown in FIG. 2 (a).
Route 2: sina. com> baidu. com> qq. com> a. com (central domain)
Route 3: youku. com> sina. com> baidu. com> a. com (central domain)
Route 4: baidu. com> qq. com> youku. com> a. com (central domain)
最後に、データ集約ステップにおいて、前述のソースIPの全ての4つのアクセス経路を集約する。集約図は、図2bに示されている。
中央ドメインの集約は、4つのa.comである。
送信元ドメイン1の集約は、2つのqq.com、1つのbaidu.com、1つのyouku.comである。
送信元ドメイン2の集約は、2つのsina.com、1つのbaidu.com、1つのqq.comである。
送信元ドメイン3の集約は、2つのbaidu.com、1つのsina.com、1つのyouku.comである。
Finally, in the data aggregation step, all four access routes of the above-mentioned source IP are aggregated. The aggregated diagram is shown in FIG. 2b.
Central domain aggregation is four a. com.
The aggregation of
The aggregation of the
The aggregation of the
図2bのような可視化図から明らかなように、中央ドメインa.comにアクセスするユーザは、この前にどのドメインにアクセスしたか、これらのドメインの前にまたどのドメインにアクセスしたか、これによって類推する。
全てのソースIPをこのロジックで処理すると、インターネット全体のトラフィックの送信元と宛先の状況を分かることができる。
As is clear from the visualization diagram as shown in FIG. 2b, the central domain a. The user who accesses com is inferred by which domain was accessed before this, and which domain was accessed before these domains.
By processing all source IPs with this logic, it is possible to know the status of the source and destination of traffic throughout the Internet.
本発明の上記方法により、分析すべき中央ドメイン名に基づいて、そのインターネットトラフィックの送信元と宛先を把握することにより、中央ドメイン名ウェブサイトのトラフィックの分析及び最適化をよりよく支援し、さらに、インターネット全体のトラフィックの流れ状況を完全に了解することにより、全局的観点から分析すると共に他のウェブサイトのトラフィック状況を了解することができ、己を知り彼を知ることを実現する。 The above method of the present invention better assists in analyzing and optimizing the traffic of a central domain name website by knowing the source and destination of its internet traffic based on the central domain name to be analyzed. By fully understanding the traffic flow status of the entire Internet, you can analyze from a holistic perspective and understand the traffic status of other websites, and realize that you know yourself and know him.
以上の記載は、本発明の好ましい実施例に過ぎず、本発明を限定するものではない。本発明の出願特許範囲内の内容に基づいて行われるいかなる同等変化や修飾は、いずれも本発明の技術的範囲内に属するべきである。
The above description is merely a preferred embodiment of the present invention and does not limit the present invention. Any equivalent change or modification made based on the content of the claims of the present invention should belong to the technical scope of the present invention.
Claims (6)
ユーザの実際のアクセス経路を反映できないDNSログをフィルタリングするログフィルタリングステップと、
ソースIPとタイムスタンプの差とに基づいて、ログフィルタリングステップの後に取得したDNSログを順に分割して、分割後のアクセス経路を取得するログ分割ステップと、
を含み、
前記タイムスタンプの差に基づいてログを分割することは、
ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割し、その後、
前記タイムスタンプの差に基づいて分割されたDNSログにおいて、ユーザの実際なアクセス行為で生成するドメイン名リクエストと、それに伴って生成するドメイン名リクエストと、を区別する、
ことを含む、
ことを特徴とするインターネットトラフィックの送信元と宛先の分析方法。 A method of analyzing the source and destination of Internet traffic that processes DNS logs to obtain the source and destination of Internet traffic.
A log filtering step that filters DNS logs that cannot reflect the user's actual access route,
Based on the difference between the source IP and the time stamp, the DNS log acquired after the log filtering step is divided in order, and the log division step to acquire the access route after division, and
Including
Dividing the log based on the difference in the time stamps
The log divided based on the source IP is further divided based on the difference in the time stamps of the DNS logs, and if the difference in the time stamps of the two DNS logs is larger than the length of the predetermined time, the two DNS logs are divided. Divide and then
In the DNS log divided based on the difference in the time stamps, the domain name request generated by the actual access action of the user and the domain name request generated accordingly are distinguished .
Including that
A method of analyzing the sources and destinations of Internet traffic.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610231212.XA CN105704260B (en) | 2016-04-14 | 2016-04-14 | A method for analyzing the source of Internet traffic |
| CN201610231212.X | 2016-04-14 | ||
| PCT/CN2016/095672 WO2017177591A1 (en) | 2016-04-14 | 2016-08-17 | Method for analyzing source and destination of internet traffic |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019514303A JP2019514303A (en) | 2019-05-30 |
| JP7075348B2 true JP7075348B2 (en) | 2022-05-25 |
Family
ID=56216713
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018554481A Active JP7075348B2 (en) | 2016-04-14 | 2016-08-17 | How to analyze the source and destination of Internet traffic |
Country Status (5)
| Country | Link |
|---|---|
| JP (1) | JP7075348B2 (en) |
| CN (1) | CN105704260B (en) |
| GB (1) | GB2564057A (en) |
| RU (1) | RU2702048C1 (en) |
| WO (1) | WO2017177591A1 (en) |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105763633B (en) * | 2016-04-14 | 2019-05-21 | 上海牙木通讯技术有限公司 | A method for associating domain name and website access behavior |
| CN105704260B (en) * | 2016-04-14 | 2019-05-21 | 上海牙木通讯技术有限公司 | A method for analyzing the source of Internet traffic |
| CN107846480B (en) * | 2016-09-19 | 2021-04-20 | 贵州白山云科技股份有限公司 | NXDOMAIN response packet processing method and device |
| CN107707545B (en) * | 2017-09-29 | 2021-06-04 | 深信服科技股份有限公司 | Abnormal webpage access fragment detection method, device, equipment and storage medium |
| CN109150819B (en) * | 2018-01-15 | 2019-06-11 | 北京数安鑫云信息技术有限公司 | An attack identification method and identification system thereof |
| US10834214B2 (en) | 2018-09-04 | 2020-11-10 | At&T Intellectual Property I, L.P. | Separating intended and non-intended browsing traffic in browsing history |
| CN110138684B (en) * | 2019-04-01 | 2022-04-29 | 贵州力创科技发展有限公司 | Traffic monitoring method and system based on DNS log |
| CN111526065A (en) * | 2020-04-13 | 2020-08-11 | 苏宁云计算有限公司 | Website page flow analysis method and system |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105357054A (en) | 2015-11-26 | 2016-02-24 | 上海晶赞科技发展有限公司 | Website traffic analysis method and apparatus, and electronic equipment |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1290853A2 (en) * | 2000-05-26 | 2003-03-12 | Akamai Technologies, Inc. | Global load balancing across mirrored data centers |
| US6934826B2 (en) * | 2002-03-26 | 2005-08-23 | Hewlett-Packard Development Company, L.P. | System and method for dynamically allocating memory and managing memory allocated to logging in a storage area network |
| ATE539542T1 (en) * | 2008-02-11 | 2012-01-15 | Dolby Lab Licensing Corp | DYNAMIC DNS SYSTEM FOR PRIVATE NETWORKS |
| US8380870B2 (en) * | 2009-08-05 | 2013-02-19 | Verisign, Inc. | Method and system for filtering of network traffic |
| RU105758U1 (en) * | 2010-11-23 | 2011-06-20 | Валентина Владимировна Глазкова | ANALYSIS AND FILTRATION SYSTEM FOR INTERNET TRAFFIC BASED ON THE CLASSIFICATION METHODS OF MULTI-DIMENSIONAL DOCUMENTS |
| CN102004883B (en) * | 2010-12-03 | 2012-06-13 | 中国软件与技术服务股份有限公司 | Trace tracking method for electronic files |
| CN105704260B (en) * | 2016-04-14 | 2019-05-21 | 上海牙木通讯技术有限公司 | A method for analyzing the source of Internet traffic |
-
2016
- 2016-04-14 CN CN201610231212.XA patent/CN105704260B/en active Active
- 2016-08-17 GB GB1816212.3A patent/GB2564057A/en not_active Withdrawn
- 2016-08-17 JP JP2018554481A patent/JP7075348B2/en active Active
- 2016-08-17 WO PCT/CN2016/095672 patent/WO2017177591A1/en not_active Ceased
- 2016-08-17 RU RU2018139991A patent/RU2702048C1/en active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105357054A (en) | 2015-11-26 | 2016-02-24 | 上海晶赞科技发展有限公司 | Website traffic analysis method and apparatus, and electronic equipment |
Also Published As
| Publication number | Publication date |
|---|---|
| GB2564057A (en) | 2019-01-02 |
| JP2019514303A (en) | 2019-05-30 |
| CN105704260A (en) | 2016-06-22 |
| RU2702048C1 (en) | 2019-10-03 |
| WO2017177591A1 (en) | 2017-10-19 |
| CN105704260B (en) | 2019-05-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7075348B2 (en) | How to analyze the source and destination of Internet traffic | |
| CN109905288B (en) | Application service classification method and device | |
| EP3275151B1 (en) | Collecting domain name system traffic | |
| JP6397932B2 (en) | A system for identifying machines infected with malware that applies language analysis to network requests from endpoints | |
| CN104113447B (en) | Monitor the method, apparatus and system of domain name mapping pollution | |
| KR101668272B1 (en) | Characterizing unregistered domain names | |
| CN107547671A (en) | A kind of URL matching process and device | |
| CN104038363A (en) | Method for acquiring and counting CCDN provider information | |
| US10462180B1 (en) | System and method for mitigating phishing attacks against a secured computing device | |
| US11411919B2 (en) | Deep packet inspection application classification systems and methods | |
| CN114430382A (en) | Redundancy reduction detection method and device for authoritative domain name server based on passive DNS traffic | |
| JP5770652B2 (en) | Source / destination organization identification apparatus, method and program | |
| Konopa et al. | Using machine learning for DNS over HTTPS detection | |
| JP6703621B2 (en) | How to associate your domain name with website access | |
| CN119835040A (en) | Multi-source log data association analysis method for security service | |
| CN106131069A (en) | A kind of Web method for detecting abnormality and device | |
| CN102546683A (en) | Host computer domain name collecting method and device | |
| JP6170001B2 (en) | Communication service classification device, method and program | |
| JP5600626B2 (en) | Traffic passing route analysis method, program, and apparatus | |
| CN107094147A (en) | NAT recognition methods based on cookieID in a kind of extensive flow | |
| TWI579717B (en) | Dynamic Web site HTTP network packet and database packet auditing system and method | |
| JP5851251B2 (en) | Communication packet storage device | |
| CN117375899A (en) | External network resource access method, device and storage medium | |
| Shu-yue et al. | The study on the preprocessing in web log mining | |
| KR101500704B1 (en) | Method and apparatus for detecting session of vistor |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181011 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190822 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190903 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20191202 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200203 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200616 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200915 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201111 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210511 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210910 |
|
| C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20210910 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20211008 |
|
| C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20211012 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20211105 |
|
| C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20211109 |
|
| C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20211228 |
|
| C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220329 |
|
| C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20220405 |
|
| C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220412 |
|
| C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20220510 |
|
| C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20220510 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220513 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7075348 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |