Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7075348B2 - How to analyze the source and destination of Internet traffic - Google Patents
[go: Go Back, main page]

JP7075348B2 - How to analyze the source and destination of Internet traffic - Google Patents

How to analyze the source and destination of Internet traffic Download PDF

Info

Publication number
JP7075348B2
JP7075348B2 JP2018554481A JP2018554481A JP7075348B2 JP 7075348 B2 JP7075348 B2 JP 7075348B2 JP 2018554481 A JP2018554481 A JP 2018554481A JP 2018554481 A JP2018554481 A JP 2018554481A JP 7075348 B2 JP7075348 B2 JP 7075348B2
Authority
JP
Japan
Prior art keywords
log
dns
source
com
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018554481A
Other languages
Japanese (ja)
Other versions
JP2019514303A (en
Inventor
ダーシュン ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamu Technology Co Ltd
Original Assignee
Yamu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamu Technology Co Ltd filed Critical Yamu Technology Co Ltd
Publication of JP2019514303A publication Critical patent/JP2019514303A/en
Application granted granted Critical
Publication of JP7075348B2 publication Critical patent/JP7075348B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネットDNSドメイン名解決の分野に関し、特にインターネットトラフィックの送信元と宛先の分析方法に関する。 The present invention relates to the field of Internet DNS domain name resolution, and particularly to methods of analyzing sources and destinations of Internet traffic.

いわゆるインターネットトラフィックの送信元と宛先とは、ユーザが先にアクセスしたウェブサイト、その後にアクセスしたウェブサイト等の一連のウェブサイトに対するアクセス経路を指す。如何にウェブサイトのトラフィックの送信元を確認するかについて、業界の主流方式は1種類のみとし、つまり、ウェブサイトのページにJavaScript監視コードを添加することである。最もよく使うのは、google analyticsと百度統計等の第三者検出ツールである。 The source and destination of so-called Internet traffic refer to an access route to a series of websites such as a website accessed first by a user and a website accessed after that. There is only one mainstream method in the industry for how to identify the source of website traffic, that is, to add a Javascript monitoring code to a website page. Most often used are third-party detection tools such as Google analytics and Baidu statistics.

上記統計方法には、大きな限界があり、各ウェブサイトは、ゲストが前回アクセスした1つのウェブサイトだけを知ることができ、該ゲストがこの前にアクセスした複数のウェブサイトを知ることができず、さらに該ゲストが該ウェブサイトから離れてどのウェブサイトにアクセスしていくかを了解することができない。DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングしている分散型データベースであり、ユーザがマシンによって直接に読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。「DNSドメイン名解決技術」とは、ユーザがウェブサイトにアクセスすると、ブラウザにこのウェブサイトのドメイン名を入力する必要があり、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザはこのドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができることである。 The above statistical method has a big limitation, and each website can know only one website that the guest visited last time , and cannot know multiple websites that the guest visited before. Furthermore, it is not possible to understand which website the guest will visit while leaving the website. DNS (Domain Name System) is a distributed database that maps domain names and IP addresses to each other on the Internet, eliminating the need for users to remember IP numbers read directly by the machine. Allows convenient access to the Internet. "DNS domain name resolution technology" means that when a user visits a website, he or she must enter the domain name of this website in the browser, and when he presses the return key, the browser first makes a DNS request. DNS technology allows a browser to obtain a server IP address corresponding to this domain name and then make an HTTP request to this IP address.

DNSログは、毎回のDNSリクエストの応答コンテンツを記録し、ユーザによって要求される全てのドメイン名情報をほとんど記録することができる。しかしながら、ログには、多くの異常及び無効情報が含まれ、例えば、サーバは、DNSリクエストをして大量のドメイン名情報を生成し、ウェブクローラーひいてはネットワーク攻撃は、いずれも大量のDNSリクエストを生成する。これらのリクエストは、ユーザの実際のアクセス経路をリアルかつ効果的に反映できない。 The DNS log can record the response content of each DNS request and almost all the domain name information requested by the user. However, the log contains a lot of anomalous and invalid information, for example, the server makes a DNS request to generate a large amount of domain name information, and the web crawler and thus the network attack both generate a large amount of DNS requests. do. These requests cannot realistically and effectively reflect the user's actual access route.

現在、市場には、インターネットゲストのアクセス経路全体をよく分析できる方法が存在しておらず、本発明は、この不足を補い、DNSログに対する再処理によりウェブサイトのトラフィックがそれぞれどのウェブサイトから由来するのか、離れた後にどのウェブサイトにアクセスしたかを分析する方法である。 Currently, there is no way in the market to analyze the entire access path of Internet guests well, and the present invention makes up for this shortage and reprocesses DNS logs to derive website traffic from each website. It's a way to analyze which websites you visit after you're away.

上記欠陥の存在に鑑みて、本発明は、インターネットトラフィックの送信元と宛先の分析方法を提供し、本発明の方法により、ログ中の非人為的なアクセス行為をできるだけクリアし、インターネットトラフィックの送信元と宛先を効果的に取得することができる。 In view of the existence of the above defects, the present invention provides a method for analyzing the source and destination of Internet traffic, and the method of the present invention clears inhumane access acts in logs as much as possible and transmits Internet traffic. You can effectively get the source and destination.

本発明のインターネットトラフィックの送信元と宛先の分析方法は、DNSログを処理してインターネットトラフィックの送信元と宛先を取得するインターネットトラフィックの送信元と宛先の分析方法であって、ユーザの実際のアクセス経路を反映できないDNSログをフィルタリングするログフィルタリングステップと、ソースIP、タイムスタンプの差及び中央ドメインに基づいて、ログフィルタリングステップの後に取得したDNSログを順に分割して、分割後のアクセス経路を取得するログ分割ステップと、全ての前記分割後のアクセス経路を集約するデータ集約ステップとを含み、前記タイムスタンプの差に基づいてログを分割することは、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割し、その後、
前記タイムスタンプの差に基づいて分割するDNSログに、ユーザの実際なアクセス行為で生成するドメイン名リクエストと、それに伴って生成するドメイン名リクエストを区別する
The method of analyzing the source and destination of Internet traffic of the present invention is a method of analyzing the source and destination of Internet traffic that processes DNS logs to acquire the source and destination of Internet traffic, and is an actual access of a user. The DNS log acquired after the log filtering step is divided in order based on the log filtering step that filters the DNS log that cannot reflect the route and the source IP, the difference in the time stamp, and the central domain, and the access route after the division is acquired. A log splitting step that includes a log splitting step and a data summarizing step that aggregates all the post-split access routes, and splitting the log based on the difference in the time stamps is a split log based on the source IP. Further, if the difference between the time stamps of the two DNS logs is larger than the length of the predetermined time, the two DNS logs are divided, and then the two DNS logs are divided.
In the DNS log divided based on the difference in the time stamps, the domain name request generated by the actual access action of the user and the domain name request generated accordingly are distinguished .

好ましくは、ログフィルタリングステップにおいて、ブラックリスト及びホワイトリストを設定することにより、重視されるドメイン名リクエストを含むDNSログを保留すると共に、サーバによって生成される非人為的なドメイン名リクエストを含むDNSログを除去する。 Preferably, in the log filtering step, by setting blacklists and whitelists, DNS logs containing emphasized domain name requests are held and DNS logs containing inhumane domain name requests generated by the server. To remove.

好ましくは、DNSログを除去することは、さらに、企業IPのアクセスするログの除去及びIPが解決されていないログの除去を含む。 Preferably, removing DNS logs further includes removing logs accessed by the corporate IP and removing logs for which the IP has not been resolved.

好ましくは、ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することである。 Preferably, partitioning the DNS log based on the source IP is to obtain a continuous DNS log of the same source IP over a period of time.

ましくは、前記所定時間の長さは3秒間である。 Preferably , the length of the predetermined time is 3 seconds.

好ましくは、タイムスタンプの差に基づいてDNSログを分割するステップの後に、さ
らに、分割して取得されたアクセス経路中のドメイン名をドメインに変換し、連続的な同
じドメインを併合して、前記ソースIPの経路を取得する併合ステップを含む。
Preferably, after the step of splitting the DNS log based on the difference in time stamps, the domain name in the split-acquired access route is further converted to a domain and the same continuous domain is merged as described above. Includes a merge step to get the route of the source IP.

本発明の分析方法により、インターネットトラフィックの送信元と宛先を把握することが可能であり、ウェブサイトのトラフィックの分析及び最適化をよりよく支援でき、さらに、インターネット全体のトラフィックの流れ状況を全面的に了解することにより、全局的観点から分析すると共に、他のウェブサイトのトラフィック状況を了解することができ、己を知り彼を知ることを実現する。 The analysis method of the present invention makes it possible to understand the source and destination of Internet traffic, better assist in the analysis and optimization of website traffic, and provide a complete view of the traffic flow status of the entire Internet. By understanding, you can analyze from a holistic point of view and understand the traffic situation of other websites, and realize that you know yourself and know him.

図1aは、本発明のインターネットトラフィックの送信元と宛先の分析方法のフローチャートである。FIG. 1a is a flowchart of the source and destination analysis method of the Internet traffic of the present invention. 図1bは、本発明のインターネットトラフィックの送信元と宛先の分析方法のフローチャートである。FIG. 1b is a flowchart of the source and destination analysis method of the Internet traffic of the present invention. 図2aは、本発明のインターネットトラフィックの送信元と宛先の分析方法により取得したトラフィックの送信元の概略図である。FIG. 2a is a schematic diagram of a source of traffic acquired by the method of analyzing the source and destination of Internet traffic of the present invention. 図2bは、本発明のインターネットトラフィックの送信元と宛先の分析方法により取得したトラフィックの送信元の概略図である。FIG. 2b is a schematic diagram of the source of the traffic acquired by the method of analyzing the source and destination of the Internet traffic of the present invention.

以下に、図面及び実施例を参照しながら、発明について詳細に説明する。以下の実施例は、本発明を限定するものではない。発明構想の精神及び範囲から逸脱しない場合、当業者が想到し得る変化及び利点はいずれも本発明に含まれる。 Hereinafter, the invention will be described in detail with reference to the drawings and examples. The following examples are not limited to the present invention. Any changes or advantages that can be conceived by one of ordinary skill in the art, provided that they do not deviate from the spirit and scope of the invention, are included in the invention.

上述したように、DNS(Domain Name System、ドメイン名システム)は、インターネットにおいてドメイン名とIPアドレスとして互いにマッピングしている分散型データベースであり、ユーザがマシンによって直接に読み取られたIP数字列を覚える必要がなく、より便利にインターネットにアクセスすることを可能にする。ユーザがウェブサイトにアクセスすると、まず、ブラウザにこのウェブサイトのドメイン名を入力し、リターンキーを押すと、ブラウザは、まず、DNSリクエストをして、DNS技術により、ブラウザは、このドメイン名に対応するサーバIPアドレスを取得し、その後に、このIPアドレスにHTTPリクエストをすることができる。それは、DNSドメイン名解決技術である。 As mentioned above, DNS (Domain Name System) is a distributed database that maps domain names and IP addresses to each other on the Internet, where users remember IP numbers read directly by the machine. Allows you to access the Internet more conveniently without the need. When the user accesses the website, first enter the domain name of this website in the browser, and when the return key is pressed, the browser first makes a DNS request, and by DNS technology, the browser is sent to this domain name. You can get the corresponding server IP address and then make an HTTP request to this IP address. It is a DNS domain name resolution technique.

上記ドメイン名解決の過程において、DNSログを生成する。DNSログは、毎回のDNSリクエストの応答コンテンツを記録し、ユーザによって要求される全てのドメイン名情報をほとんど記録することができる。DNSログのフォーマットは以下のとおりである。
14.***.***.10|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
即ち、DNSログは、「ソースIP」、「ドメイン名」、「タイムスタンプ」、「解決したIP」及び「状態コード」の5部分の内容を含む。
In the process of resolving the domain name, a DNS log is generated. The DNS log can record the response content of each DNS request and almost all the domain name information requested by the user. The format of the DNS log is as follows.
14. ***. ***. 10 | www. baidu. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
Source IP | Domain Name | Timestamp | Resolved IP | Status Code That is, the DNS log consists of five parts: "Source IP", "Domain Name", "Timestamp", "Resolved IP", and "Status Code". Includes content.

DNSログには、ユーザによって要求される全てのドメイン名情報が含まれるため、本発明者は、DNSログの再処理によりウェブサイトのトラフィックの送信元と宛先を分析することを想到する。しかしながら、DNSログには、多くの異常及び無効情報も含まれ、例えば、サーバは、DNSリクエストをして大量のドメイン名情報を生成し、ウェブクローラーひいてはネットワーク攻撃は、いずれも大量のDNSリクエストを生成する。これらのリクエストは、ユーザの実際のアクセス経路をリアルかつ効果的に反映できない。上記状況に応じて、本発明者は、ログ中の非人為的なアクセス行為をできるだけクリアすることにより、インターネットトラフィックの送信元と宛先を効果的に取得することを想到する。 Since the DNS log contains all the domain name information requested by the user, the inventor conceives to analyze the source and destination of the website traffic by reprocessing the DNS log. However, the DNS log also contains a lot of anomaly and invalid information, for example, the server makes a DNS request to generate a large amount of domain name information, and web crawlers and thus network attacks all make a large amount of DNS requests. Generate. These requests cannot realistically and effectively reflect the user's actual access route. In response to the above situation, the inventor conceives to effectively acquire the source and destination of Internet traffic by clearing as much as possible the inhumane access behavior in the log.

図1は、本発明のインターネットトラフィックの送信元と宛先の分析方法のフローチャートである。図1に示すように、本発明のインターネットトラフィックの送信元と宛先の分析方法は、以下のステップを含む。 FIG. 1 is a flowchart of a method of analyzing a source and a destination of Internet traffic of the present invention. As shown in FIG. 1, the method of analyzing the source and destination of Internet traffic of the present invention includes the following steps.

まず、ユーザの実際のアクセス経路を反映できないDNSログをフィルタリングする(ステップS1)。前述のように、DNSリクエストには、ユーザの実際のアクセス経路をリアルかつ効果的に反映できない多くのドメイン名が含まれるため、クリアする必要がある。例えば、ブラックリスト及びホワイトリストを設定することにより、重視されるドメイン名リクエストを含むDNSログを保留すると共に、サーバによって生成される非人為的なドメイン名リクエストを含むDNSログを除去する。ブラックリストを設定することにより、サーバによって生成される非人為的なドメイン名リクエストを除去することができる。ホワイトリストを設定することにより、重視されるいくつかのドメイン名を保留することができる。ホワイトリストの優先順位は、ブラックリストより高い。また、DNSログを除去することは、さらに、企業IPのアクセスログの除去と、IPが解決されていないログの除去を含む。企業IPを除去するのは、企業IPが多人の同時アクセスログを生成して、個人アクセス経路に対する判断に影響を与えるからである。解決されていないIPを有するログを除去し、即ち、アクセスに失敗したログを除去する。異なる次元によりログをフィルタリングすることにより、ユーザの実際のアクセス経路を反映するDNSログを取得することができる。 First, the DNS log that cannot reflect the actual access route of the user is filtered (step S1). As mentioned above, the DNS request contains many domain names that cannot realistically and effectively reflect the user's actual access route and must be cleared. For example, by setting a blacklist and a whitelist, DNS logs containing important domain name requests are reserved, and DNS logs including inhumane domain name requests generated by the server are removed. By setting a blacklist, you can eliminate inhumane domain name requests generated by the server. By setting a whitelist, you can defer some important domain names. The whitelist has a higher priority than the blacklist. Also, removing DNS logs further includes removing access logs for corporate IPs and removing logs for which IPs have not been resolved. The reason for removing the corporate IP is that the corporate IP generates a simultaneous access log of many people and influences the judgment on the personal access route. Remove logs with unresolved IPs, i.e. remove logs with failed access. By filtering the logs according to different dimensions, it is possible to acquire DNS logs that reflect the actual access route of the user.

次に、ソースIPと、タイムスタンプの差及び中央ドメインに基づいて、ログフィルタリングステップの後に取得したDNSログを順に分割して、分割後のドメインを取得する(ステップS2)。 Next, the DNS log acquired after the log filtering step is sequentially divided based on the source IP, the difference in the time stamp, and the central domain, and the divided domain is acquired (step S2).

詳細のステップは以下のとおりである。
1)ソースIPに基づいて分割する(ステップS21)。ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することである。
例えば、ソースIP1.1.1.1とソースIP2.2.2.2が異なるソースIPであるため、ログを分割する。以下のとおりである。
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
1.1.1.1|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
1.1.1.1|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-----------------------------------------
2.2.2.2|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
2.2.2.2|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
The detailed steps are as follows.
1) Divide based on the source IP (step S21). Splitting a DNS log based on a source IP is to get a continuous DNS log of the same source IP over a period of time.
For example, since the source IP 1.1.1.1 and the source IP 2.2.2.2 are different source IPs, the log is divided. It is as follows.
Source IP | Domain name | Timestamp | Resolved IP | Status code 1.1.1.1 | www. baidu. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
1.1.1.1 | www. qq. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ----------------------------------
2.2.2.2 | www. baidu. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | www. qq. com | 20141211035932 | 180. ***. ***. 107; 180. ***. ***. 108 | 0

2)次に、ソースIPに基づいて分割されたログを、またタイムスタンプの差に基づいて分割する(ステップS22)。タイムスタンプの差に基づく分割は、ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割することである。2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、この2つのDNSログを分割する(分割の原因は、ログの時間間隔が長過ぎると2つの異なる行為であると見なされることである)。該所定時間の長さは、必要に応じて調整することができる。本実施例では、前記所定時間の長さは3秒間であり、即ちタイムスタンプの差が3秒間より大きいと分割される。 2) Next, the log divided based on the source IP is divided again based on the difference in time stamps (step S22). The division based on the time stamp difference is to further divide the log divided based on the source IP based on the time stamp difference of the DNS log. If the difference between the time stamps of the two DNS logs is greater than the length of the given time, then the two DNS logs are split (the cause of the split is considered to be two different actions if the log time interval is too long. That is). The length of the predetermined time can be adjusted as needed. In this embodiment, the predetermined time length is 3 seconds, that is, if the time stamp difference is larger than 3 seconds, it is divided.

例えば、ソースIP2.2.2.2のDNSログを、さらにそのタイムスタンプの差に基づいて分割し、以下のとおりである。(タイムスタンプ20141211035932は、2014年12月11日3時59分32秒を示す)
ソースIP|ドメイン名|タイムスタンプ|解決したIP|状態コード
2.2.2.2|www.baidu.com|20141211000001|180.***.***.107;180.***.***.108|0
2.2.2.2|a.qq.com|20141211000002|180.***.***.107;180.***.***.108|0
2.2.2.2|b.baidu.com|20141211000003|180.***.***.107;180.***.***.108|0
2.2.2.2|c.tanx.com|20141211000004|180.***.***.107;180.***.***.108|0
2.2.2.2|c.allyes.com|20141211000005|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.sina.com|20141211000009|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.qq.com|201412110000015|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.qq.com|201412110000019|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.a.com|201412110000024|180.***.***.107;180.***.***.108|0
---------------------------------------ログ分割線-------------------------------------------
2.2.2.2|www.b.com|201412110000029|180.***.***.107;180.***.***.108|0
For example, the DNS log of the source IP 2.2.2.2 is further divided based on the difference in the time stamps, and is as follows. (Timestamp 20141211035932 indicates 3:59:32 on December 11, 2014)
Source IP | Domain name | Timestamp | Resolved IP | Status code 2.2.2.2 | www. baidu. com | 20141211000001 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | a. qq. com | 20141211000002 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | b. baidu. com | 20141211000003 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | c. tanx. com | 20141211000004 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
2.2.2.2 | c. allies. com | 20141211000005 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. sina. com | 20141211000009 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. qq. com | 201412110000015 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. qq. com | 201412110000019 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. a. com | 201412110000024 | 180. ***. ***. 107; 180. ***. ***. 108 | 0
------------------------------------------------------------------------------------------------------------------------------------------ ------------------------------------
2.2.2.2 | www. b. com | 201412110000029 | 180. ***. ***. 107; 180. ***. ***. 108 | 0

上述したように、タイムスタンプ20141211000005の05秒と20141211000009の09秒の間の差が4秒間(3秒間より大きい)であるため、ログは分割される。20141211000009と201412110000015の間の差が6秒間であるため、分割される。 As mentioned above, the log is split because the difference between 05 seconds of the time stamp 20141211000005 and 09 seconds of 20141211000009 is 4 seconds (greater than 3 seconds). Since the difference between 20141211000009 and 201412110000015 is 6 seconds, it is divided.

上述したように、ログは、合計で6つのセグメントに分割された。第1セグメントのログ中のソースIP:2.2.2.2は、www.baidu.coma.qq.comb.baidu.comc.tanx.comc.allyes.comという5つのドメイン名にアクセスする。ユーザアクセス行為の判断方法により、ユーザが実際にwww.baidu.comのみにアクセスし、残りの4つのドメイン名がユーザによるwww.baidu.comのクリックに伴って生成するドメイン名リクエストであり、ユーザの実際のアクセス行為ではないことを得ることができる。従って、第1セグメントのログから、ユーザがwww.baidu.comというドメイン名にアクセスした経路を得ることができる。ここで言及されたユーザアクセス行為の判断方法は以下のとおりである。あるユーザがurlをクリックすると、現在のurlのドメイン名に加えて、幾つかの他のドメイン名も要求する。クローラー技術により、該urlのドメイン名リクエストをした後の全ての他のドメイン名リクエストを取得し、クロールした一連のドメイン名リクエストとDNSログから分割されたドメイン名セグメントをマッチングして、該DNSログとユーザが実際にアクセスしたドメイン名との対応関係を得ることができる。該方法で得られた対応関係から分かるように、該セグメントのログは、ユーザが実際にwww.baidu.comにアクセスしたことを反映する。第2セグメントのログは、www.sina.comのみを有するため、www.sina.comは、ユーザがアクセスしたドメイン名経路である。 As mentioned above, the log was divided into a total of 6 segments. The source IP: 2.2.2.2 in the log of the first segment can be found at www. baidu. com , a. qq. com , b. baidu. com , c. tanx. com , c. allies. Access 5 domain names called com . Depending on the method of determining the user access act, the user actually visits www. baidu. Only access to com, and the remaining 4 domain names are the user's www. baidu. It is possible to obtain that it is a domain name request generated by clicking com and is not an actual access act of the user. Therefore, from the log of the first segment, the user can use www. baidu. You can get the route to access the domain name com . The method for determining the user access behavior mentioned here is as follows. When a user clicks on a url, they request some other domain names in addition to the current url domain name. By crawler technology, all other domain name requests after making the domain name request of the url are acquired, and the crawled series of domain name requests are matched with the domain name segment divided from the DNS log to match the DNS log. And the domain name actually accessed by the user can be obtained. As can be seen from the correspondence obtained by the method, the log of the segment is actually www. baidu. Reflects that you have accessed com . The log of the second segment is www. sina. Since it has only com, www. sina. com is a domain name route accessed by the user.

以上のログの経路をつなぐと、以下のとおりである。
www.baidu.com>www.sina.com>www.qq.com>www.qq.com>www.a.com>www.b.com
さらに、上記タイムスタンプの差に基づいて分割して取得された経路を同じドメインで併合するが、ここで、セカンドレベルドメインで併合し、併合後の結果は以下のとおりである。
baidu.com>sina.com>qq.com>a.com>b.com
上記経路は、該ソースIPの全てのアクセス行為中の一つの経路であり、このような規則に従って全てのソースIPの全てのアクセス経路を算出することができる。
The above log routes are connected as follows.
www. baidu. com> www. sina. com> www. qq. com> www. qq. com> www. a. com> www. b. com
Further, the routes obtained by dividing based on the difference in the above time stamps are merged in the same domain, but here, they are merged in the second level domain, and the result after the merge is as follows.
baidu. com> sina. com> qq. com> a. com> b. com
The above route is one route in all access actions of the source IP, and all access routes of all source IPs can be calculated according to such a rule.

3)続いて、中央ドメインに基づいて、上記結果をさらに分割する(ステップS23)。中央ドメインは、ユーザ/システムの需要に応じて重点分析すべきドメインであり、即ちユーザがどこから中央ドメインに来たのか、その後に中央ドメインからどのドメインにアクセスしていくのかである。例えば、ログ中のa.comを中央ドメインとすると、以下のとおりである。
baidu.com>sina.com>qq.com>a.com>b.com
下は、前述のソースIPの一例としての4つの経路であり、かつ各経路中の中央ドメインの前3レイヤーの送信元ドメインのみを挙げ、中央ドメイン後の経路の処理ロジックと中央ドメイン前の経路を処理する処理ロジックが一致する。実際のレイヤー数は、具体的な要件に応じて調整することができる。また、図2(a)にも示されている。
送信元ドメイン3>送信元ドメイン2>送信元ドメイン1>中央ドメイン
経路1:baidu.com>sina.com>qq.com>a.com(中央ドメイン)
経路2:sina.com>baidu.com>qq.com>a.com(中央ドメイン)
経路3:youku.com>sina.com>baidu.com>a.com(中央ドメイン)
経路4:baidu.com>qq.com>youku.com>a.com(中央ドメイン)
3) Subsequently, the above result is further divided based on the central domain (step S23). The central domain is the domain that should be focused on according to the demand of the user / system, that is, where the user came from the central domain and then which domain is accessed from the central domain. For example, a. In the log. Assuming that com is the central domain, it is as follows.
baidu. com> sina. com> qq. com> a. com> b. com
The following are four routes as an example of the above-mentioned source IP, and only the source domain of the previous three layers of the central domain in each route is listed, and the processing logic of the route after the central domain and the processing logic before the central domain are listed. The processing logic that processes the route matches. The actual number of layers can be adjusted according to specific requirements. It is also shown in FIG. 2 (a).
Source domain 3> Source domain 2> Source domain 1> Central domain Route 1: baidu. com> sina. com> qq. com> a. com (central domain)
Route 2: sina. com> baidu. com> qq. com> a. com (central domain)
Route 3: youku. com> sina. com> baidu. com> a. com (central domain)
Route 4: baidu. com> qq. com> youku. com> a. com (central domain)

最後に、データ集約ステップにおいて、前述のソースIPの全ての4つのアクセス経路を集約する。集約図は、図2bに示されている。
中央ドメインの集約は、4つのa.comである。
送信元ドメイン1の集約は、2つのqq.com、1つのbaidu.com、1つのyouku.comである。
送信元ドメイン2の集約は、2つのsina.com、1つのbaidu.com、1つのqq.comである。
送信元ドメイン3の集約は、2つのbaidu.com、1つのsina.com、1つのyouku.comである。
Finally, in the data aggregation step, all four access routes of the above-mentioned source IP are aggregated. The aggregated diagram is shown in FIG. 2b.
Central domain aggregation is four a. com.
The aggregation of source domain 1 is two qq. com, one baidu. com, one youku. com.
The aggregation of the source domain 2 is performed by two sina. com, one baidu. com, one qq. com.
The aggregation of the source domain 3 is performed by two baidu. com, one sina. com, one youku. com.

図2bのような可視化図から明らかなように、中央ドメインa.comにアクセスするユーザは、この前にどのドメインにアクセスしたか、これらのドメインの前にまたどのドメインにアクセスしたか、これによって類推する。
全てのソースIPをこのロジックで処理すると、インターネット全体のトラフィックの送信元と宛先の状況を分かることができる。
As is clear from the visualization diagram as shown in FIG. 2b, the central domain a. The user who accesses com is inferred by which domain was accessed before this, and which domain was accessed before these domains.
By processing all source IPs with this logic, it is possible to know the status of the source and destination of traffic throughout the Internet.

本発明の上記方法により、分析すべき中央ドメイン名に基づいて、そのインターネットトラフィックの送信元と宛先を把握することにより、中央ドメイン名ウェブサイトのトラフィックの分析及び最適化をよりよく支援し、さらに、インターネット全体のトラフィックの流れ状況を完全に了解することにより、全局的観点から分析すると共に他のウェブサイトのトラフィック状況を了解することができ、己を知り彼を知ることを実現する。 The above method of the present invention better assists in analyzing and optimizing the traffic of a central domain name website by knowing the source and destination of its internet traffic based on the central domain name to be analyzed. By fully understanding the traffic flow status of the entire Internet, you can analyze from a holistic perspective and understand the traffic status of other websites, and realize that you know yourself and know him.

以上の記載は、本発明の好ましい実施例に過ぎず、本発明を限定するものではない。本発明の出願特許範囲内の内容に基づいて行われるいかなる同等変化や修飾は、いずれも本発明の技術的範囲内に属するべきである。

The above description is merely a preferred embodiment of the present invention and does not limit the present invention. Any equivalent change or modification made based on the content of the claims of the present invention should belong to the technical scope of the present invention.

Claims (6)

DNSログを処理してインターネットトラフィックの送信元と宛先を取得するインターネットトラフィックの送信元と宛先の分析方法であって、
ユーザの実際のアクセス経路を反映できないDNSログをフィルタリングするログフィルタリングステップと、
ソースIPタイムスタンプの差とに基づいて、ログフィルタリングステップの後に取得したDNSログを順に分割して、分割後のアクセス経路を取得するログ分割ステップと、
を含み、
前記タイムスタンプの差に基づいてログを分割することは、
ソースIPに基づいて分割されたログを、さらにDNSログのタイムスタンプの差に基づいて分割し、2つのDNSログのタイムスタンプの差が所定時間の長さよりも大きければ、前記2つのDNSログを分割し、その後、
前記タイムスタンプの差に基づいて分割されたDNSログにおいて、ユーザの実際なアクセス行為で生成するドメイン名リクエストと、それに伴って生成するドメイン名リクエストと、を区別する
ことを含む、
ことを特徴とするインターネットトラフィックの送信元と宛先の分析方法。
A method of analyzing the source and destination of Internet traffic that processes DNS logs to obtain the source and destination of Internet traffic.
A log filtering step that filters DNS logs that cannot reflect the user's actual access route,
Based on the difference between the source IP and the time stamp, the DNS log acquired after the log filtering step is divided in order, and the log division step to acquire the access route after division, and
Including
Dividing the log based on the difference in the time stamps
The log divided based on the source IP is further divided based on the difference in the time stamps of the DNS logs, and if the difference in the time stamps of the two DNS logs is larger than the length of the predetermined time, the two DNS logs are divided. Divide and then
In the DNS log divided based on the difference in the time stamps, the domain name request generated by the actual access action of the user and the domain name request generated accordingly are distinguished .
Including that
A method of analyzing the sources and destinations of Internet traffic.
ログフィルタリングステップにおいて、ブラックリスト及びホワイトリストを設定することにより、重視されるドメイン名リクエストを含むDNSログを保留すると共に、サーバによって生成される非人為的なドメイン名リクエストを含むDNSログを除去することを特徴とする請求項1に記載の分析方法。 By setting blacklists and whitelists in the log filtering step, DNS logs containing critical domain name requests are retained and DNS logs containing inhumane domain name requests generated by the server are removed. The analysis method according to claim 1, wherein the analysis method is characterized by the above. DNSログを除去することは、さらに、企業IPのアクセスするログを除去し、解析したIPがないログを除去することを含むことを特徴とする請求項2に記載の分析方法。 The analysis method according to claim 2, wherein removing the DNS log further includes removing the log accessed by the corporate IP and removing the log having no analyzed IP. ソースIPに基づいてDNSログを分割することは、ある時間内の同じソースIPの連続的なDNSログを取得することであることを特徴とする請求項3に記載の分析方法。 The analysis method according to claim 3, wherein dividing the DNS log based on the source IP is to acquire a continuous DNS log of the same source IP within a certain period of time. 前記所定時間の長さは3秒間であることを特徴とする請求項4に記載の分析方法。 The analysis method according to claim 4, wherein the predetermined time has a length of 3 seconds. タイムスタンプの差に基づいてDNSログを分割するステップの後に、さらに、分割して取得されたアクセス経路中のドメイン名をドメインに変換し、連続的な同じドメインを併合して、前記ソースIPの経路を取得する併合ステップを含むことを特徴とする請求項5に記載の分析方法。 After the step of splitting the DNS log based on the difference in time stamps, the domain name in the access route obtained by splitting is further converted into a domain, and the same continuous domain is merged to obtain the source IP. The analysis method according to claim 5, further comprising a merge step of acquiring a route.
JP2018554481A 2016-04-14 2016-08-17 How to analyze the source and destination of Internet traffic Active JP7075348B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610231212.XA CN105704260B (en) 2016-04-14 2016-04-14 A method for analyzing the source of Internet traffic
CN201610231212.X 2016-04-14
PCT/CN2016/095672 WO2017177591A1 (en) 2016-04-14 2016-08-17 Method for analyzing source and destination of internet traffic

Publications (2)

Publication Number Publication Date
JP2019514303A JP2019514303A (en) 2019-05-30
JP7075348B2 true JP7075348B2 (en) 2022-05-25

Family

ID=56216713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018554481A Active JP7075348B2 (en) 2016-04-14 2016-08-17 How to analyze the source and destination of Internet traffic

Country Status (5)

Country Link
JP (1) JP7075348B2 (en)
CN (1) CN105704260B (en)
GB (1) GB2564057A (en)
RU (1) RU2702048C1 (en)
WO (1) WO2017177591A1 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105763633B (en) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 A method for associating domain name and website access behavior
CN105704260B (en) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 A method for analyzing the source of Internet traffic
CN107846480B (en) * 2016-09-19 2021-04-20 贵州白山云科技股份有限公司 NXDOMAIN response packet processing method and device
CN107707545B (en) * 2017-09-29 2021-06-04 深信服科技股份有限公司 Abnormal webpage access fragment detection method, device, equipment and storage medium
CN109150819B (en) * 2018-01-15 2019-06-11 北京数安鑫云信息技术有限公司 An attack identification method and identification system thereof
US10834214B2 (en) 2018-09-04 2020-11-10 At&T Intellectual Property I, L.P. Separating intended and non-intended browsing traffic in browsing history
CN110138684B (en) * 2019-04-01 2022-04-29 贵州力创科技发展有限公司 Traffic monitoring method and system based on DNS log
CN111526065A (en) * 2020-04-13 2020-08-11 苏宁云计算有限公司 Website page flow analysis method and system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357054A (en) 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 Website traffic analysis method and apparatus, and electronic equipment

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1290853A2 (en) * 2000-05-26 2003-03-12 Akamai Technologies, Inc. Global load balancing across mirrored data centers
US6934826B2 (en) * 2002-03-26 2005-08-23 Hewlett-Packard Development Company, L.P. System and method for dynamically allocating memory and managing memory allocated to logging in a storage area network
ATE539542T1 (en) * 2008-02-11 2012-01-15 Dolby Lab Licensing Corp DYNAMIC DNS SYSTEM FOR PRIVATE NETWORKS
US8380870B2 (en) * 2009-08-05 2013-02-19 Verisign, Inc. Method and system for filtering of network traffic
RU105758U1 (en) * 2010-11-23 2011-06-20 Валентина Владимировна Глазкова ANALYSIS AND FILTRATION SYSTEM FOR INTERNET TRAFFIC BASED ON THE CLASSIFICATION METHODS OF MULTI-DIMENSIONAL DOCUMENTS
CN102004883B (en) * 2010-12-03 2012-06-13 中国软件与技术服务股份有限公司 Trace tracking method for electronic files
CN105704260B (en) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 A method for analyzing the source of Internet traffic

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357054A (en) 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 Website traffic analysis method and apparatus, and electronic equipment

Also Published As

Publication number Publication date
GB2564057A (en) 2019-01-02
JP2019514303A (en) 2019-05-30
CN105704260A (en) 2016-06-22
RU2702048C1 (en) 2019-10-03
WO2017177591A1 (en) 2017-10-19
CN105704260B (en) 2019-05-21

Similar Documents

Publication Publication Date Title
JP7075348B2 (en) How to analyze the source and destination of Internet traffic
CN109905288B (en) Application service classification method and device
EP3275151B1 (en) Collecting domain name system traffic
JP6397932B2 (en) A system for identifying machines infected with malware that applies language analysis to network requests from endpoints
CN104113447B (en) Monitor the method, apparatus and system of domain name mapping pollution
KR101668272B1 (en) Characterizing unregistered domain names
CN107547671A (en) A kind of URL matching process and device
CN104038363A (en) Method for acquiring and counting CCDN provider information
US10462180B1 (en) System and method for mitigating phishing attacks against a secured computing device
US11411919B2 (en) Deep packet inspection application classification systems and methods
CN114430382A (en) Redundancy reduction detection method and device for authoritative domain name server based on passive DNS traffic
JP5770652B2 (en) Source / destination organization identification apparatus, method and program
Konopa et al. Using machine learning for DNS over HTTPS detection
JP6703621B2 (en) How to associate your domain name with website access
CN119835040A (en) Multi-source log data association analysis method for security service
CN106131069A (en) A kind of Web method for detecting abnormality and device
CN102546683A (en) Host computer domain name collecting method and device
JP6170001B2 (en) Communication service classification device, method and program
JP5600626B2 (en) Traffic passing route analysis method, program, and apparatus
CN107094147A (en) NAT recognition methods based on cookieID in a kind of extensive flow
TWI579717B (en) Dynamic Web site HTTP network packet and database packet auditing system and method
JP5851251B2 (en) Communication packet storage device
CN117375899A (en) External network resource access method, device and storage medium
Shu-yue et al. The study on the preprocessing in web log mining
KR101500704B1 (en) Method and apparatus for detecting session of vistor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200616

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201111

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210910

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210910

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211008

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211012

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20211105

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20211109

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20211228

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220329

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220405

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220412

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220510

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220513

R150 Certificate of patent or registration of utility model

Ref document number: 7075348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250