JP7320866B2 - マルチドメインからデータを収集する方法、装置及びコンピュータプログラム - Google Patents
マルチドメインからデータを収集する方法、装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7320866B2 JP7320866B2 JP2021546246A JP2021546246A JP7320866B2 JP 7320866 B2 JP7320866 B2 JP 7320866B2 JP 2021546246 A JP2021546246 A JP 2021546246A JP 2021546246 A JP2021546246 A JP 2021546246A JP 7320866 B2 JP7320866 B2 JP 7320866B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- domain
- network
- collected
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (6)
- データ収集装置がデータを収集する方法であって、
一般のウェブブラウザではアクセスすることができず、予め設定された特定のソフトウェアを用いてアクセスすることができ、ネットワークのルーティング機能を果たすネットワークノードを少なくとも1つランダムに接続することでチャンネルが形成されるネットワークに属するダークウェブサイトから分散クローラを用いてデータを収集するステップAと、
収集されたデータを予め設定されたフォーマットに定型化し、収集されたデータに対するメタデータを生成するステップBと、を含み、
前記ステップAが、
前記ネットワークのドメイン情報を収集するステップと、
収集されたドメインの変更有無を確認し、一番最近の登録が確認されたドメインから優先して前記分散クローラに割り当てるステップと、
前記ルーティング機能を果たすネットワークノードを複数運用し、前記分散クローラの要求を複数の前記ネットワークノードで処理し、任意のドメインに該当するダークウェブからデータを収集するステップと、を含むことを特徴とする、データ収集方法。 - データ収集装置がデータを収集する方法であって、
一般のウェブブラウザではアクセスすることができず、予め設定された特定のソフトウェアを用いてアクセスすることができ、ネットワークのルーティング機能を果たすネットワークノードを少なくとも1つランダムに接続することでチャンネルが形成されるネットワークに属するダークウェブサイトから分散クローラを用いてデータを収集するステップAと、
収集されたデータを予め設定されたフォーマットに定型化し、収集されたデータに対するメタデータを生成するステップBと、を含み、
前記ステップAが、
前記ネットワークのドメイン情報を収集するステップと、
収集されたドメインの変更有無を確認し、一番最近の登録が確認されたドメインから優先して前記分散クローラに割り当てるステップと、
前記ルーティング機能を果たすネットワークノードを複数運用し、前記分散クローラの要求を複数の前記ネットワークノードで処理し、任意のドメインに該当するダークウェブからデータを収集するステップと、を含み、
知識ベースのグラフを作成し、定型化されたデータ及び前記メタデータに基づいて、前記知識ベースのグラフを更新し、知識ベースのグラフに基づいて犯罪を追跡するステップCを含むことを特徴とする、データ収集方法。 - データ収集装置がデータを収集する方法であって、
一般のウェブブラウザではアクセスすることができず、予め設定された特定のソフトウェアを用いてアクセスすることができ、ネットワークのルーティング機能を果たすネットワークノードを少なくとも1つランダムに接続することでチャンネルが形成されるネットワークに属するダークウェブサイトから分散クローラを用いてデータを収集するステップAと、
収集されたデータを予め設定されたフォーマットに定型化し、収集されたデータに対するメタデータを生成するステップBと、を含み、
前記ステップAが、
前記ネットワークのドメイン情報を収集するステップと、
収集されたドメインの変更有無を確認し、一番最近の登録が確認されたドメインから優先して前記分散クローラに割り当てるステップと、
前記ルーティング機能を果たすネットワークノードを複数運用し、前記分散クローラの要求を複数の前記ネットワークノードで処理し、任意のドメインに該当するダークウェブからデータを収集するステップと、を含み、
前記ステップAの前に、
悪意のあるコードに対する信頼性の高い情報が記録された、一般のウェブ環境下でアクセス可能なデータソースのリストを作成するステップと、
前記データソースのリストに該当するウェブページに存在するURLリンクをクロールし、ネットワークまたはデバイスのオペレーティングシステムにおいて悪意のあるコード攻撃の指標として活用される第1のシードデータを収集するステップと、
前記データソースから収集したドメインにマッピングされるIPアドレスをモニターするか、あるいは前記第1のシードデータに含まれているドメイン情報またはIPアドレス情報をモニターし、Command&Control(C&C)インフラストラクチャを有する悪意のあるコードを制御するサーバのDNS情報に対する第2のシードデータを収集するステップと、
前記第1のシードデータ及び前記第2のシードデータから取得したドメイン情報または新しいIPアドレス情報を結合して特定の悪意のあるコードにアクセスするためのURLパスを少なくとも1つ作成し、悪意のあるコードのバイナリデータを収集するステップと、を含むことを特徴とする、データ収集方法。 - 前記分散クローラに割り当てるステップが、
予め設定された周期で収集されたドメインアドレスの閉鎖、運営、及び/または変更有無に対する状態情報を収集し、前記状態情報を、前記収集されたドメインアドレスに対するメタデータとして生成するステップと、
前記状態情報から一番最近の登録が確認されたドメインから優先して前記分散クローラに割り当てるステップと、を含むことを特徴とする、請求項3に記載のデータ収集方法。 - 前記分散クローラに割り当てるステップが、
前記分散クローラを構成するクローラインスタンスのうち、クロールを完了したクローラインスタンスに、次にクロールするドメインを割り当てるステップを含むことを特徴とする、請求項4に記載のデータ収集方法。 - 前記分散クローラに割り当てるステップが、
少なくとも1つのトーアノードコンテナを構成し、前記コンテナに複数のネットワークカードを設定するステップと、
前記コンテナのそれぞれに複数のトーアノードクライアントを実行し、前記トーアノードクライアントにウェブプロキシ機能及びロードバランシング機能を提供するステップと、
前記ロードバランシング機能及びウェブプロキシ機能を介して、前記分散クローラの動作に応じて発生する大量のダークウェブトラフィックを前記トーアノードクライアントに割り当てるステップと、を含むことを特徴とする、請求項5に記載のデータ収集方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020190019087 | 2019-02-19 | ||
| KR10-2019-0019087 | 2019-02-19 | ||
| PCT/KR2020/001382 WO2020171410A1 (ko) | 2019-02-19 | 2020-01-30 | 멀티 도메인에서 데이터를 수집하는 방법, 장치 및 컴퓨터 프로그램 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022520360A JP2022520360A (ja) | 2022-03-30 |
| JP7320866B2 true JP7320866B2 (ja) | 2023-08-04 |
Family
ID=72144118
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021546246A Active JP7320866B2 (ja) | 2019-02-19 | 2020-01-30 | マルチドメインからデータを収集する方法、装置及びコンピュータプログラム |
Country Status (4)
| Country | Link |
|---|---|
| US (3) | US11790016B2 (ja) |
| JP (1) | JP7320866B2 (ja) |
| CN (1) | CN113454621A (ja) |
| WO (1) | WO2020171410A1 (ja) |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11902242B1 (en) * | 2020-12-21 | 2024-02-13 | United Services Automobile Association (Usaa) | Nonexistant domain forwarding in authoritative zones |
| JP7460564B2 (ja) * | 2021-02-16 | 2024-04-02 | Kddi株式会社 | コンテナ環境構築システム、方法およびプログラム |
| US11983161B2 (en) * | 2021-06-23 | 2024-05-14 | Bank Of America Corporation | System for mitigating data loss in an edge computing environment using machine learning and distributed ledger techniques |
| CN114039782B (zh) * | 2021-11-10 | 2022-10-14 | 深圳安巽科技有限公司 | 一种暗网监控方法、系统及存储介质 |
| CN114756837B (zh) * | 2022-06-16 | 2022-08-30 | 湖北长江传媒数字出版有限公司 | 一种基于区块链的数字内容溯源方法及系统 |
| AU2023299109A1 (en) * | 2022-06-30 | 2025-02-06 | Booz Allen Hamilton Inc. | System and method for network penetration testing |
| CN115632785B (zh) * | 2022-09-08 | 2024-11-08 | 云南电网有限责任公司 | 一种基于洋葱网络的分布式控制器集群的方法及装置 |
| CN118364351B (zh) * | 2024-04-15 | 2024-10-25 | 江苏全天软件有限公司 | 一种基于区块链网络的交互数据处理方法及系统 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009507268A (ja) | 2005-07-01 | 2009-02-19 | マークモニター インコーポレイテッド | 改良された不正行為監視システム |
| US20110087646A1 (en) | 2009-10-08 | 2011-04-14 | Nilesh Dalvi | Method and System for Form-Filling Crawl and Associating Rich Keywords |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20150213131A1 (en) * | 2004-10-29 | 2015-07-30 | Go Daddy Operating Company, LLC | Domain name searching with reputation rating |
| US8566928B2 (en) * | 2005-10-27 | 2013-10-22 | Georgia Tech Research Corporation | Method and system for detecting and responding to attacking networks |
| KR100875636B1 (ko) | 2007-09-19 | 2008-12-26 | 한국과학기술정보연구원 | 그리드 컴퓨팅 기반 웹 크롤러 시스템 및 그 방법 |
| US20090204610A1 (en) * | 2008-02-11 | 2009-08-13 | Hellstrom Benjamin J | Deep web miner |
| US8713676B2 (en) * | 2010-05-13 | 2014-04-29 | Verisign, Inc. | Systems and methods for identifying malicious domains using internet-wide DNS lookup patterns |
| CN104796416A (zh) * | 2015-04-08 | 2015-07-22 | 中国科学院信息工程研究所 | 一种僵尸网络的模拟方法及系统 |
| US10044736B1 (en) * | 2015-09-21 | 2018-08-07 | ThreatConnect, Inc. | Methods and apparatus for identifying and characterizing computer network infrastructure involved in malicious activity |
| US11218510B2 (en) * | 2015-10-28 | 2022-01-04 | Qomplx, Inc. | Advanced cybersecurity threat mitigation using software supply chain analysis |
| US11570188B2 (en) * | 2015-12-28 | 2023-01-31 | Sixgill Ltd. | Dark web monitoring, analysis and alert system and method |
| KR101803225B1 (ko) | 2017-02-03 | 2017-12-28 | 국방과학연구소 | 멀티 서버, 멀티도커 기반 고속 악성 웹사이트 탐지 시스템 및 방법 |
| US10496994B2 (en) * | 2017-03-31 | 2019-12-03 | Ca, Inc. | Enhanced authentication with dark web analytics |
| CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫系统及信息爬取的方法 |
| US11102244B1 (en) * | 2017-06-07 | 2021-08-24 | Agari Data, Inc. | Automated intelligence gathering |
| US10862907B1 (en) * | 2017-08-07 | 2020-12-08 | RiskIQ, Inc. | Techniques for detecting domain threats |
| CN107808000B (zh) * | 2017-11-13 | 2020-05-22 | 哈尔滨工业大学(威海) | 一种暗网数据采集与抽取系统及方法 |
| KR101852107B1 (ko) | 2017-11-22 | 2018-04-25 | (주)유니스소프트 | 다크웹 범죄정보 분석 시스템 및 그 방법 |
| US11201881B2 (en) * | 2018-10-31 | 2021-12-14 | Hewlett Packard Enterprise Development Lp | Behavioral profiling of service access using intent to access in discovery protocols |
| US11985101B2 (en) * | 2019-01-18 | 2024-05-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method, apparatus, electronic message server and computer program for processing a plurality of electronic messages |
| US11222083B2 (en) * | 2019-08-07 | 2022-01-11 | International Business Machines Corporation | Web crawler platform |
| KR102257139B1 (ko) * | 2020-12-18 | 2021-05-27 | 한국인터넷진흥원 | 다크웹 정보 수집 방법 및 장치 |
| CN115865427B (zh) * | 2022-11-14 | 2023-07-21 | 重庆伏特猫科技有限公司 | 一种基于数据路由网关的数据采集与监控方法 |
-
2020
- 2020-01-30 US US17/431,697 patent/US11790016B2/en active Active
- 2020-01-30 JP JP2021546246A patent/JP7320866B2/ja active Active
- 2020-01-30 WO PCT/KR2020/001382 patent/WO2020171410A1/ko not_active Ceased
- 2020-01-30 CN CN202080015599.XA patent/CN113454621A/zh not_active Withdrawn
-
2023
- 2023-10-13 US US18/380,065 patent/US12380172B2/en active Active
-
2025
- 2025-07-09 US US19/264,054 patent/US20250335518A1/en active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009507268A (ja) | 2005-07-01 | 2009-02-19 | マークモニター インコーポレイテッド | 改良された不正行為監視システム |
| US20110087646A1 (en) | 2009-10-08 | 2011-04-14 | Nilesh Dalvi | Method and System for Form-Filling Crawl and Associating Rich Keywords |
Non-Patent Citations (2)
| Title |
|---|
| 小野 諒人,HSDirのSnoopingと秘匿サービスへのスキャンを組み合わせたダークウェブ分析システム,情報処理学会 研究報告 セキュリティ心理学とトラスト(SPT) [online],日本,情報処理学会,2018年02月28日,2018-SPT-027,pp.1-6 |
| 川口 雄己,匿名ネットワークTorにおけるマーケット商品とセキュリティ事件との関連性に関する考察,コンピュータセキュリティシンポジウム2017 論文集 [CD-ROM],日本,情報処理学会,2017年10月16日,第2017巻,第2号,pp.405-411 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022520360A (ja) | 2022-03-30 |
| US20220138271A1 (en) | 2022-05-05 |
| WO2020171410A1 (ko) | 2020-08-27 |
| US20250335518A1 (en) | 2025-10-30 |
| US20240061893A1 (en) | 2024-02-22 |
| CN113454621A (zh) | 2021-09-28 |
| US11790016B2 (en) | 2023-10-17 |
| US12380172B2 (en) | 2025-08-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7320866B2 (ja) | マルチドメインからデータを収集する方法、装置及びコンピュータプログラム | |
| JP7340286B2 (ja) | 知識グラフを用いてサイバーセキュリティを提供する方法、装置及びコンピュータプログラム | |
| US12495076B2 (en) | System and method for internet activity and health forecasting and internet noise analysis | |
| US11968239B2 (en) | System and method for detection and mitigation of data source compromises in adversarial information environments | |
| Sanchez-Rola et al. | Journey to the center of the cookie ecosystem: Unraveling actors' roles and relationships | |
| KR102147167B1 (ko) | 멀티 도메인에서 데이터를 수집하는 방법, 장치 및 컴퓨터 프로그램 | |
| Yu et al. | METAseen: analyzing network traffic and privacy policies in Web 3.0 based Metaverse | |
| Taloba et al. | Prediction of data threats over web medium using advanced blockchain based information security with crypto strategies | |
| Smyrlis et al. | RAMA: a risk assessment solution for healthcare organizations | |
| Bergman et al. | Recognition of tor malware and onion services | |
| Liu et al. | A research and analysis method of open source threat intelligence data | |
| Vlachos et al. | The SAINT observatory subsystem: an open-source intelligence tool for uncovering cybersecurity threats | |
| Guo et al. | Active probing-based schemes and data analytics for investigating malicious fast-flux web-cloaking based domains | |
| Sonthi et al. | Imminent threat with authentication methods for AI data using blockchain security | |
| Jayanetti et al. | Robots still outnumber humans in web archives in 2019, but less than in 2015 and 2012 | |
| Aghamohammadi | A novel defense mechanism against web crawler intrusion | |
| Swarnkar et al. | Security issues and challenges in big data analytics in distributed environment | |
| Godtliebsen | Product tracing in the Norwegian fishing industry supply chain utilizing GoQuorum blockchain and smart contracts | |
| Barredo-Valenzuela et al. | Snorkeling in dark waters: A longitudinal surface exploration of unique Tor Hidden Services (Extended Version) | |
| Ferla | Enhancing Cloud Based Web Application Firewall with Machine Learning models for Bot Detection and HTTP Traffic Classification | |
| Brunstein | Automatic web crawler for malicious websites classification | |
| KR102304138B1 (ko) | 웹 사이트 이용 기록 관리 시스템 | |
| Chen et al. | A Practical Blockchain Framework for Securing IoT Applications | |
| Cabaj et al. | Strategies to Use Harvesters in Trustworthy Fake News Detection Systems | |
| Bollikonda et al. | Siamese convolutional resnext and graph model-based profiling for dark webpage fingerprinting and adversary prediction |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210902 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221104 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221115 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230213 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230412 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230704 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230718 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7320866 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |