Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
phpによるスクレイピング処理入門:2. 基本的な考え方
[go: Go Back, main page]

2. 基本的な考え方

スクレイピングの基本的な考え方は下記の図のようになります。

図1. スクレイピングの基本概念図
図1. スクレイピングの基本概念図

上記の図を用いて一般的な概念を説明します。クライアントPCからスクレイピング処理サーバ(いまから皆さんが作成するサイト)に何らかの要求をします(例えばはてなブックマークのトップページ情報を取得してなど)。
スクレイピングサーバ上にあるプログラム(今から皆さんが作成するプログラム)はその要求を受け、はてなブックマークのトップページの情報を取得します。
スクレイピングサーバにて取得した情報はスクレイピングサーバ上のプログラム(今から皆さんが作成するプログラム)により、必要な情報を抜き出し、目的とする形式に加工し、その結果をHTMLファイルなどでクライアントに返します。

この一連の流れを実施するためには、「外部のサーバの情報(スクレイピングの対象となるサイト)を取得する」というプログラムと「取得した情報を加工して、結果を表示する」という二つの処理が少なくとも必要になります。
なので、これから解説するのはスクレイピング処理用Webサーバ上で動作するプログラミングについてのお話になります。