【python】クローリング・スクレイピングとは【基本的な概念をおぼえる】
クローリングとスクレイピング
クローリングとは・・・
クローラーがインターネット上の情報を収集すること
ではスクレイピングって何?
クローラーが集めた情報から必要なデータを抽出すること
クローラーの利便性を考える
- 必要な情報のみを抽出するので効率的
- ビジネスにおいて有益な関連情報を集めることができる
- 特定のキーワードを目的別に検索することができる
- 時間短縮
クローリング・スクレイピングの注意点
- 各サイトに準拠したクローリング・スクレイピングが必要
- robots.txt/robotsメタタグのアクセス制限内容を確認し制限にそった行動をとる
- サーバー負荷対策
- クロール時のアクセス制限・アクセス禁止事項に抵触していた場合、クロールを即停止・削除する
収集したデータをどうするのか?を考える
今回は以上になります。お疲れ様でした。