shinoblog-manabu

Progate(プロゲート)を使って初歩の初歩からプログラミング勉強をはじめました。無料から有料バージョンへ以降しつつ、自分辞書として活用しています。なるべく私と同じ初心者目線を使い、各プログラミング内容を説明したいです。

【python】クローリング・スクレイピングとは【基本的な概念をおぼえる】

クローリングとスクレイピング

 

クローリングとは・・・

クローラーがインターネット上の情報を収集すること

 

 

 

ではスクレイピングって何?

クローラーが集めた情報から必要なデータを抽出すること

 

 

クローラーの利便性を考える

  • 必要な情報のみを抽出するので効率的
  • ビジネスにおいて有益な関連情報を集めることができる
  • 特定のキーワードを目的別に検索することができる
  • 時間短縮

 

 

 

クローリング・スクレイピングの注意点

  • 各サイトに準拠したクローリング・スクレイピングが必要
  • robots.txt/robotsメタタグのアクセス制限内容を確認し制限にそった行動をとる
  • サーバー負荷対策
  • クロール時のアクセス制限・アクセス禁止事項に抵触していた場合、クロールを即停止・削除する

 

 

 

収集したデータをどうするのか?を考える

  • 収集したデータの著作権を守ることが大前提
  • ウエブサイトの利用規約APIなどの利用規約に注意し、提供する
  • ウエブ公開の際には、先方に公開の確認・同意を得る

 

 

 

 

今回は以上になります。お疲れ様でした。