PythonでWebから自動でデータ抜き出す凄技の肝 URLの一覧を渡されたら一体どうしたらいいか

伊沢剛 : ITストラテジスト教育系Youtuber

2022/01/25 15:00

著者フォロー

フォローした著者の最新記事が公開されると、メールでお知らせします。
無料会員登録はこちら
はこちら

連続取得時は1秒空ける

27行目、forループの最後に書いてある「time.sleep(1)」という記述が気になった方もいるかもしれません。これは、プログラムの処理を1秒間止めるための関数です。

『Excel、データ整理＆分析、画像処理の自動化ワザを完全網羅！超速Python仕事術大全』（宝島社）。書影をクリックするとアマゾンのサイトにジャンプします。紙版はこちら、電子版はこちら（本書では今回紹介したサンプルプログラムだけでなく、HTMLの調べ方についても説明しています）

もともとWeb サーバー（Web ページを公開しているコンピューター）は、人間がWebページを見る速さを想定しています。そのため、スクレイピングで大量のデータを連続して取得すると、Webサーバーの負荷が高まって、最悪の場合、停止してしまうこともあるのです。そのため、繰り返し処理で取得するときは、1秒間程度空けたほうがいいとされています。

スクレイピングのやりすぎでWebサーバーに負荷を掛け過ぎると、アクセス禁止になることもあるので注意してください。

今回は書籍データである「書名」「著者」「価格」「ページ数」を探しましたが、実際に使用する際は、目的に応じて「書籍リスト.xlsx」やサンプルプログラムの該当する箇所を変更して使うといいでしょう

ただし、このようにスクレイピングをするにはHTML（HyperText Markup Language）の知識が必要となります。HTMLとはWebページを記述するための言語で、テキストの所々にタグという記号を埋め込んで、表やリストを記述したり、画像や動画、音声などをページに埋め込んだりします。

例えばサンプルプログラムの14行目には「"h1", {"class": "book-title"}」という記述がありますが、これは今回使用したWebサイトで、書籍名を示すh1タグ内のclass属性（クラス名を指定するもの）が「class="book-title"」となっているためです。

さて、最終回である次回は、問い合わせフォームなどから送られたデータの集計を支援するプログラムを紹介します。

前回：｢Python｣不統一なExcelファイル繋ぐワザの神髄（1月18日配信）

著者フォローすると、伊沢剛さんの最新記事をメールでお知らせします。

伊沢剛 ITストラテジスト教育系Youtuber

著者フォロー

フォローした著者の最新記事が公開されると、メールでお知らせします。
無料会員登録はこちら
はこちら

著者をフォローすると、最新記事をメールでお知らせします。右上のボタンからフォローください。

いざわたけし / Takeshi Izawa

穴吹情報デザイン専門学校（広島県福山市）教務部勤務。情報系学科でプログラミング、人工知能関連の科目を担当。2020年11月で創業40周年を迎える洋菓子専門店プチフール（鳥取県米子市）取締役

この著者の記事一覧はこちら

← 1 2 3 4

特集一覧

決定版ベスト弁護士2025

防衛産業の熱波

どこへ？高市政権

商社大異変

特集一覧はこちら

トピックボードAD

有料会員限定記事

抜かずの宝刀を発動､東邦相互銀処理に預金保険

アメリカは｢助けを必要とする者｣を下に見ている

日本人が知らない｢AIがもたらす医療変革｣の衝撃

決定版！｢ベスト弁護士2025｣いま注目の22人

メタがAI｢超知能ラボ｣で600人も削減する理由

ハイアットCEO｢ラグジュアリー温泉旅館｣の勝算

キャリア・教育の人気記事

トレンドライブラリーAD

連載一覧

連載一覧はこちら

キャリア・教育
アクセスランキング

1時間
24時間
週間
月間
シェア

※過去1ヶ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※過去1ヵ月以内の記事が対象

» 11～30位はこちら

※週間いいねとシェアの合計(増分)

» 11～30位はこちら

会員記事アクセスランキング

1時間
24時間
週間
月間

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

※過去1ヵ月以内の会員記事が対象

» 11～20位はこちら

トレンドウォッチAD

週刊東洋経済の最新号

2025年11月8日号

この号を読む定期購読

バックナンバー一覧はこちら

東洋経済の書籍

新刊
ランキング

※3カ月以内に発刊した書籍の中から話題の書籍を紹介しています。