PythonでWebから自動でデータ抜き出す凄技の肝 URLの一覧を渡されたら一体どうしたらいいか

拡大
縮小
無茶ぶりにもスマートに対応できます(写真:Funtap/PIXTA)
全3回に渡ってPythonを使った業務効率化の方法をご紹介する連載第2回。伊沢剛著『超速Python仕事術大全』 より、自動でWeb ページから情報を抜き出してExcel に書き出すプログラムを紹介します。
前回:Pythonで不統一なExcelファイル繋ぐワザの神髄(1月18日配信)

Webページから自動で情報を抜き出す

集めたい情報がいくつかある場合、Webブラウザから該当するWebページを検索し、Webページが開いたらそこから欲しい情報を探してコピーし別の資料にペーストして・・・を繰り返すのは面倒です。そんな時Pythonを使えば、ExcelファイルにURLをまとめておくだけで、以下のように抜き出したい項目を一気に収集できます。

例えば、複数の書籍の「タイトル」「著者」「価格」「ページ数」の情報を集めたいとします。

①まずは以下のように、「書籍リスト.xlsx」というExcelファイルを用意します。

Excelファイルの内容は、1行目がヘッダ行で「URL」「タイトル」「著者」「価格」「ページ数」をA列から順に記入しておきます。A列の2行目以降には収集したいWeb ページのURL を記入します。

②その後、Pythonプログラムを実行します。

③プログラム実行して再び「書籍リスト.xlsx」を開いてみると、必要なデータが入力されています。

ただし、プログラム実行中に「書籍リスト.xlsx」を開いているとエラーになるので注意が必要です。

このようにWebからデータを自動的に収集することをスクレイピングといいます。

次ページプログラムを見てみよう
関連記事
トピックボードAD
キャリア・教育の人気記事
トレンドライブラリーAD
連載一覧
連載一覧はこちら
人気の動画
日本の「パワー半導体」に一石投じる新会社の誕生
日本の「パワー半導体」に一石投じる新会社の誕生
TSUTAYAも大量閉店、CCCに起きている地殻変動
TSUTAYAも大量閉店、CCCに起きている地殻変動
【田内学×後藤達也】新興国化する日本、プロの「新NISA」観
【田内学×後藤達也】新興国化する日本、プロの「新NISA」観
【浪人で人生変わった】30歳から東大受験・浪人で逆転合格!その壮絶半生から得た学び
【浪人で人生変わった】30歳から東大受験・浪人で逆転合格!その壮絶半生から得た学び
アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
  • シェア
会員記事アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
トレンドウォッチAD
東洋経済education×ICT