PythonでWebから自動でデータ抜き出す凄技の肝 URLの一覧を渡されたら一体どうしたらいいか

印刷
A
A
無茶ぶりにもスマートに対応できます(写真:Funtap/PIXTA)
全3回に渡ってPythonを使った業務効率化の方法をご紹介する連載第2回。伊沢剛著『超速Python仕事術大全』 より、自動でWeb ページから情報を抜き出してExcel に書き出すプログラムを紹介します。
前回:Pythonで不統一なExcelファイル繋ぐワザの神髄(1月18日配信)

Webページから自動で情報を抜き出す

集めたい情報がいくつかある場合、Webブラウザから該当するWebページを検索し、Webページが開いたらそこから欲しい情報を探してコピーし別の資料にペーストして・・・を繰り返すのは面倒です。そんな時Pythonを使えば、ExcelファイルにURLをまとめておくだけで、以下のように抜き出したい項目を一気に収集できます。

例えば、複数の書籍の「タイトル」「著者」「価格」「ページ数」の情報を集めたいとします。

①まずは以下のように、「書籍リスト.xlsx」というExcelファイルを用意します。

Excelファイルの内容は、1行目がヘッダ行で「URL」「タイトル」「著者」「価格」「ページ数」をA列から順に記入しておきます。A列の2行目以降には収集したいWeb ページのURL を記入します。

②その後、Pythonプログラムを実行します。

③プログラム実行して再び「書籍リスト.xlsx」を開いてみると、必要なデータが入力されています。

ただし、プログラム実行中に「書籍リスト.xlsx」を開いているとエラーになるので注意が必要です。

このようにWebからデータを自動的に収集することをスクレイピングといいます。

次ページプログラムを見てみよう
関連記事
トピックボードAD
キャリア・教育の人気記事
トレンドライブラリーAD
連載一覧
連載一覧はこちら
人気の動画
トヨタ国内販売幹部が交代、増える受注残に危機感
トヨタ国内販売幹部が交代、増える受注残に危機感
ニトリ、家具の王者が「家電攻略」に動き出す必然
ニトリ、家具の王者が「家電攻略」に動き出す必然
パナソニック「指定価格」導入に揺れる家電量販店
パナソニック「指定価格」導入に揺れる家電量販店
「カップ麺の牛乳戻し」、子どもの食生活が危機的だ
「カップ麺の牛乳戻し」、子どもの食生活が危機的だ
アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
  • シェア
会員記事アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
トレンドウォッチAD
東洋経済education×ICT