PythonでWebから自動でデータ抜き出す凄技の肝 URLの一覧を渡されたら一体どうしたらいいか

拡大
縮小

それではプログラムを見てみましょう。

なお、本プログラムはPython実行環境としてAnaconda(アナコンダ)の使用を前提としています。Anacondaは https://www.anaconda.com/products/individual からインストール可能です。

プログラムの内容は、pandas(Pythonのライブラリのひとつ)によるExcel ファイルの操作と、requests+ BeautifulSoupという機能を使ったスクレイピングの合わせ技です。

07行目のread_excel関数で「書籍リスト.xlsx」を読み込み、for 文とiterrows メソッドで1行ずつの繰り返し処理を行います。

繰り返し処理内の10~20行目では、Excelファイルから取得したURLをもとにrequests.get().textでHTMLを取得し、BeautifulSoupに渡します。あとはfindメソッドで「書名」「著者」「価格」「ページ数」を探します。

次ページここから一工夫
関連記事
トピックボードAD
キャリア・教育の人気記事
トレンドライブラリーAD
連載一覧
連載一覧はこちら
人気の動画
【田内学×後藤達也】新興国化する日本、プロの「新NISA」観
【田内学×後藤達也】新興国化する日本、プロの「新NISA」観
【田内学×後藤達也】激論!日本を底上げする「金融教育」とは
【田内学×後藤達也】激論!日本を底上げする「金融教育」とは
TSUTAYAも大量閉店、CCCに起きている地殻変動
TSUTAYAも大量閉店、CCCに起きている地殻変動
【田内学×後藤達也】株高の今「怪しい経済情報」ここに注意
【田内学×後藤達也】株高の今「怪しい経済情報」ここに注意
アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
  • シェア
会員記事アクセスランキング
  • 1時間
  • 24時間
  • 週間
  • 月間
トレンドウォッチAD
東洋経済education×ICT