PythonでWebから自動でデータ抜き出す凄技の肝 URLの一覧を渡されたら一体どうしたらいいか
それではプログラムを見てみましょう。
なお、本プログラムはPython実行環境としてAnaconda(アナコンダ)の使用を前提としています。Anacondaは https://www.anaconda.com/products/individual からインストール可能です。
プログラムの内容は、pandas(Pythonのライブラリのひとつ)によるExcel ファイルの操作と、requests+ BeautifulSoupという機能を使ったスクレイピングの合わせ技です。
07行目のread_excel関数で「書籍リスト.xlsx」を読み込み、for 文とiterrows メソッドで1行ずつの繰り返し処理を行います。
繰り返し処理内の10~20行目では、Excelファイルから取得したURLをもとにrequests.get().textでHTMLを取得し、BeautifulSoupに渡します。あとはfindメソッドで「書名」「著者」「価格」「ページ数」を探します。
トピックボードAD
有料会員限定記事
キャリア・教育の人気記事
無料会員登録はこちら
ログインはこちら