PythonでWebから自動でデータ抜き出す凄技の肝 URLの一覧を渡されたら一体どうしたらいいか

著者フォロー
ブックマーク

記事をマイページに保存
できます。
無料会員登録はこちら
はこちら

印刷ページの表示はログインが必要です。

無料会員登録はこちら

はこちら

縮小

それではプログラムを見てみましょう。

なお、本プログラムはPython実行環境としてAnaconda(アナコンダ)の使用を前提としています。Anacondaは https://www.anaconda.com/products/individual からインストール可能です。

プログラムの内容は、pandas(Pythonのライブラリのひとつ)によるExcel ファイルの操作と、requests+ BeautifulSoupという機能を使ったスクレイピングの合わせ技です。

07行目のread_excel関数で「書籍リスト.xlsx」を読み込み、for 文とiterrows メソッドで1行ずつの繰り返し処理を行います。

繰り返し処理内の10~20行目では、Excelファイルから取得したURLをもとにrequests.get().textでHTMLを取得し、BeautifulSoupに渡します。あとはfindメソッドで「書名」「著者」「価格」「ページ数」を探します。

次ページここから一工夫
関連記事
トピックボードAD
キャリア・教育の人気記事