東洋経済オンラインとは
キャリア・教育

PythonでWebから自動でデータ抜き出す凄技の肝 URLの一覧を渡されたら一体どうしたらいいか

6分で読める
  • 伊沢 剛 ITストラテジスト教育系Youtuber
2/4 PAGES

それではプログラムを見てみましょう。

なお、本プログラムはPython実行環境としてAnaconda(アナコンダ)の使用を前提としています。Anacondaは https://www.anaconda.com/products/individual からインストール可能です。

プログラムの内容は、pandas(Pythonのライブラリのひとつ)によるExcel ファイルの操作と、requests+ BeautifulSoupという機能を使ったスクレイピングの合わせ技です。

07行目のread_excel関数で「書籍リスト.xlsx」を読み込み、for 文とiterrows メソッドで1行ずつの繰り返し処理を行います。

繰り返し処理内の10~20行目では、Excelファイルから取得したURLをもとにrequests.get().textでHTMLを取得し、BeautifulSoupに渡します。あとはfindメソッドで「書名」「著者」「価格」「ページ数」を探します。

3/4 PAGES
4/4 PAGES

こちらの記事もおすすめ

あなたにおすすめ

キャリア・教育

人気記事 HOT

※過去1ヶ月以内に配信した記事の閲覧数