PythonでWebから自動でデータ抜き出す凄技の肝 URLの一覧を渡されたら一体どうしたらいいか
Webページから自動で情報を抜き出す
集めたい情報がいくつかある場合、Webブラウザから該当するWebページを検索し、Webページが開いたらそこから欲しい情報を探してコピーし別の資料にペーストして・・・を繰り返すのは面倒です。そんな時Pythonを使えば、ExcelファイルにURLをまとめておくだけで、以下のように抜き出したい項目を一気に収集できます。
例えば、複数の書籍の「タイトル」「著者」「価格」「ページ数」の情報を集めたいとします。
①まずは以下のように、「書籍リスト.xlsx」というExcelファイルを用意します。
Excelファイルの内容は、1行目がヘッダ行で「URL」「タイトル」「著者」「価格」「ページ数」をA列から順に記入しておきます。A列の2行目以降には収集したいWeb ページのURL を記入します。
②その後、Pythonプログラムを実行します。
③プログラム実行して再び「書籍リスト.xlsx」を開いてみると、必要なデータが入力されています。
ただし、プログラム実行中に「書籍リスト.xlsx」を開いているとエラーになるので注意が必要です。
このようにWebからデータを自動的に収集することをスクレイピングといいます。
無料会員登録はこちら
ログインはこちら