Pythonでスクレイピングやってみた

2024年9月20日 2024年10月18日

tomoki33

スクレイピングとは

webサイトからデータを抽出する技術

留意事項

規約違反、著作権違反になっていないか確認する
サーバに負荷をかけないようにする
HTML構造が変わるとデータ収集ができなくなる

頻繁にアクセスしていると不正アクセスとして拒絶されるケースもあり

実際にスクレイピングやってみた

使用技術,ライブラリ

python3
BeautifulSoup：（pythonライブラリ）

https://pypi.org/project/beautifulsoup4/

requests：（pythonライブラリ）

https://pypi.org/project/requests/

流れ

1.WEBサイトからスクレイピング

2.pythonで処理、ターミナルに取得データ出力

対象WEBサイト

上記の青枠部分がスクレイピング対象

該当HTML箇所（class = hide-sm hide-md）

コード

下記出力結果

上記サイト上で確認したHTMLを取得。

少しわかりにくいので、文字だけ抽出

結果。。

文字だけ出力を完了

まとめ

ライブラリがあるのでかなり簡単に実装可能。

スクレイピング禁止サイト等、使い方には気をつけて使用していきたい。

カテゴリー: テック

Pythonでスクレイピングやってみた

スクレイピングとは

留意事項

実際にスクレイピングやってみた

使用技術,ライブラリ

流れ

対象WEBサイト

コード

まとめ

コメントを残すコメントをキャンセル

bigO記法について

AWS Toolkit for Visual Studio Code使ってみた

スクレイピングとは

留意事項

実際にスクレイピングやってみた

使用技術,ライブラリ

流れ

対象WEBサイト

コード

まとめ

コメントを残す コメントをキャンセル

bigO記法について

AWS Toolkit for Visual Studio Code使ってみた

コメントを残すコメントをキャンセル