Yahooニュースから情報取得(Webスクレイピング超初級その1)

みなさんこんにちは。

前回の投稿からかなりの時間が空いてしまいました。というのも、Pythonでやりたいことが見つからず迷走しており・・・そんな私にぴったりの良書を見つけました。

退屈なことはPythonにやらせよう――ノンプログラマーにもできる自動化処理プログラミング

しかしこなすだけでは意味がないため購入は踏み止まり、なんとかやりたいことを絞り出しました。

”Webスクレイピング”ってやつです。ご存知の方も多いはず。要はネット上から情報を取得して解析する。むむむ…難しそうだ。接続先のサーバに負荷をかけないよう注意も必要とのこと。怖い怖い。

岡崎市立中央図書館事件(ウィキペディア)

さてやりたいことは・・・

Yahoo!ニュースからニュースの各記事のタイトルを取得する。

以下のサイトを参考にさせていただきました。

 

requestsとBeautifulSoup4が必要なのでPythonにあらかじめインストールしておきます。

requestsでgetしたHTMLのソースを、BeautifulSoupでパース(HTMLの意味や構造を解釈)します。print(soup)して確認すると中身がダダっと表示されるはずです。

ソースの中身をみると、各記事のタイトルは<h1>タグ&”ttl”クラス、<p>タグ&”ttl”クラスの中に入っているようでした。そこでsoupからfind_allで全て取り出します。

そうするとこんな感じで出力されました。

ちなみに8、11行目のprintのところをtextだけにすると…

いい感じで出力されました。

「写真」と「new」の文言が不要なので次回の投稿で削除したいと思います。今日はこのへんで。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です