IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.
今までことごとく避けてきたBuetifulSoupだけど、なんか使いたくなったので使っている。やりたい事は、なんか適当なページの文字だけ抜き出す(タグを除去したい)RSSだけがソースならなんか凄い簡単にとれるんだけど、HTMLがソースだと<p>でくくってあったり<div>でくくってあったり色々すぎてめんどくさい。 こういうのって正規表現で抜き出した方が早いのか? from urllib import urlopen from BeautifulSoup import BeautifulSoup def getContent(url): soup = BeautifulSoup(urlopen(url).read()) return soup if __name__ == '__main__': cont = getContent('http://yahoo.co.jp') print ty
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く