konakona
[原创] Python抓取HTML元素利器 —— BeautifulSoup
[原创] Python抓取HTML元素利器 —— BeautifulSoup

我们经常需要采集数据,但采集到的HTML有时很乱,如何获取我们想要的数据?

很多人第一反应是用正则。我得说,正则是用于抓取数据内容的,Python有更好的HMTL元素处理包,为什么不用呢?

我今天要推荐一款超赞的模块包——BeautifulSoup使用说明、手册点这里)。

首先看个小Demo:

shtml = Soup(html)
#美化HTML
#shtml.prettify()
#获取下一页的href
url = shtml.find_all("a","a1")[1]['href']   # bug : arg 'class_' is not work

1 . 安装
安装方法有很多,官网上已经有安装方法:

$ pip install beautifulsoup4
or
$ easy_install beautifulsoup4

姐是Ubuntu:所以姐是这样装的:

$ sudo apt-get install python-bs4

如果你的系统不支持以上方法,你还可以去下载tar,然后执行以下命令安装它:

python setup.py install

 

2 . 使用

所有用法在这里(英文)。

赞赏
首页      程序开发      Python      [原创] Python抓取HTML元素利器 —— BeautifulSoup
https://secure.gravatar.com/avatar/3b712b34a0e1b689cfb524c9c6bcdc47?s=256&r=g

团哥

文章作者

继续玩我的CODE,让别人说去。 低调,就是这么自信。

发表评论

textsms
account_circle
email

  • https://secure.gravatar.com/avatar/efb5fd79c06458eb2a4e830d3cab7925?s=80&r=g
    notech

    团哥换主题吧 这个太黑了

    7年前回复

konakona

[原创] Python抓取HTML元素利器 —— BeautifulSoup
我们经常需要采集数据,但采集到的HTML有时很乱,如何获取我们想要的数据? 很多人第一反应是用正则。我得说,正则是用于抓取数据内容的,Python有更好的HMTL元素处理包,为什么不用呢…
扫描二维码继续阅读
2012-11-19