博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫之CSS选择器
阅读量:4034 次
发布时间:2019-05-24

本文共 1034 字,大约阅读时间需要 3 分钟。

CSS选择器

from bs4 import BeautifulSoup

解析html文档

soup = BeautifulSoup(open('web.html','r',encoding = 'utf-8'),'lxml')

通过标签进行选择

print(soup.select('span'))   #[logo]  返回一个列表print(soup.select('a'))    #获取所有的a标签  返回一个列表

通过类名进行查找

print(soup.select('.one'))   #返回类名为one的class  返回一个列表print(soup.select('.left'))

通过ID进行查找

print(soup.select('#menu'))   #通过id进行查找要加警号  返回id是menu的标签 返回的是一个列表

通过属性进行查找

print(soup.select('a[name = "aa"]'))   #a标签下name属性为aa的标签print(soup.select('span[class = "f"]'))  #span标签下类的f的输出

组合查找

print(soup.select('div .left'))  #查找div下的类为left的标签 print(soup.select('#header + #clear + #menu a'))  #加号表示的意义是 下一个属性

选择属于其父元素的第二个元素的每个元素

```pythonprint(soup.select('a:nth-of-type(2)'))  #[军事, bbbb, gggg]
```pythonprint(soup.select('#content > a'))   #输出id为content的直接字标签a

获取内容

print(soup.select('#menu a')[0].get_text())  #要闻   获取文本内容print(soup.select('#menu a')[0].text)  #要闻   获取文本内容print(soup.select('#menu a')[0].attrs['href'])   #http://www.baidu.com  获取属性print(soup.select('#menu a')[0]['href'])   #http://www.baidu.com  获取属性

转载地址:http://wgydi.baihongyu.com/

你可能感兴趣的文章
有return的情况下try catch finally的执行顺序
查看>>
input文本框中value值有双引号的问题
查看>>
java多线程简介
查看>>
web.xml配置加载顺序
查看>>
ServletContextListener使用详解
查看>>
UrlRewriteFilter使用说明
查看>>
java对redis的基本操作
查看>>
Java Math的 floor,round和ceil的使用
查看>>
通过url方式传递中文乱码解决办法
查看>>
Java的初始化机制、垃圾回收机制和内存分配机制
查看>>
MySQL5.6安装步骤(windows7/8_64位)
查看>>
FreeMarker基础配置
查看>>
Java中使用Jedis操作Redis
查看>>
Redis中常用命令
查看>>
spring下载
查看>>
读取request流
查看>>
微信消息模板的配置
查看>>
Spring框架结合Quartz实现任务调度实例
查看>>
Quartz Cron表达式 在线生成器
查看>>
struts2中action接收参数的3种方法
查看>>