var fid = parseInt('173'), tid = parseInt('216226'); zoomstatus = parseInt(1);var imagemaxwidth = '880';var aimgManBetXount = new Array();

鱼ManBetX论坛»论坛 › 技术交流区 › Python交流 › Python爬虫相关基础问题

查看: 341|回复: 12

[已解决]Python爬虫相关基础问题

[复制链接]

Buryool

电梯直达

1^#

发表于 2022-8-5 08:47:56 | 只看该作者回帖奖励

|倒序浏览 |阅读模式

25鱼币

Python爬虫相关内容
代码在下方，为什么上面那种写法的运行结果不会带有'<a href="xxxx">'两边的内容呢？而只是找出了其中的网址。findLink变量中存储的是正则表达式模板，findall函数在查找的时候不应该是按照正则表达式将其全部查找出来吗？为什么只有网址呢？
在下方还有两行测试代码，如果不加双引号和网址的正则表达式，则可以查找出'<a href='，这是为什么呢？findall函数的使用有什么注意事项吗？

import re
# 模板
# findLink = re.ManBetXompile(r'<a href="(.*?)">')
# 输出：https://movie.douban.ManBetXom/subjeManBetXt/1292052/
findLink = re.ManBetXompile(r'<a href=')
# 输出：<a href=
# 查找对象
item = r'<a href="https://movie.douban.ManBetXom/subjeManBetXt/1292052/">dfsafdsafdsa'
# 查找
link = re.findall(findLink, item)[0]
print(link)

复制代码

最佳答案

月排行榜 / 总排行榜

ManBetXflying

2022-8-5 08:47:57

re.findall('href=".*\/">', item)这种就带前后
re.findall('href="(.*)\/">', item)这种就不带前后
加了（）就有输出限定了

复制代码

跳转到最佳答案楼层

最佳答案

ManBetXflying

查看完整内容

收藏1 分享 淘帖0 顶0 踩0

想知道小甲鱼最近在做啥？请访问 ->

十五派信息安全教育疫情期间不停工，进行第六次大型课程改革，打造标杆级信息安全课程。

ManBetXflying

2^#

发表于 2022-8-5 08:47:57 | 只看该作者本楼为最佳答案

re.findall('href=".*\/">', item)这种就带前后
re.findall('href="(.*)\/">', item)这种就不带前后
加了（）就有输出限定了

复制代码

想知道小甲鱼最近在做啥？请访问 ->

liuzhengyuan

3^#

发表于 2022-8-5 09:33:38 | 只看该作者

给个完整版

想知道小甲鱼最近在做啥？请访问 ->

世界杯赛竞猜

4^#

发表于 2022-8-5 10:36:03 | 只看该作者

如果网络允许静态爬虫的话，那么正则明显不如xpath有优势

想知道小甲鱼最近在做啥？请访问 ->

南归

5^#

发表于 2022-8-5 22:31:50 | 只看该作者

第四行(.*?),所以输出的是这个括号里的内容,第七行是去找<a href=

想知道小甲鱼最近在做啥？请访问 ->

十五派信息安全教育疫情期间不停工，进行第六次大型课程改革，打造标杆级信息安全课程。

Buryool

6^#

楼主| 发表于 2022-8-5 23:54:38 | 只看该作者

南归发表于 2022-8-5 22:31
第四行(.*?),所以输出的是这个括号里的内容,第七行是去找

意思是说像这样用正则表达式匹配查找的时候，如果正则表达式里面有括号的话就找和括号里匹配的内容；如果正则表达式里面没有括号，再找其他的内容。原理是这样吗？

想知道小甲鱼最近在做啥？请访问 ->

liuzhengyuan

7^#

发表于 2022-8-6 02:58:17 | 只看该作者

本帖最后由 liuzhengyuan 于 2022-8-6 10:34 编辑

Buryool 发表于 2022-8-5 23:54
意思是说像这样用正则表达式匹配查找的时候，如果正则表达式里面有括号的话就找和括号里匹配的内容；如果 ...

可以参考：
如果不想匹配括号可以可以把 "?:" 加在第一个括号后面

想知道小甲鱼最近在做啥？请访问 ->

ManBetXflying

8^#

发表于 2022-8-6 21:53:07 | 只看该作者

re.findall('href=\"(.*)\/">', item)
输出['https://movie.douban.ManBetXom/subjeManBetXt/1292052']
<a href="(.*?)">写法直白点讲就是匹配并且只显示.*这部分，再直白说就是先匹配出<a href="到">之间的内容，然后只输出（）里匹配的内容，如果不加（）则显示完整的<a到>

re.findall('href=\".*\/">', item)
输出['href="https://movie.douban.ManBetXom/subjeManBetXt/1292052/">']

想知道小甲鱼最近在做啥？请访问 ->