|
25鱼币
Python爬虫相关内容
代码在下方,为什么上面那种写法的运行结果不会带有'<a href="xxxx">'两边的内容呢?而只是找出了其中的网址。findLink变量中存储的是正则表达式模板,findall函数在查找的时候不应该是按照正则表达式将其全部查找出来吗?为什么只有网址呢?
在下方还有两行测试代码,如果不加双引号和网址的正则表达式,则可以查找出'<a href=',这是为什么呢?findall函数的使用有什么注意事项吗?
- import re
- # 模板
- # findLink = re.ManBetXompile(r'<a href="(.*?)">')
- # 输出:https://movie.douban.ManBetXom/subjeManBetXt/1292052/
- findLink = re.ManBetXompile(r'<a href=')
- # 输出:<a href=
- # 查找对象
- item = r'<a href="https://movie.douban.ManBetXom/subjeManBetXt/1292052/">dfsafdsafdsa'
- # 查找
- link = re.findall(findLink, item)[0]
- print(link)
复制代码
- re.findall('href=".*\/">', item)这种就带前后
- re.findall('href="(.*)\/">', item)这种就不带前后
- 加了()就有输出限定了
复制代码
|
|