| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> Python知识库 -> 学习爬虫第四天 -> 正文阅读 |
|
|
[Python知识库]学习爬虫第四天 |
#1.定位到网址
#2提取链接地址
#3.请求链接地址,拿到下载地址
import re
import requests
url="https://www.dytt89.com/"
resp=requests.get(url)#去掉安全验证
resp.encoding='gb2312'#注意字符集
#print(resp.text)
obj1=re.compile(r"2022必看热片.*?<ul>(?P<name>.*?)</ul>",re.S)
obj2=re.compile(r"<a href='(?P<href>.*?)'",re.S)
obj3=re.compile(r'<br />◎片 名(?P<movie_name>.*?)<br />.*?<td '
r'style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">',re.S)
childurl_list=[]
res=obj1.finditer(resp.text)
for it in res:
a = it.group('name')
print(a)
#提取子链接地址
#html a标签<a href='网址‘>内容</a>
res2=obj2.finditer(a)
for it1 in res2:
#拼接子页面的url地址: 域名+子页面地址
#print(it1.group('href'))
childurl=url+it1.group('href').strip("/")
childurl_list.append(childurl)
#提取信息
for href in childurl_list:
resp2=requests.get(href)
resp2.encoding='gb2312'
res3=obj3.search(resp2.text)
print(res3.group("movie_name"))
print(res3.group("download"))
|
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/21 5:46:36- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |