IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> PHP知识库 -> php实现爬虫 -> 正文阅读

[PHP知识库]php实现爬虫

爬虫技术

简介

目前主流实现爬虫的方法都是使用pathon,但是不一定只有pathon,php也有很多爬虫工具,比如自带的curl,还有querylist,都能实现爬虫,只要能够实现爬数据,不要用什么样的方法都行。

querylist使用

QUERYLIST官方文档,先可以看下文档,熟悉一下,任务框架都可以使用

快速使用

过程很简单,看下文档基本上能够使用,

安装

使用compser安装composer require jaeger/querylist

爬取接口

use QL\QueryList;

public function data(){
	$arr = [   
	 'page' => 10,  
	 'limit' => 1  
	];    //请求参数
	
	$hearders = [  
	 'headers' => [  
	 'token' => 'eyJhbGciOiJIUzI1NiJ9.eyJqdGkiOiIxNDEwNDI2MTU0MDM5NDMxMTY5IiwiaWF0IjoxNjI2ODUwMjcwLCJzdWIiOiJkNDkzOTJmNWYyOWI4YjMxNzI0OGEwMmY3MzY3Yjk4NDlhZmRjZGY1IiwiZXhwIjoxNjI5NDQyMjcwfQ.ie5Kw9n3NSz3qPsBNxj30ztBvUUDD0zkOAt-ls8dS2E'  
	 ]  
	];   //设置请求头,根据不同网站设置
	
	$mes = QueryList::get('https://app.shapil.cn/app',$arr,$hearders);  
	$res = json_decode($mes->getHtml(),true); //如果是抓接口,记得encode,
	
	//接下来就看你自己的处理,可以保存到数据库什么的
	// to do something
}


爬取网页

<?php 
	use QL\QueryList; 
	
	//采集某页面所有的图片
	$data = QueryList::get('http://cms.querylist.cc/bizhi/453.html')->find('img')->attrs('src'); 
	
	//打印结果
	print_r($data->all());
	
	//采集某页面所有的超链接和超链接文本内容 
	//可以先手动获取要采集的页面源码
	$html = file_get_contents('http://cms.querylist.cc/google/list_1.html'); 
	//然后可以把页面源码或者HTML片段传给QueryList
	$data = QueryList::html($html)->rules([ //设置采集规则 
	// 采集所有a标签的href属性
	'link' => ['a','href'], 
	
	// 采集所有a标签的文本内容
	'text' => ['a','text'] ])->range('li')->query()->getData(); 
	//打印结果
	print_r($data->all());

自动化运行

会爬取数据了,也得知道怎么自动化运行,我刚开始是把它写个接口,后来发现这样不行,接口容易超时,只有通过控制台命令,让他一直执行下去
TP6命令行

  PHP知识库 最新文章
Laravel 下实现 Google 2fa 验证
UUCTF WP
DASCTF10月 web
XAMPP任意命令执行提升权限漏洞(CVE-2020-
[GYCTF2020]Easyphp
iwebsec靶场 代码执行关卡通关笔记
多个线程同步执行,多个线程依次执行,多个
php 没事记录下常用方法 (TP5.1)
php之jwt
2021-09-18
上一篇文章      下一篇文章      查看所有文章
加:2021-07-29 11:25:04  更:2021-07-29 11:26:22 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/2 21:37:21-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码