laravel+Guzzle配合正则实现爬虫功能爬取或批量爬取网站数据-侯体宗的博客

laravel+Guzzle配合正则实现爬虫功能爬取或批量爬取网站数据
管理员发布于 4年前 1214

laravel+Guzzle配合正则爬取或批量爬取网站数据；

思路：模拟请求url,把页面数据通过正则处理保存有用的数据存入数据库或文件

请求url：http://www.zongscan.com/demo333/178.html 用我博客里面的一篇文章测试

看看html

//Guzzle 简单爬取数据
$url = "http://www.zongscan.com/demo333/178.html";
$request = new GuzzleRequest('GET', $url);
$client = new \GuzzleHttp\Client();
$response = $client->send($request, ['timeout' => 5]);
//获取页面数据
$content = $response->getBody()->getContents();
// 通过 preg_replace 函数使页面源码由多行变单行
$htmlOneLine = preg_replace("/\r|\n|\t/","",$content);
//获取这个标签及里面的内容
preg_match("/<div class=\"jumbotron\">(.*)<\/div>/iU",$htmlOneLine,$titleArr);
$a = $titleArr[0];
//如果想要把html标签清掉就用strip_tags() 自己去发挥
dd( $a );
//拿到这数据就可以自己操作了 比如存数据库就拼sql...

最后如果要批量爬取的话可以封装个方法循环添加id爬取，可能你有其他的方式curl等等...

请勿发布不友善或者负能量的内容。与人为善，比聪明更重要！

该博客于2020-12-7日，后端基于go语言的beego框架开发
前端页面使用Bootstrap可视化布局系统自动生成
是我仿的原来我的TP5框架写的博客，比较粗糙，底下是入口
侯体宗的博客

文章标签

test 三种扣减库存方案 Hyperf2.1启动报错端口占用上外网神器Ghelper 上外网神器集装箱 laravel中HMVC模式 Hyperf框架验证器 Hyperf自定义函数编写 Hyperf对象转成数组 PHP2021面试题集 centos7系统上挂载 Hyperf框架秒杀系统的设计 Laravel Octane PHP数组底层实现原理 php7垃圾回收机制 Laravel中类型转换 mysql事务特征及隔离级别 Linux-awk命令 mysql编码 JWT源码实现 Laravel内核分析 Laravel中的用法 centos7+go环境+beego框架 go+beego框架开发博客 go+beego开发博客首页 go+beego自定义公共函数 beego注册_登录_查询 beego控制器创建 Beego框架安装 go语言环境安装 laravel+Elasticsearc laravel运行原理 windows7搭建Vuejs环境 Laravel分块 laravel去重(distinct() laravel集合 laravel+mysql读写分离 laravel5+复杂原生sql laravel+MissMyCat/al lnmp sessio laravel自定义数组分页 laravel中.env配置 laravel8队列发邮件码云仓库常用操作 laravel8配置163SMTP laravel8配置全局函数 laravel/jetstream之认证 laravel/jetstream

友情链接

友链位

HouTiZong: 侯体宗的博客