PHP 采集大全采集原理分析禁用采集各种采集方法详解采集的攻于防采集性能应用协议分析

php教程9年前 (2017-02-07)14960

做了N年的PHP，采集了N家数据，由初学者菜鸟，到现在的熟手，采集天猫、淘宝、腾讯、京东、敦煌、Lightinthebox、大龙、zencart、magento、prestashop、opencart、xcart、踏踏。。。。对采集颇有诸多的理解。

现在给大家分析下，如有误，请指出。

我能想到的常用采集方法：

1. file 支持应用层协议，返回的数据是以数组形式返回，需要开启allow_url_fopen.

长处：擅长处理本地文件
短处：不擅长处理URL这类的采集，大并发时会丢包、超时，适合处理本地小文件。
2. file_get_contents 支持应用层协议，返回的数据是以字符串形式返回，需要开启allow_url_fopen.

长处：擅长处理本地文件
短处：不擅长处理URL这类的采集，大并发时会丢包、超时，适合处理本地小文件。
3. fopen 支持应用层协议，返回的数据是以字符串形式返回，需要开启allow_url_fopen.

长处：擅长处理本地文件
短处：不擅长处理URL这类的采集，大并发时会丢包、超时，适合处理本地大文件。
4. copy 支持应用层协议，直接把远程文件拉倒本地，成功返回true，失败返回false，需要开启allow_url_fopen.

长处：擅长处理本地文件
短处：需要把远程文件拽下来后，再正则分析抓取，
占用硬盘，大并发时会丢包、超时，适合处理本地文件的拷贝。

5. curl 支持应用层协议，需要开启CURL扩展

长处：采集时可以对DNS进行缓存，采集速度快。
GET\POST\PUT\DELETE 模仿用户头信息、伪造IP、远程登录。。。
短处：不支持底层通信，如TCP\IP\UDP\CMP。。
6. socket 支持通信层协议，需要开启socket扩展

长处：网络传输层和网络应用层的接口API，强大无比，CURL可以干的，
socket也可以干，socket可以干的，CURL不一定可以干。
短处：一般服务器默认不开启socket扩展，此乃属于网络编程，对技术人员要求较高。
只支持底层（通信层套接字）通信，不支持应用层通信。采集速度慢于CURL。
7. fsockopen 支持通信层协议 PHP自带的方法 文件操作的方式 File

长处：功能同6中的socket，但这是PHP自带的方法，
不需要扩展支持。是socket的又一次封装，使用更简单.
短处：采集速度慢于curl。
8.stream_socket_client 支持通信层协议 PHP自带的方法 流操作的方式 Stream

长处：功能同6中的socket，但这是PHP自带的方法，
不需要扩展支持。是socket的又一次封装，使用更简单.
短处：采集速度慢于curl。
9.readfile 支持应用层协议，直接把远程文件拉倒本地，成功返回从文件中读入的字节数，失败返回false.

长处：基于缓冲区的大文件处理，适合大文件下载等应用。
短处：不能直接像curl那种直接下载大文件，否则出错，必须配合缓冲区使用。

读完上述，大家有何感觉？

个人推荐：

curl：基本涵盖所有的采集应用：蜘蛛爬虫、大文件下载、批量采集、浏览器伪装...更以采集速度快，可以缓存DNS所以采集速度快而闻名。

fsockopen、socket、stream_socket_client：更底层的处理，底层编程，如银行业务、游戏底层通信等，虽然慢，但是稳定。

fopen、file、file_get_contents、copy：更偏向适合本地文件的处理，处理远程文件的话，效果不佳，作者不推荐。

readfile：由于配合缓冲区的独特优势，更适合大文件的在线下载。而且下载不卡，对服务器拖累很小。

这里顺便补充一句，

为什么我用fsockopen（socket）用TCP 80端口访问百度可以访问，
我浏览器直接输入tcp://www.baidu.com、tcp:http://www.baidu.com:80 却访问不了呢？

答：

因为浏览器是应用层，fsockopen（socket）是传输层, 天生就不支持那样的使用哦。。。各有个的道！！！

本文链接：https://blog.retao5.com/jiaocheng/1198.html

分享给朋友：

返回列表

上一篇：PHP 文件锁flock的妙用提高文件写入效率锁住文件达到保护的目的

下一篇：fsockopen socket 无服务器限制支持header、cookie、refer 挂马远程

“PHP 采集大全采集原理分析禁用采集各种采集方法详解采集的攻于防采集性能应用协议分析 ” 的相关文章

mysql索引的类型和优缺点11年前 (2014-05-15)

Coreseek开源中文检索引擎-Sphinx中文版11年前 (2014-05-26)

linux下vi编辑器命令大全11年前 (2014-06-09)

php+mysql统计日点击、周点击、月点击11年前 (2014-06-19)

imagecreatetruecolor 改背景色11年前 (2014-06-19)

php时间格式及转换应用11年前 (2014-06-19)

发表评论

热门阅读

最近评论

爱思助手评论文章：

debian10 服务器的时间和本地不一样

内容很有深度！https://i4-pc.com
纸飞机手机版网站评论文章：

PHP 10个最具影响力的新功能

我对楼主的敬仰犹如滔滔江水绵延不绝！https://www.telegram-org.com
telegram中文版评论文章：

PHP 10个最具影响力的新功能

有内涵！https://www.telegramck.com/
telegram官网评论文章：

在Debian 10服务器上对数据盘进行分区和格式化

白富美？高富帅？https://www.telegramis.com/
电报安装包下载评论文章：

2023年度最佳的小电影番号【转载】

看帖、回帖、拿分、走人https://t.me/s/zh_cncssakjas

PHP 采集大全采集原理分析禁用采集各种采集方法详解采集的攻于防采集性能应用协议分析

“PHP 采集大全采集原理分析禁用采集各种采集方法详解采集的攻于防采集性能应用协议分析 ” 的相关文章

发表评论

热淘博客 blog.retao5.com 版权所有

Powered By Z-BlogPHP. Theme by TOYEAN.

PHP 采集大全 采集原理分析 禁用采集 各种采集方法详解 采集的攻于防 采集性能 应用协议分析

“PHP 采集大全 采集原理分析 禁用采集 各种采集方法详解 采集的攻于防 采集性能 应用协议分析 ” 的相关文章

发表评论取消回复

热淘博客 blog.retao5.com 版权所有 var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?9359c5e4a454d2c91edea405c708eab6"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();

Powered By Z-BlogPHP. Theme by TOYEAN.

PHP 采集大全采集原理分析禁用采集各种采集方法详解采集的攻于防采集性能应用协议分析

“PHP 采集大全采集原理分析禁用采集各种采集方法详解采集的攻于防采集性能应用协议分析 ” 的相关文章

发表评论

热淘博客 blog.retao5.com 版权所有