PHP库推荐:DOM分析phpQuery
PHP 刘宇帅 3年前 阅读量: 589
phpQuery
phpQuery是 PHP 服务端实现的处理Dom的一个开源库,让开发人员可以像使用jquery一样处理Dom。
坑
- 占用内存过大
phpQuery在每处理一个网页就会产生一个DOMDocumentWrapper对象,每个DOMDocumentWrapper 对象会被保存在静态成员$documents中(phpQuery::createDocumentWrapper中),这个变量是一个数组,每解析一个 网页数组元素就增加一个。 所以如果是在写cli运行的爬虫类的脚本,内存很快就会占用过大,严重的导致机器死机。phpQuery::$documents[$wrapper->id] = $wrapper;
解决方案很简单,只要每解析完一个个网页,置空$documents即可。
phpQuery::$documents = [];
文档