For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
广州IT培训介绍在laravel中使用Symfony的Crawler组件分析HTML,需要的朋友可以通过广州达内IT培训编者分享的内容作为参考下;Crawler全名是DomCrawler,是Symfony框架的组件。令人发指的是DomCrawler的没有中文文档,Symfony也没有翻译该部分,所以使用DomCrawler开发只能一点一点摸索,现将使用过程中的经验总结。
linux程序员必备技能有哪些?BAT需要什么样的linux程序员?linux程序员在二三线城市能赚多少钱?如何成为一名技术卓越的linux程序员?广州达内linux培训5天免费训练营火热开班中,扫描微信二维码即可报名,技术、高薪、名企,达内linux培训专家一站式帮你解决。
名额有限哦!马上扫描咨询吧!
首先是安装
2composer require symfony/dom-crawler
composer require symfony/css-selector
css-seelctor是css选择器,用css选择节点时一些函数会用到
手册里面使用的例子是
10use Symfony\Component\DomCrawler\Crawler;
$html = <<<‘HTML‘
Hello World!
Hello Crawler!
HTML;
$crawler = new Crawler($html);
foreach ($crawler as $domElement)
{
var_dump($domElement->nodeName);
}
打印的结果是
1string ‘html‘ (length=4)
因为这段html代码的nodeName就是html,英语不好,开始使用的时候还以为程序错了。。。
实际使用过程,如果new Crawler($html)会出现乱码问题,应该是与页面编码有关,所以可以采用下面的方式,先初始化crawler,然后添加node
2$crawler = new Crawler();
$crawler->addHtmlContent($html);
addHtmlContent的第二个参数是charset,默认是utf-8。
记录一下工作中一点点试出来的用法
filterXPath(string $xpath)方法,按照手册上的说法,该方法的参数是$xpath,经常用的是p,div等块。
2echo $crawler->filterXPath(‘//body/p‘)->text();
echo $crawler->filterXPath(‘//body/p‘)->last()->text();
输出是第一个和下一个p标签块的文本
1var_dump($crawler->filterXPath(‘//body‘)->html());
输出body内的html
4foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) {
$c = new Crawler($node);
echo $c->filter(‘p‘)->text();
}
filterXPath获得的是DOMElement块的数组,每个DOMElement块可以使用新的crawler对象继续解析
4$nodeValues =
$crawler->filterXPath(‘//body/p‘)->each(function (Crawler $node, $i) {
return $node->text();
});
crawler提供了each循环,使用闭包函数简化代码,不过注意的是,这种写法$nodeValues得到的是数组,需要进一步处理。
其他用法
1echo $crawler->filterXPath(‘//body/p‘)->attr(‘class‘);
可以获得第一个p标签对应class属性的值“message”
2$crawler->filterXPath(‘//div[@class="样式"]‘)->filter(‘a‘)->attr(‘href‘);
$crawler->filterXPath(‘//div[@class="样式"]‘)->filter(‘a>img‘)->extract(array(‘alt‘, ‘href‘))
以上是获得标签属性的一些方法
filter和filterXPath不同,手册上写的是css选择器,不太明白,我理解是div这种XPath节点包含的元素,具体情况还需要在实际开发中去尝试。
总的来说感觉DomCrawler要比simple html dom好用一些,可能是我用的比较浅显。
以上所述是小编给大家介绍的在laravel中使用Symfony的Crawler组件分析HTML,希望对大家有所帮助。