在PHP中,要获取HTML页面信息,可以使用DOMDocument类和DOMXPath类。以下是一个简单的示例,展示了如何使用这些类来获取页面标题和所有链接:
<?php
// 创建一个新的DOMDocument实例
$doc = new DOMDocument();
// 加载HTML页面
libxml_use_internal_errors(true); // 禁用错误报告,以防HTML不规范
$doc->loadHTMLFile('example.html');
libxml_clear_errors(); // 清除错误缓存
// 获取页面标题
$title = $doc->getElementsByTagName('title')->item(0)->nodeValue;
echo "页面标题: " . $title . PHP_EOL;
// 创建一个新的DOMXPath实例
$xpath = new DOMXPath($doc);
// 使用XPath查询获取所有链接
$links = $xpath->query("//a[@href]");
echo "页面链接:" . PHP_EOL;
foreach ($links as $link) {
$href = $link->getAttribute('href');
echo " " . $href . PHP_EOL;
}
?>
在这个示例中,我们首先创建了一个DOMDocument实例,然后加载了HTML页面。接下来,我们获取了页面标题,并使用DOMXPath类查询了所有具有href
属性的<a>
标签。最后,我们遍历并输出了所有链接。