PHP 实现一个简单的爬虫示例-技术文章-北屋教程网

抓取网页的内容：

<?php

$url = 'https://www.example.com';

// 初始化 cURL
$ch = curl_init();

// 设置 cURL 选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// 执行 cURL
$output = curl_exec($ch);

// 关闭 cURL
curl_close($ch);

// 输出抓取到的内容
$html = $output;

?>

在抓取到的内容里提取需要的内容，这里要用到一个解析器库：Simple HTML DOM

Simple HTML DOM 是一个 PHP 库，可以方便地操作 HTML 文档。它使用了 DOM（文档对象模型）技术，把 HTML 文档看成树形结构，可以非常方便地提取或修改 HTML 文档中的信息。

使用方法很简单：

先下载 Simple HTML DOM 库： https://simplehtmldom.sourceforge.io/
将下载的库文件（simple_html_dom.php）包含到你的代码中：

include 'simple_html_dom.php';

3. 使用 Simple HTML DOM 解析 HTML 文档：

// 接上面代码，获取到抓取到的完整的HTML代码
$html = $output;

// 查找文档中的所有链接
foreach($html->find('a') as $element) 
   echo $element->href . '<br>';

// 查找文档中所有图片
foreach($html->find('img') as $element)
   echo $element->src . '<br>';

// 查找文档中第一个 h1 标签
$h1 = $html->find('h1', 0);
echo $h1->innertext;

通过 Simple HTML DOM，您可以方便地提取 HTML 文档中的各种元素、属性、文本等信息，也可以方便地修改 HTML 文档，大大简化了爬虫开发的难度。

如果您想了解更多关于 Simple HTML DOM 的信息，可以参考其官方文档：
https://simplehtmldom.sourceforge.io/manual.htm

北屋教程网

专注编程知识分享，从入门到精通的编程学习平台

PHP 实现一个简单的爬虫示例