北屋教程网

专注编程知识分享,从入门到精通的编程学习平台

PHP 实现一个简单的爬虫示例

  • 抓取网页的内容:
<?php

$url = 'https://www.example.com';

// 初始化 cURL
$ch = curl_init();

// 设置 cURL 选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// 执行 cURL
$output = curl_exec($ch);

// 关闭 cURL
curl_close($ch);

// 输出抓取到的内容
$html = $output;

?>
  • 在抓取到的内容里提取需要的内容,这里要用到一个 解析器库:Simple HTML DOM

Simple HTML DOM 是一个 PHP 库,可以方便地操作 HTML 文档。它使用了 DOM(文档对象模型)技术,把 HTML 文档看成树形结构,可以非常方便地提取或修改 HTML 文档中的信息。

使用方法很简单:

  1. 先下载 Simple HTML DOM 库: https://simplehtmldom.sourceforge.io/
  2. 将下载的库文件(simple_html_dom.php)包含到你的代码中:
include 'simple_html_dom.php';

3. 使用 Simple HTML DOM 解析 HTML 文档:

// 接上面代码,获取到抓取到的完整的HTML代码
$html = $output;

// 查找文档中的所有链接
foreach($html->find('a') as $element) 
   echo $element->href . '<br>';

// 查找文档中所有图片
foreach($html->find('img') as $element)
   echo $element->src . '<br>';

// 查找文档中第一个 h1 标签
$h1 = $html->find('h1', 0);
echo $h1->innertext;

通过 Simple HTML DOM,您可以方便地提取 HTML 文档中的各种元素、属性、文本等信息,也可以方便地修改 HTML 文档,大大简化了爬虫开发的难度。

如果您想了解更多关于 Simple HTML DOM 的信息,可以参考其官方文档:
https://simplehtmldom.sourceforge.io/manual.htm

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言