首页 教程 开发语言 使用 PHP 实现抓取知乎问题及回答的程序

使用 PHP 实现抓取知乎问题及回答的程序

知乎作为一个极受欢迎的知识分享社区,其上众多用户贡献了大量高质量的问题和回答,对于学习和工作的人们来说,这些内容对于解决问题和拓展视野非常有帮助。如果想要整理和利用这些内容,就需要使用抓取程序获取相关数据。本文将介绍使用 PHP 编写抓取知乎问题及回答的程序。

简介

知乎是一个内容非常丰富的平台,其上的内容包括但并不限于问题、回答、专栏、话题、用户等。我们可以通过爬取知乎上的数据进一步挖掘这些内容的价值。这里主要介绍如何使用 PHP 抓取知乎问题和回答。

问题抓取

首先,我们需要明确抓取的目标是什么。对于知乎上的问题,我们需要以下信息:

问题标题

问题描述

该问题的关注者数、浏览数、回答数

问题的标签

相关问题

知乎上的问题有一个非常明显的特点,那就是每个问题都有一个独一无二的 URL。所以我们可以通过构造 URL 并发送 HTTP 请求来获取该问题的相关信息。

以下是 PHP 代码演示:

<?php $url = 'https://www.zhihu.com/question/36189228'; $html = file_get_contents($url);   $data = array(); preg_match('/<title>(.*?)</title>/', $html, $match); $data['title'] = $match[1];   preg_match('/<div class="QuestionHeader-detail">(.*?)</div>/', $html, $match); $data['description'] = $match[1];   preg_match('/<div class="NumberBoard-value">(.*?)</div><span class="NumberBoard-label">关注者</span>/', $html, $match); $data['followers'] = $match[1];   preg_match('/<div class="NumberBoard-value">(.*?)</div><span class="NumberBoard-label">浏览</span>/', $html, $match); $data['views'] = $match[1];   preg_match('/<div class="NumberBoard-value">(.*?)</div><div class="NumberBoard-label">回答</div>/', $html, $match); $data['answers'] = $match[1];   preg_match_all('/<a href="/topic/(.*?)">(.*?)</a>/', $html, $matches); $data['tags'] = implode(',', $matches[2]);   preg_match_all('/<a class="RelatedQuestionItem-title" href="(.*?)" target="_blank">(.*?)</a>/', $html, $matches); $data['related_questions'] = array_combine($matches[1], $matches[2]);   echo json_encode($data, JSON_UNESCAPED_UNICODE);

这里使用了 PHP 的正则表达式来匹配 HTML 文本中的所需信息。这种方式虽然依赖于 HTML 页面结构,但在大多数情况下都能够正常抓取所需数据。可见,通过简单的代码,我们就可以获取到该问题的各种信息。

回答抓取

对于知乎上的回答,我们需要以下信息:

回答的作者

回答的内容

该回答的赞数、评论数

对于每个回答,我们同样可以通过构造 URL 并发送 HTTP 请求来获取其相关信息。

以下是 PHP 代码演示:

<?php $url = 'https://www.zhihu.com/question/36189228/answer/243147352'; $html = file_get_contents($url);   $data = array(); preg_match('/<meta itemprop="name" content="(.*?)">/', $html, $match); $data['author'] = $match[1];   preg_match('/<div class="RichText ztext">(.*?)</div>/', $html, $match); $data['content'] = $match[1];   preg_match('/<button class="Button VoteButton VoteButton--up" aria-pressed="false" tabindex="0" aria-label="(.*?)">/', $html, $match); $data['upvotes'] = $match[1];   preg_match('/<button class="Button CommentButton" tabindex="0" aria-label="(.*?)">/', $html, $match); $data['comments'] = $match[1];   echo json_encode($data, JSON_UNESCAPED_UNICODE);

同样地,我们使用了 PHP 的正则表达式来匹配 HTML 文本中的所需信息。值得注意的是,获取回答的内容需要使用 ztext 而不是 AnswerItem-content 类。这是因为知乎在更新后改变了相关 CSS 类名。

总结

本文介绍了如何使用 PHP 编写抓取知乎问题和回答的程序。我们可以根据需要获取不同的信息,对于知乎上的内容进行综合分析和利用。对于 PHP 开发者来说,这是一个非常实用的技能,可以用于数据分析、搜索引擎优化等多方面的工作。

评论(0)条

提示:请勿发布广告垃圾评论,否则封号处理!!

    猜你喜欢
    【MySQL】用户管理

    【MySQL】用户管理

     服务器/数据库  2个月前  2.15k

    我们推荐使用普通用户对数据的访问。而root作为管理员可以对普通用户对应的权限进行设置和管理。如给张三和李四这样的普通用户权限设定后。就只能操作给你权限的库了。

    Cursor Rules 让开发效率变成10倍速

    Cursor Rules 让开发效率变成10倍速

     服务器/数据库  2个月前  1.21k

    在AI与编程的交汇点上,awesome-cursorrules项目犹如一座灯塔,指引着开发者们驶向更高效、更智能的编程未来。无论你是经验丰富的老手,还是刚入行的新人,这个项目都能为你的编程之旅增添一抹亮色。这些规则文件就像是你私人定制的AI助手,能够根据你的项目需求和个人偏好,精确地调教AI的行为。突然间,你会发现AI不仅能理解Next.js的最佳实践,还能自动应用TypeScript的类型检查,甚至主动提供Tailwind CSS的类名建议。探索新的应用场景,推动AI辅助编程的边界。

    探索Django 5: 从零开始,打造你的第一个Web应用

    探索Django 5: 从零开始,打造你的第一个Web应用

     服务器/数据库  2个月前  1.13k

    Django 是一个开放源代码的 Web 应用程序框架,由 Python 写成。它遵循 MVT(Model-View-Template)的设计模式,旨在帮助开发者高效地构建复杂且功能丰富的 Web 应用程序。随着每个版本的升级,Django 不断演变,提供更多功能和改进,让开发变得更加便捷。《Django 5 Web应用开发实战》集Django架站基础、项目实践、开发经验于一体,是一本从零基础到精通Django Web企业级开发技术的实战指南《Django 5 Web应用开发实战》内容以。

    MySQL 的mysql_secure_installation安全脚本执行过程介绍

    MySQL 的mysql_secure_installation安全脚本执行过程介绍

     服务器/数据库  2个月前  1.08k

    mysql_secure_installation 是 MySQL 提供的一个安全脚本,用于提高数据库服务器的安全性

    【MySQL基础篇】概述及SQL指令:DDL及DML

    【MySQL基础篇】概述及SQL指令:DDL及DML

     服务器/数据库  2个月前  483

    数据库是长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。数据库不仅仅是数据的简单堆积,而是遵循一定的规则和模式进行组织和管理的。数据库中的数据可以包括文本、数字、图像、音频等各种类型的信息。

    Redis中的哨兵(Sentinel)

    Redis中的哨兵(Sentinel)

     服务器/数据库  2个月前  309

    ​ 上篇文章我们讲述了Redis中的主从复制(Redis分布式系统中的主从复制-CSDN博客),本篇文章针对主从复制中的问题引出Redis中的哨兵,希望本篇文章会对你有所帮助。