C#怎么实现网页爬虫 C#如何用HtmlAgilityPack抓取和解析网页数据内容【网络】

2次阅读

HtmlAgilityPack 加载网页失败主因是默认网络配置不足，需手动设 UserAgent、TLS 1.2、SecurityProtocol；XPath 失效多因语法错误或 JS 渲染内容不可见；中文乱码源于编码未显式指定；性能问题来自滥用网络层或未复用实例。

C# 怎么实现网页爬虫 C# 如何用 HtmlAgilityPack 抓取和解析网页数据内容【网络】

HtmlAgilityPack 加载网页失败：不是所有 URL 都能直接 `Load()`

直接用 HtmlWeb.Load("https://example.com") 经常报错，比如 WebException: 无法解析远程名称 或 NotSupportedException: 不支持的协议方案。这不是库的问题，而是它默认不走浏览器级网络栈——没自动处理重定向、没带 User-Agent、不支持 HTTPS 证书验证宽松模式。

实操建议：

立即学习 “ 前端免费学习笔记（深入）”；

改用 HtmlWeb 实例 + 手动配置 UseCookies、UserAgent 和 PreRequest 回调
对 HTTPS 站点，加一句 ServicePointManager.SecurityProtocol = SecurityProtocolType.Tls12;（.NET Framework）或确保 .NET Core/6+ 环境已默认启用 TLS 1.2+
遇到 403，大概率是服务端拦截了默认请求头，必须设 UserAgent，例如 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
避免用 HtmlDocument.Load() 直接读远程 URL，它只适合本地文件或已下载好的 HTML 字符串

SelectNodes() 返回 null 或空集合，90% 是 XPath 写错了，而不是网页结构复杂。HtmlAgilityPack 不支持 CSS 选择器，也不自动处理动态渲染内容（JS 生成的 DOM 不在原始 HTML 里）。

实操建议：

立即学习 “ 前端免费学习笔记（深入）”；

先用浏览器“查看页面源代码”（不是“检查元素”），确认目标数据是否真在 HTML 源码中
XPath 中类名含空格或特殊字符时，不能直接写 //div[@class="a b"]，得用 contains(@class, "a") and contains(@class, "b")
属性值有引号嵌套？用 concat() 或换单 / 双引号包围，例如 //input[@value="he"ll'o"]
注意命名空间干扰：如果 HTML 带 xmlns，需注册 XmlNamespaceManager，但多数网页可忽略——除非你看到 <html xmlns="http://www.w3.org/1999/xhtml">

抓回来的文本出现问号、方块、或 uFFFD，基本是响应流编码和 HtmlAgilityPack 解析编码不一致。它不会自动识别 <meta charset="utf-8">，也不会按 HTTP Header 的 Content-Type 自适应。

实操建议：

立即学习 “ 前端免费学习笔记（深入）”；

用 HtmlWeb 下载时，显式指定编码：web.OverrideEncoding = Encoding.UTF8;（或 GBK，视目标站而定）
如果服务器返回的 Content-Type 是 text/html; charset=gb2312，但你硬设 UTF8，就会乱码；反之亦然
不确定编码时，先用 HttpClient 获取原始字节流，用 CharsetDetector（如 Ude）猜编码，再传给 HtmlDocument.Load() 的 Encoding 参数
别依赖 doc.DocumentNode.OuterHtml 输出看效果——它可能把内部编码转换搞混，优先用 doc.DocumentNode.SelectSingleNode("……").InnerText 提取后观察

单次解析几 MB 的 HTML 文件，或每秒发起几十个请求，很容易触发 GC 压力或连接池耗尽。HtmlAgilityPack 本身轻量，但滥用网络层或忽略释放资源，问题就出在外部。

实操建议：

立即学习 “ 前端免费学习笔记（深入）”；

限制并发：用 SemaphoreSlim 控制同时活跃的 HtmlWeb 请求数量，别裸写 Parallel.ForEach
复用 HtmlWeb 实例：它是线程安全的，全局一个就够了，别每次 new
不用时清空文档引用：doc = null;，尤其在长生命周期对象（如 ASP.NET Core Service）里，避免引用滞留导致 GC 不回收
纯提取文本？考虑用正则预筛（如 Regex.Match(html, @"<title>(.*?)</title>", RegexOptions.Singleline)），比加载整个 DOM 快一个数量级——只要不怕小概率误匹配

真正麻烦的是那些用前端框架（React/Vue）渲染的页面，HtmlAgilityPack 根本看不到最终内容。这时候该换 PuppeteerSharp 或 Playwright，而不是调参数硬扛。

发表于：后端

近一天内

# c++