C# 正则获取网页内容, 抓取html源代码里的 title

发布时间:2020-12-12 16:05 作者:独孤剑 阅读:658

C# 正则获取网页内容, 抓取html源代码里的 title

using System.Text.RegularExpressions;

        static void Main(string[] args)
        {
            // 注意文本编码, 建议选择utf-8格式编码, 要不容易出现乱码
            string content = System.IO.File.ReadAllText("html源代码.txt");

            // 建立正则匹配, 抓取html源代码里的title
            string titleReg = "(?<=<title>)(.*?)(?=</title>)";
            string title = "";
            try
            {
                // 正则匹配
                Match m = Regex.Match(content, titleReg);
                if (m.Success)
                {
                    title = m.Value;
                }
                Console.WriteLine(title);
            }
            catch (Exception ex)
            {
                Console.WriteLine(ex.Message);
            }
            Console.Read();
        }


“html源代码.txt”示例内容

<!DOCTYPE html>

<html>
<head>
    <title>标题</title>
</head>

<body>
内容
</body>
</html>



微信打赏, 微信扫一扫

支付宝打赏, 支付宝扫一扫

如果文章对您有帮助,欢迎给作者打赏

作者最新文章
用户id取模分库分表的策略方法
网信办征求意见:收集个人汽车数据信息应取得同意
拜登称政府正调查燃油公司黑客攻击事件 确定该公司网络被勒索软件感染
云南大理森林消防直升机坠入洱海:4名机组人员不幸遇难
jquery $.ajax()方法参数详解
企业信息查询系统