C# 正则获取网页内容, 抓取html源代码里的 title

发布时间:2020-12-12 16:05 作者:独孤剑 阅读:139

C# 正则获取网页内容, 抓取html源代码里的 title

using System.Text.RegularExpressions;

        static void Main(string[] args)
        {
            // 注意文本编码, 建议选择utf-8格式编码, 要不容易出现乱码
            string content = System.IO.File.ReadAllText("html源代码.txt");

            // 建立正则匹配, 抓取html源代码里的title
            string titleReg = "(?<=<title>)(.*?)(?=</title>)";
            string title = "";
            try
            {
                // 正则匹配
                Match m = Regex.Match(content, titleReg);
                if (m.Success)
                {
                    title = m.Value;
                }
                Console.WriteLine(title);
            }
            catch (Exception ex)
            {
                Console.WriteLine(ex.Message);
            }
            Console.Read();
        }


作者最新文章
做好网站维护需要具备哪些知识? 网站维护都需要做哪些内容?
C# Console 控制台禁止重复打开, 只能运行一个实例, 禁止多开
C# 正则获取网页内容, 抓取html源代码里的 title
C# 通过循环的方式遍历数组中不相同的元素
css 设置背景色的两种方式, 如何设置背景颜色?