帝国采集正则怎么写？帝国cms采集正则的写法详解-帝国cms教程-仿站网

当前位置：仿站网帝国cms教程帝国采集正则怎么写？帝国cms采集正则的写法详解

　　帝国CMS的采集正则：

　　1、帝国CMS的采集正则是什么样的，下面我们用实例讲解：

　　(1)、假如我们要采集页面的内容页为如下页面：

　　图1：HTML页面

　　图2：查看页面源代码为如下：

　　(2)、由上图的源代码内容我们可以得出帝国CMS的采集正则：

　　新闻标题正则：标题：[!–title–]

　　新闻内容正则：内容：[!–newstext–]

　　“[!–title–]”与“[!–newstext–]”分别为“标题”字段与“内容”字段的正则变量。用于指定我们要采集的内容位置。

　　(3)、由上面我们得出了，帝国CMS采集正则是把正则变量替换要采集内容后的代码内容。格式：

　　识别代码头部[!–变量名–]识别代码尾部

　　注意：上面的“识别代码头部”一定是要唯一的标记。

　　2、帝国CMS正则还有表示任意内容的字符：“*”

　　如果“识别代码头部”中有内容是变化的，那么我们可以用*代替它。如页面源代码为如下，我们要采集下面的链接地址：

　　标题

　　通过使用“*”任意内容表示字符，我们可以用下面的正则忽略可变内容，获得链接地址：

　　附加说明：[!–newsurl–]为页面链接地址的正则变量。

　　3、其他说明：

　　(1)、正则要找出唯一性的开头字符。有时候空格都会成为识别的依据。

　　(2)、对于特殊字符请在前面加上“”，当然直接将特殊字符改为“*”最合适了。特殊字符如下：

　　“ )”、“(”、“{”、“}”、“[”、“]”、“”、“?”等等。

帝国cms采集采集正则

分享到：

帝国采集正则怎么写？帝国cms采集正则的写法详解