# 其他选填项
其他选填项用于设置采集规则的控制选项,如下图:
与标题及正文设置类似,需要我们填写采集内容页面 HTML 代码中对应字段的开始及结束代码。
区域内网址开始与结束能够限定列表页的内容链接范围,只有在此区域内的链接才会作为内容页进行采集,设置此项能够有效屏蔽左侧或右侧非列表页正式内容被采集至系统中。
# 内容标题包含(选填)
限定采集内容的标题必须包含的字符串,如果填写此值,采集插件将逐一判断内容标题,必须包含对应值的内容才会被采集到系统中;
# 区域内网址开始(选填)
设置列表页内容区域前面的代码;
# 区域内网址结束(选填)
设置列表页内容区域后面的代码;
# 登陆网站Cookie(选填)
如果采集的网址需要登录才能被访问,可以通过填写登录后的Cookie信息,从而绕过登录限制;
# 内容正文排除(选填)
如果内容正文部分有广告或者其他不希望系统采集下来的内容,可以设置内容正文排除,采集插件将把内容正文中对应的代码删除之后再采集到 系统中;
# 清除Html标签及包含文字(选填)
设置采集内容的正文必须清除的Html标签及包含的文字;