# 基本属性

采集规则基本属性包括采集规则的名称、以及其他的采集参数设置,如下图:

# 采集规则名称

可以取任何您觉得易记的名称,建议使用目标源的名字及域名以便于日后管理。

# 采集到栏目

选择需要将页面数据采集到具体那个栏目。

# 网页编码

必须和采集网站的编码一致,默认是Unicode (UTF-8)。

如果不确定目标网站的网页编码,可以在浏览器中右键列表页,选择 查看页面源代码,在源代码中找到以下标签,其中 charset 对应的值就是页面的网页编码:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

# 采集内容数

表示需要采集的内容数,默认为0,代表采集全部内容。

# 内容图片

内容图片只指文字正文中包含的图片,在此设置是否下载采集内容中的图片到自己的服务器,以防对方网站的图片地址无法访问。

# 封面图片

封面图片是只内容的标题图片(对应内容表的ImageUrl字段),在此设置是否采集封面图片以及封面图片的来源。

  • 不设置封面图片 不采集封面图片并将封面图片设置为空值;
  • 将内容正文中的图片设为封面图片 采集封面图片并从内容正文中获取数据;
  • 将列表页中的图片设为封面图片 采集封面图片并从列表页中获取数据;

# 内容附件

设置是否下载所采集内容的附件到服务器中,由于附件通常较大,将影响采集速度,默认设置是不下载附件。

如果采集后需要将附件显示在页面中,可以设置为下载附件,以防对方网站的附件地址无法访问。

# 当内容正文为空时是否采集

设置为否采集无内容正文或者采集规则无法获取到正文的页面,默认为不采集。

# 当内容标题重复时是否采集

设置当采集内容的标题在采集的栏目中已存在是是否依旧采集,默认不采集。

# 采集内容的审核状态

采集的内容是否不经过审核直接添加到栏目中,默认设置是未审核。

如果确定采集的数据可以直接显示到网站中,可以设置为审核通过。

# 倒序采集

设置为 倒序采集 可以确保采集的信息顺序和被采集的列表页顺序一致。

上次更新: 2021/1/23 下午3:38:21