# 开始使用

这里要给大家做示例的网站是中国政府网要闻频道 (opens new window) ，网址：http://www.gov.cn/xinwen/yaowen.htm (opens new window)，我们将通过采集中国政府网的新闻列表来说明如何快速采集 Web 页面。

# 建立采集规则

进入 SSCMS 管理后台，点击左侧- 信息采集 -> 添加采集规则，进入采集规则添加界面，我们可以发现建立采集规则一共需要进行基本属性、采集网址、标题及正文、可选字段、其他选填项五个步骤：

我们先设置 基本属性：

# 基本属性

采集规则名称 可以任意填写，例如我们设置为：要闻；
采集到栏目 为必填项，我们选择当前站点下的新闻资讯频道；
采集内容的审核状态 我们设置为审核通过，让采集下来的内容可以直接显示到网站中；

其他设置我们采用默认值，点击下一步，进入 采集网址 设置界面：

# 采集网址

采集网址部分需要我们填写列表页面地址以及列表页 HTML 代码中详情页链接的开始及结束代码。

我们在浏览器访问列表页 (opens new window)，右键选择 查看网页源代码 获取到列表页的 HTML 代码，在代码中找到详情页的地址，然后获取前面和后面的代码，拷贝到列表页内容地址开始及列表页内容地址结束文本框中。

指定采集网址 为需要采集的列表页面地址，在此我们设置为：

http://www.gov.cn/xinwen/yaowen.htm

列表页内容地址开始（必填） 为需要采集的列表页面 HTML 代码中详情页链接前面的代码，在此我们设置为：

<li>
                   <h4>
                     <a href="

列表页内容地址结束（必填） 为需要采集的列表页面 HTML 代码中详情页链接后面的代码，在此我们设置为：

" target="_blank"

点击下一步，进入 标题及正文 设置界面：

# 标题及正文

标题及正文部分需要我们填写内容页 HTML 代码中标题的开始及结束代码（不包含标题本身）以及正文的开始及结束代码（不包含正文本身），我们点击任意一篇内容页面，在浏览器中右键选择 查看网页源代码 获取到内容页面的 HTML 代码，在代码中找到标题及正文，然后获取前面和后面的代码，拷贝到标题及正文文本框中。

内容标题开始（必填） 为需要采集的内容页面 HTML 代码中标题前面的代码，在此我们设置为：
```
<h1>
```
内容标题结束（必填） 为需要采集的内容页面 HTML 代码中标题后面的代码，在此我们设置为：
```
</h1>
```
内容正文开始（必填） 为需要采集的内容页面 HTML 代码中正文前面的代码，在此我们设置为：
```
<div class="pages_content" id="UCAP-CONTENT">
```
内容正文结束（必填） 为需要采集的内容页面 HTML 代码中正文后面的代码，在此我们设置为：
```
</div>
<div class="editor"><span>
```

其他填写项我们留空即可，点击下一步，进入 可选字段 设置界面：

# 可选字段

我们可以在可选字段界面中采集除标题和正文之外的字段，例如我们希望获取内容添加日期的值，我们可以在浏览器中打开内容页面，右键选择 查看网页源代码 获取到内容页面的 HTML 代码，在代码中找到添加日期，然后获取前面和后面的代码。

可选采集字段 为需要采集的额外字段，在此，我们勾选 添加日期
添加日期（必填） 为添加日期的代码源，在此，我们选择 从详情页获取
添加日期开始（必填） 为需要采集的内容页面 HTML 代码中标题前面的代码，在此我们设置为：
```
<div class="pages-date">
```
添加日期结束（必填） 为需要采集的内容页面 HTML 代码中标题后面的代码，在此我们设置为：
```
  <span class="font">来源：
```