采集步骤: 1、增加采集节点; 2、预览采集正则是否正确; 3、开始采集; 4、对采集的数据进行审核并入库; 5、生成栏目及内容HTML页面。 一、增加采集节点: 1、登陆后台-点击大菜

采集步骤:
1、增加采集节点;
2、预览采集正则是否正确;
3、开始采集;
4、对采集的数据进行审核并入库;
5、生成栏目及内容HTML页面。
 
一、增加采集节点:
1、登陆后台->点击大菜单“栏目管理”>“增加采集节点”;
2、“选择要增加采集的栏目”(选择终极栏目);
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第1张
3、“选择要增加采集的栏目”后进入增加节点页面;
4、打开要采集的列表页面:http://www.phome.net/tmp/cjpage/list.html
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第2张 
点击查看“源文件”
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第3张 
点击查看,列表页源代码为如下:
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第4张
5、开始设置采集节点及列表页正则:
(1)、输入节点名称:采集实例
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第5张
(2)、采集页面地址:http://www.phome.net/tmp/cjpage/list.html
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第6张
(3)、由列表页的源代码:“<a href="page1.html" target="_blank">”,我们得出“内容页地址前缀”为:http://www.phome.net/tmp/cjpage/
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第7张
(4)、设置“信息页链接正则”:由列表页的源代码得出。
图1:页面源代码 
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第8张 
图2:得出的信息页链接正则 
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第9张
6、点击采集的内容页页面并查看源文件:http://www.phome.net/tmp/cjpage/page4.html
图1:内容页页面
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第10张
图2:内容页源代码
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第11张
7、设置内容页内容正则:(标题及内容正则)
(1)、标题正则:由源代码内容我们得出“新闻标题”正则为:
图1:页面源代码 
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第12张 
图2:得出的标题正则 
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第13张
(2)、内容正则:由源代码内容我们得出“新闻内容”正则为:
图1:页面源代码
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第14张 
图2:得出的新闻内容正则 
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第15张
8、点击“提交”按钮即可增加节点完毕,整个表单最终效果如下:
[点击查看]
 
二、预览采集正则是否正确:
1、上面增加采集节点后,我们返回“管理节点”页面,如下:
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第16张
2、点击“预览”采集,进入节点正则预览与验证:
图1:采集页面地址列表 
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第17张
图2:信息链接列表
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第18张 
图3:采集的内容页内容
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第19张
3、上面链接列表页及内容页内容预览无误后方可进行采集操作。
 
三、开始采集:
1、上面的采集节点正则预览无误后,我们返回“管理节点”页面:
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第20张
2、点击上面的“开始采集”链接,开始进行采集;
3、采集信息完成后,系统会转向采集入库页面,如下:
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第21张
 
四、对采集的数据进行审核并入库:
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第22张 
即可完成入库操作:
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第23张 
管理栏目信息也可以看到我们刚才入库的信息: 
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第24张
 
五、生成栏目及内容HTML页面:
点击“系统设置”大菜单>“数据更新中心”,进入数据更新中心页面:
1、生成首页:点击“刷新首页”。
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第25张
2、生成栏目页:“生成多栏目页面”选择“新闻系统”这个栏目,然后点击“开始刷新”。
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第26张
3、生成内容页:“按条件生成信息内容页面”:
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第27张
 
六、预览前台页面
首页: 
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第28张
列表页:
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第29张
信息内容页:
帝国CMS系统采集操作流程图文教程(帝国cms自动采集)  帝国CMS 帝国CMS教程 帝国CMS采集 第30张
 
至此本实例讲解完毕。

常见问题

1、提示信息:Warning: preg_replace() [function.preg-replace]: Compilation failed: range out of order in character class at offset 83 in 
答:你的采集正则变量名写错导致,请检查你的正则变量。

 

个人经验:

  1.采集的正则能写得越简单越好。
  当然,复杂的话针对性强,比较不容易采到不要的内容,但能在保证不采到不要的内容的前提下,越简单,一个正则对该网页的通用性就越强。比如说一样是采<a href="链接">这个链接,个人觉得,如果你已经设定了链接区域,区域内不会有别的链接的话,与其把链接正则写成<a href="[!--newsurl--]">,还不如写成href="[!--newsurl--]"。这样,万一有几页的链接对方写成了<A href="链接">,也不会影响你的采集效果。

  当然,对方不会莫名其妙地改变自己的模板,上面只是举个例子。而我是懒人,懒人的目标就是用最少的正则采到最多的新闻。
  正则写得简单,还是对自己采集水平的一个锻炼。越简单,找正则规律的要求就越高,多锻炼自己,采集时才比较容易一次就采到自己想要的东西。


  2.在正则内尽管减少空格和回车的使用。
  这样说可能不是很明白。空格谁不用?注意:这里说的不是一个或两个空格,而是大片相连的空格。
  空格的存在当然是必要的,但写采集正则时出现大片相连的空格甚至包含大量回车时只能说明两个问题:一,要么是对方的网页太难采集,让你不得不使用大片相连空格及回车来区分采集区域,否则找不到别的办法了;二,要么是你太懒,懒得仔细地找正则,看到什么就是什么,大片的复制下来再说,反正复制得越多越不容易和别的重复。
  相信大多数人都是第二种。
  但要注意,当你大量复制对方网页代码当成正则时,你也把自己推入了一种很可能采集失败,或是某几页能成功,某几页以失败告终的险境。
  某几页成功、某几页失败的原因,同第1条所述,对方有可能偶尔在页面内改变正则。这种情况虽然不大遇到,但要充分考虑到。
  大多数复制大量代码当正则的同志,是处于一种不成功便成仁的境地的。因为空格还算好,不会出太多问题;但回车的问题很严重。我采集时,发现,往往有些网页在正则内使用了回车,就会采集失败——完全不认采集区域。回车是个很好的辨识标志,但——具体原因还不明了——有时它会导致整个采集过程的失败。www.copyie.com


  3.分页区域正则。
  很多人能很好地设定整个页面的正则,但往往失败在分页正则上(我到现在都不是每个分页都能采得到)。这里提几个技巧。
  第一,尽量不要把分页区域包含在新闻正文正则内。这一点……如果有人看菜鸟手册的话……严正声明,那里面是写错的,当时对采集不是很了解,所以写错了。如果把分页区域包含在新闻正文正则内,会导致采到的新闻有两行第1页、第2页等的显示——因为把对方的分页也当正文采来了。
  第二,要注意“上下页导航”和“全部列出式”。现在大多数网页是两种模式同时存在的。所以在写正则时,如果你是使用某一种模式,要注意过滤掉另一种模式的链接,不然会导致采到过多的分页,一般是会出现两个第2页。
  第三,当分页采集屡屡失败,又实在查不出错在哪里时,请看一下第2、3、4……页的新闻正文的正则,是否与你写的新闻正则一致。有的网页,后面几页用到的代码和第一页会不一样,往往会比第一页少掉一些,这时,如果你用的新闻正文正则正好用到了后面几页没有的代码,那你分页正则即使写得完全没有问题,由于后几页的正文它采集不到,显示出来的就是没有采到分页(T_T 某莲曾在这个问题上给它耗掉整整一个晚上,血泪史啊……)

 


  4.采集中尽量减少用*,或者,至少有选择性地用*。
  比如<a href="链接">OOXXOOXX</a>这个,不少人喜欢用<a href="[!--newsurl--]">*</a>来采集。但是试问,这个*有什么意义吗?列位哪位有见过,有哪个<a>.....</a>之间是没有东西的吗?所以这个*放在这里,有放没放是一个样的。除非是这个链接正则太复杂了,一定要靠*之后的代码继续区分判断,以过滤掉不要的,这时才需要用*。
  用*有一个弊端——在你对正则看得不是很清楚,不太负责任地加*的时候,很可能不能完全采集到你想采集的内容,或是一不小心把要采集的内容去掉了。所以能不用*尽量不要用*。 

    仿站 仿站
转载请说明出处
知优网 » 帝国CMS系统采集操作流程图文教程(帝国cms自动采集)

发表评论

您需要后才能发表评论