巧妙运用PHP函数实现采集器（php自动采集如何实现）-编程开发-知优网

文章这里巧妙利用PHP函数中的file_get_contents()和preg_match_all()实现采集器，希望对大家有帮助。

PHP经过长时间的发展，很多用户都很了解PHP了，我们现在可以利用PHP函数实现采集器程序。何为采集器，通常又叫小偷程序，主要是用来抓取别人网页内容的。关于采集器的制作，其实并不难，就是远程打开要采集的网页，然后用正则表达式将需要的内容匹配出来，只要稍微有点正则表达式的基础，都能做出自己的采集器来的。

#T#前几天做了个小说连载的程序，因为怕更新麻烦，顺带就写了个采集器，采集八路中文网的，功能比较简单，不能自定义规则，不过大概思路都在里面了，自定义规则可以自己来扩展。用php来做采集器主要用到两个PHP函数：file_get_contents()和preg_match_all()，前一个是远程读取网页内容的，不过只在php5以上的版本才能用，后一个是正则函数，用来提取需要的内容的。面就一步一步来讲功能实现。因为是采集小说，所以首先要将书名、作者、类型这三个提取出来，别的信息可根据需要提取。

这样还不够，还需要一个切取PHP函数：

functioncut($string,$start,$end){ 
$message=explode($start,$string); 
$message=explode($end,$message[1]);return$message[0];}其中$string为要被切取的内容，$start为开始的地方，$end为结束的地方。取出分类号： 
$start="Html/Book/"; 
$end 
="List.shtm"; 
$typeid=cut($typeid[0][0],$start,$end); 
$typeid=explode("/",$typeid);[/php] 
这样，$typeid[0]就是我们要找的分类号了。方法如下： 
$ustart="\""; 
$uend 
="\""; 
//t表示title的缩写 
$tstart=">"; 
$tend 
="<"; 
//取路径,例如:123.shtm,2342.shtm,233.shtm 
preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url); 
//取标题,例如:***章九世善人 
preg_match_all("/<ahref=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title); 
$countcountcount=count($url[0]); 
for($i=0;$i<=$count;$i++) 
{ 
$u=cut($url[0][$i],$ustart,$uend); 
$t=cut($title[0][$i],$tstart,$tend); 
$array[$u]=$t; 
}