6kbbs V8.0 官方论坛  - 手机版
论坛|登录|注册
论坛 > 6KZZ使用问题
发帖 | 3942点击, 6回复.
采集的文章只有标题没有内容
1楼, ican123, 回复
发表于 2011-06-26 09:17
大家好,请教大伙一个问题,就是偶用“文章采集”的时候,一次采集文章20篇,查看了一下才发现,文章的标题是采集到了,可是文章的内容并没有采集到,请问如何解决?
谢谢
采集是用系统自带的admin5的

采集规则如下:
<?php
/*以下为采集的规则,带“★★★★★”的项目,用户可以根据需要自行修改,其他的尽量不要修改。*/
//★★★★★ 开始采集的URL
$BEGIN_URL="http://www.admin5.com/browse/177/index.shtml";
//★★★★★ 采集的数量,请勿填写过大,建议填写100
$COL_LIMIT_NUM = 100;
//被采集的网站的编码
$WEB_CHARSET="gb2312";
//获取文章URL的正则表达式
$VIEW_URL_P='/\/article\/(\d{8,8})\/(\d{6,6}).shtml/isU';
//★★★★★ 文章URL的正则匹配项的范围, array("1","100","999") 表示匹配的第一项的范围是100至999
$VIEW_URL_RANGE=array(
array("1","20100825","20150909"),
array("2","100000","999999"),
);
//获取文章URL的前缀
$VIEW_URL_PRE='http://www.admin5.com';
//文章标题的正则表达式
$COL_TITLE_P='/<h1>(.*)<\/h1>/isU';
//文章标题的正则表达式的匹配项
$COL_TITLE_P_N=1;
//文章标题中需要替换的字符串,请使用正则表达式
$COL_TITLE_REPLACE_R=array(
"/6kbbs论坛/is"=>"6KBBS官方论坛",
);
//文章内容的正则表达式
$COL_CONTENT_P='/<div id=\"arctext\">(.*)<\/div>(.*)<div class=\"author\">/isU';
//文章内容的正则表达式的匹配项
$COL_CONTENT_P_N=1;
//文章内容中需要替换的字符串,请使用正则表达式
$COL_CONTENT_REPLACE_R=array(
"/6kbbs论坛/is"=>"6k论坛",
);
$IS_DEBUG=false;
?>
该帖子于 2011-06-26 15:53 编辑过
2楼, zym, 回复
发表于 2011-06-26 10:29
可能对方的规则已经改了!
你采集哪个的?
3楼, ican123, 回复
发表于 2011-06-26 15:51
该帖子于 2011-06-26 17:09 编辑过
4楼, zym, 回复
发表于 2011-06-27 00:02
刚刚测试了一下,admin5的规则有点改动了。
以下是我测试通过的:
  1. <?php
  2. /*以下为采集的规则,带“★★★★★”的项目,用户可以根据需要自行修改,其他的尽量不要修改。*/
  3. //★★★★★ 开始采集的URL
  4. $BEGIN_URL="http://www.admin5.com/browse/15/";

  5. //★★★★★ 采集的数量,请勿填写过大,建议填写100
  6. $COL_LIMIT_NUM = 100;

  7. //被采集的网站的编码
  8. $WEB_CHARSET="gb2312";

  9. //获取文章URL的正则表达式
  10. $VIEW_URL_P='/\/article\/(\d{8,8})\/(\d{6,6}).shtml/isU';

  11. //★★★★★ 文章URL的正则匹配项的范围, array("1","100","999") 表示匹配的第一项的范围是100至999
  12. $VIEW_URL_RANGE=array(
  13.         array("1","20110622","20110626"),       
  14.         array("2","100000","999999"),       
  15. );

  16. //获取文章URL的前缀
  17. $VIEW_URL_PRE='http://www.admin5.com';

  18. //文章标题的正则表达式
  19. $COL_TITLE_P='/<h1>(.*)<\/h1>/isU';
  20. //文章标题的正则表达式的匹配项
  21. $COL_TITLE_P_N=1;
  22. //文章标题中需要替换的字符串,请使用正则表达式
  23. $COL_TITLE_REPLACE_R=array(
  24.         "/6kbbs论坛/is"=>"6KBBS官方论坛",
  25. );

  26. //文章内容的正则表达式
  27. $COL_CONTENT_P='/<div class=\"content\">(.*)<\/div>(.*)<ul class=\"page clearfix\">/isU';
  28. //文章内容的正则表达式的匹配项
  29. $COL_CONTENT_P_N=1;
  30. //文章内容中需要替换的字符串,请使用正则表达式
  31. $COL_CONTENT_REPLACE_R=array(
  32.         "/6kbbs论坛/is"=>"6k论坛",
  33. "/\/upimg\/allimg\//is"=>"http://www.admin5.com/upimg/allimg/",
  34. );
  35. $IS_DEBUG=false;
  36. ?>
5楼, ican123, 回复
发表于 2011-06-27 08:23
回复 #4 zym

测试通过,谢谢管理
6楼, phgl, 回复
发表于 2012-06-22 17:25
回复 #4 zym


好东西 支持啊
7楼, love6kbbs, 回复
发表于 2012-06-22 19:35
回复 #4 zym

老大好强,采集代码我完全不懂。
TOP
论坛 > 6KZZ使用问题