如果您已经会使用火车头采集器规则将文章采集到宏博cms里了,
那么,这篇文件将告诉您一些高级的宏博cms火车采集参数,让您的采集更加顺畅!
会火车头入库模块编辑的网友,可以进行火车头采集器模块的高级参数设置:
add_date=&mod=&article_id=&title=[标签:标题]&jump_url=&title_color=&type_id=[分类ID]&type_id_2=0&author=[标签:作者]&from=[标签:出处]&icon_url=&editor_mark=0&body=[标签:内容]&keyword=&desc=&desc_auto=1&check_title=1&write_date_str=[标签:时间]&body_ctrl[img_to_icon]=1&split_size=3&body_length=20
editor_mark=0 表示采集后,入库的文章为未审核状态,便于采集后再做批量修改。
如果需要改为自动审核通过,请改为 editor_mark=5,预备发布是 editor_mark=2split_size=3 表示自动分页,3千字符/页
body_ctrl[img_to_icon]=1 表示 自动提取文章中的第一个图片作为缩略图
check_title=1 表示 检查重复的标题,标题重复,则不录入数据库
desc_auto=1 表示 自动截取详细内容最前面的120个汉字,将其设为简介auto_keyword=2 表示自动获取文章中的关键字
body_length=20 表示 文章内容字数少于20字,就不录入数据库。如果您需要采集文字少的页面(如 图片页),请将此参数设置为0即可如果希望使用HBCMS系统来 自动下载远程的图片,请添加参数 &body_ctrl[download_files]=1 (需要服务器支持远程下载函数,如 fopen等)
如果您希望采集到的文章随机使用多套模板(多个不同风格,不同布局的模板,可以有效防止您的页面被其它人批量采集),请添加如下参数&tpl_dir[]=zh-gb2312.tpl_1&tpl_dir[]=zh-gb2312.tpl_2&tpl_dir[]=zh-gb2312.tpl_3&tpl_dir[]=zh-gb2312.tpl_4 其中zh-gb2312.tpl_1等是模板的目录名,您可以修改成您自己的模板