织梦采集规则(织梦 采集)

访客2024-02-22 21:50:1653

这篇文章给大家聊聊关于织梦采集规则,以及织梦 采集对应的知识点,希望对各位有所帮助,不要忘了收藏本站哦。

织梦(dedecms)建站顺序是怎样的

1、了解dedecms2、安装及使用dedecms3、对dedecms进行二次开发说明:除了介绍部分,其余都是自己原创第一节了解DedeCMS1、什么是DedeCMSDedeCMS是一个网站应用系统构建平台,也是一个强大的网站内容管理系统。既可以用来构建复杂体系的企业信息门户或电子商务网站平台,也可以用来管理简单内容发布网站,不管是商务资源门户还是娱乐信息门户,它都是您管理网站的好帮手,能帮助您最大限度的去自由发挥您的网站设计天才,更轻松的驾驭管理您的网站而不需要非常专业的网站技术,使您把网站设计变成更加乐趣的工作,让您满足想到就会做到的梦想。借助灵活而强大的处理技术和先进的网站管理思想所构建出的软件,使您天才的设计思想在网站创意及管理等多方面尽情的去自由发挥而不受束缚。这是DedeCMS官网上的说明,让大家先有个了解,DedeCMS目前版本为4.0,2007版一直在跳票。DeDeCMS的作者为:林学(IT柏拉图)关于林学,可以通过这篇文章了解一下《专访“IT柏拉图”:让全世界都看到中国开源CMS!》,地址:<http://www.dedecms.com/html/CMS/20070531/38905.html>DedeCMS应该是比较早走开源路线的CMS,因此有相当多的用户在使用。2、系统需求DedeCMS基于php语言开发,需要以下环境支持:服务器平台inux、FreeBSD、Solaris、Unix、Win2000、Win2003Web服务器运行环境:Apache1.3.XX(2.0.XX)/IIS5(6)+php4.3.X/4.4X/5.x+MySQL3.2X/4.0x+补充说明:1)要正常使用DedeCms的各项功能,PHP还需要支持GD扩展(建议GD版本不低于2.0)2)后台管理端目前只支持InternetExplorer,并且要求版本不低于6.0,否则可能会导致未知错误(编辑器不显示等等,此问题在4.0版中已经修正,可选支持开源的FCK编辑器)。其中后一个问题在4.0中已经解决,也就是使用开源的FCK编辑器,可支持不同的浏览器。我个人使用Dede的环境介绍一下,大家可以参考本机调试环境(windows2003/Apache2.2.4/Mysql5.0/php5.2/dedecms4.0RC)也就是我现在的电脑环境。服务器环境(FreeBSD6.2/apache2.2.4/mysql-5.0.41/php-5.2.3)基本上都是比较新的版本。有关环境的配置,尤其是linux和freebsd的,可以参考我的博客文章http://blog.csdn.net/expendable/archive/2007/06/16/1654181.aspx3、系统主要特点1)频道模型管理DedeCms自带普通文章、软件、图片集、Flash、专题五种固定模型,用户还可以根据自己的需要扩展自定义模型,用户可以在后台决定是否启用某个频道模型。据说2007能支持更多的模型,期待中,目前这些模型应该是大部分cms都支持的常见功能。2)栏目管理DedeCms栏目与频道模型是关连的,支持无限级分类,允许用户手动选择单个栏目的模板,允许用户自行设定栏目列表和文档的命名规则,允许使用一个单独页面作为栏目,支持自动用拼音作为文档的名称。对于栏目管理,我所关注的是每个栏目可以支持单独的模板。3)内容发布支持自定义模型,内容发布也分是固定的发布表单还是可变的发布表单,但在DedeCms中,所有内容的摘要信息都会视作统一的模式,可以统一导出为RSS链接,因此内容发布的摘要信息是固定的,而具体内容则是可变的。同样对于内容发布,也支持每一篇文章使用完全不同的模板。4)增强的文章系统DedeCms内置的文章系统模型更注重全文索引、搜索引擎优化等方面,支持将远程媒体本地化,支持自动获取关键字,并生成索引,支持从Word里粘贴内容,此外对文章关键字、置顶、高亮这些细节的地方也作了处理。dedecms作者自己开发了分词算法,让dede在系统本身就具备某些seo的天性。5)专题DedeCms的专题模块支持使用多个分类节点,文章列表支持用多列或图文的形式展现,有更高的灵活性。通过文章和专题结合,可以实现很多的个性栏目,例如小说类型。6)采集系统DedeCms提供在线的采集系统,这个版本的采集系统是一个通用的采集系统,有通用的扩展接口,理论上能采集任何模型的内容,可采集文章及图片类型。dede的自带采集器,据说3.1版本的很好用,4的效率有所下降,因为我没用,所以没有仔细研究。但是估计是关键词和相关网站造成的效率降低。dede的采集系统和常见的采集系统大同小异,但是对html代码过滤设计不人性化。需要正则表达式过滤,可参考文档:<http://blog.csdn.net/expendable/archive/2007/08/30/1764680.aspx>7)外部系统整合DedeCms提供了整合外部会员系统的接口,对于有特殊需求的用户,可以随心所欲的让DedeCms内置的会员系统与你网站的其它系统任意通行。这个也是常见功能。目前已经编写好的API接口文件的程序在下面列表中PW4.3.2/5.3DZ5.0/5.5DVBBS-ASP7.10DVBBS-PHP1.038)人性化DedeCms提供了很多的实用工具让用户更容易使用这套系统,例如文档批量生成、数据库内容替换、正则表达式测试工具、重复文档检测、批量自动摘要/分页、网站木马扫描检测、随机模板防采集等。这也是让很多用户高兴的地方,这些小工具,实用简单。9)自定义标记DedeCms支持自定义标记,并且允许在自定义标记中使用模板代码,允许对不同的类别使用不同的内容,使系统的灵活性达到前所未有的高度。10)常用附件DedeCms提供了投票、友情链接、站点公告、留言本、论坛扩展等附助模板,使你更轻松的创建你的网站。字太多,装不下了

采纳哦

织梦的视频教程

最新视频目录:

织梦CMS网站顶部添加横向登录框

1、DedeCMS默认风格里,顶部左边有一段话织梦CMS-轻松建站从此开始!,很多朋友想把这段话修改成一个横向登录框,像织梦吧顶部一样。织梦吧独家发布《第一季织梦DEDECMS建站视频教程》by:D8站长网(原织梦吧)第1讲.Dedecms本地环境配置、站点搭建第2讲.Dedecms站点备份/搬家/优化第3讲.采集规则的写法/导入/数据整理第4讲.Dedecms模板安装视频教程第5讲.Dedecms系统站点广告添加与更换第6讲.文档列表标签(arclist)的使用第7讲.使用dede模板搭建站点【强化篇】第8讲.友情链接的调用及其分类扩展调用第9讲.织梦Dede专题和自定义宏标记的调用第10讲.织梦dedecms评论和自定义表单的使用第11讲.DEDECMS仿站实战之首页仿制(1)第12讲.DEDECMS仿站实战之首页仿制(2)第13讲。织梦dedecms仿站实战之列表页仿制第14讲。织梦DEDECMS仿站实站之内页仿制第15讲.让DEDECMS站点与新浪微博内容同步第16讲.DEDECMS仿站实战之单页的制作第17讲.织梦DEDECMS仿站实战之留言本美化第18讲.织梦CMS仿站实战之企业模板调用第19讲.织梦DEDECMS仿站实战之军事站仿制1第20讲.织梦DEDECMS仿站实战之军事站仿制2第21讲.织梦CMS幻灯片调用方法及其扩展第22讲.织梦CMS仿站实战之军事站仿制3第23讲.织梦CMS仿站实战之军事站仿制4第24讲.织梦CMS仿站实战之军事站仿制5第25讲.织梦仿站实战6及dedecms横向登录调用第26讲.DEDECMSv5.7建站:企业站结构架设第27讲.DEDECMS企业模板安装调用实战第28讲.更多视频教程,请关注论坛视频版块第29讲.织梦安装以及基础操作视频教程_基础操作(2)第30讲.织梦安装以及基础操作视频教程_基础操作(2)第31讲.织梦安装以及基础操作视频教程_基础操作(2)第32讲.织梦安装以及基础操作视频教程_基础操作(2)第33讲.织梦视频教程_模版修改标签调用列表页

织梦dede采集方法教程

方法/步骤

1、首先我们打开织梦后台点击

采集——采集节点管理——增加新节点

2、这里我们以采集普通文章为例,我们选择普通文章,然后确定

3、我们进入了采集的设置页面,填写节点名称,就是给这个新节点取个名字,这里你可以任意填写。

然后打开你想要采集的文章列表页,打开链接这个页面,右键——查看源文件

找到目标页面编码,就在charset后面

4、页面基本信息其他的一般就不用管了,填完了如图

5、现在我们来填写列表网址获取规则

看看文章列表第一页的地址jianzhanxinde/list_49_1.html

对比第二页的地址jianzhanxinde/list_49_2.html

我们发现了他们除了49_后面的数字不一样,其他的都一样,所以我们可以这样写

/jianzhanxinde/list_49_(*).html

就是把1换成了(*)

因为这里只有2页,所以我们就填从1到2

每页递增当然是1了,2-1...是等于1吧

这里我们就填写完了

6、可能大家采集的有些列表没有规则,那就只有手工指定列表网址了,如图

7、每行写一个页面地址

列表规则写完了,我们就开始写文章网址匹配规则了,回到文章列表页

右键查看源文件

找到区域开始的HTML,就是找文章列表开始的标志。

8、我们很容易的找到了如图中的“新闻列表”

。从这里开始,后面就是文章列表里

我们再找文章列表结束的HTML

9、就是这个了,一个很容易找到的标志

如果链接中含有图片:

不处理

采集为缩略图

这里根据自己的需要选择

对区域网址进行再次筛选:

(使用正则表达式)

必须包含:

(优先级高于后者)

不能包含:

打开源文件,我们可以很清楚的看到,文章链接都是以.html结束的

所以,我们在必须包含后面填.html

如果遇到有些列表很麻烦,还可以填写后面的不能包含

8、我们点击保存设置进入下一步,可以看到我们获得的文章网址

看到这些就是对的了,我们保存信息进入下一步设置内容字段获取规则

我们看看文章有没有分页,随便进入一篇文章看看。。我们看到这里的文章没有分页

所以这里的我们就默认了

9、我们现在来找文章标题等等

随便进入一篇文章,右键查看源文件

看看这些

10、依照源码填写

11、我们再来填写文章内容的开始,结束

和上面的一样,找到开始和结束标志

12、开始:

12、结束:

13、你想过滤文章中的什么内容就到过滤规则里写吧,比如要过滤文章中的图片

选择常用规则

14、再勾选IMG,然后确定

15、这样我们就把正文中的图片过滤了

设置完毕后点保存设置并预览

这样一个采集规则就写好了,很简单吧有些网站很难写,可要多下点功夫了哦

16、我们点保存并开始采集——开始采集网页

一会的功夫就采集完了

17我们看看我们采集到的文章

18、看来是成功了,我们导出数据吧

好了,文章到这里就结束啦,如果本次分享的织梦采集规则和织梦 采集问题对您有所帮助,还望关注下本站哦!

控制面板

您好,欢迎到访网站!
  查看权限

最新留言