存档

文章标签 ‘采集’

采集必备,dede过滤规则.自己发现dede的过滤规则真的是采集很重要的东西。。。
——————————–
1.采集去除链接
{dede:trim}]*)>([^<]*){/dede:trim}
让field:title 标题突破30这个长度,修改代码的方法
找到./include/inc_arcpart_view.php
行291 :
if($titlelen==””) $titlelen = 30;
修改为
if($titlelen==””) $titlelen = 60;
就可以了,然后,你可以这样调用了
{dede:channelArtlist typeid=’0′ col=1 tablewidth=’100%’}
{dede:arclist row=”10″}
[field:title function="cn_substr('@me',38)" /]
{/dede:arclist}
{/dede:channelArtlist}

二 23rd, 2009 | Filed under 网站.程序.代码

(接之一)为了完整, 我应该涉及到 collating sequences, character classes, 同埋 equivalence classes. 但我在这些方面不想讲的太详细, 这些在下面的文章仲都不需要涉及到. 你们可以在 regex man pages 那里得到更多消息.
如何构建一个模式来匹配 货币数量 的输入
好了,现在我们要用我们所学的来干一些有用的事:构建一个匹配模式去检查输入的信息是否为一个表示money的数字。我们认为一个表示money的数量有 四种方式: “10000.00″ 和 “10,000.00″,或者没有小数部分, “10000″ and “10,000″. 现在让我们开始构建 这个匹配模式:
^[1-9][0-9]*$

二 23rd, 2009 | Filed under 网站.程序.代码

我们在使用dedecms的时候,有时会采集一些资料,那么,要能很好的过滤我们不需要的东西,dede采集所使用的正则表达式还得会一些,下面通过一些例子来练习一下我们以前学过的正则表达式:
首先,让我们看看两个特别的字符:’^’ 和 ‘$’ 他们是分别用来匹配字符串的开始和结束,一下分别举例说明:
“^The”: 匹配以 “The”开头的字符串;
“of despair$”: 匹配以 “of despair” 结尾的字符串;
“^abc$”: 匹配以abc开头和以abc结尾的字符串,实际上是只有abc与之匹配;
“notice”: 匹配包含notice的字符串;

二 23rd, 2009 | Filed under 网站.程序.代码

刚刚接触DEDECMS,还不是很熟,在网上找了些采集教程自己研究一下。
以下是常用的正则表达式标签

1
2
3
4
5
6
7
8
9
10
11
12
{dede:trim}<tbody (.*)>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table (.*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<tr (.*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<td (.*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<font (.*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a (.*)>{/dede:trim}
</a>

二 23rd, 2009 | Filed under 网站.程序.代码