首页 | 资讯动态 | linux基础 | 系统管理 | 网络管理 | 编程开发 | linux数据库 | 服务器技术 | linux相关 | linux认证 | 嵌入式 | 下载中心 | 专题 | linux招聘 | 镜像站
OKLinux中文技术站
·设为首页
·加入收藏
·联系我们
系统管理: 中文环境 系统管理 桌面应用 内核技术 | Linux基础: 基础入门 安装配置 常用命令 经验技巧 软件应用 | Linux数据库: Mysql Postgre Oracle DB2 Sybase other
网络管理: 网络安全 网络应用 Linux服务器 环境配置 黑客安全 | 编程开发: PHP CC++ Python Perl Shell 嵌入式开发 java jsp | PHP技术: PHP基础 PHP技巧 PHP应用 PHP文摘
Linux资讯 Linux招聘 Linux专题 Apache | Linux相关: 硬件相关 Linux解决方案 Linux认证 企业应用 其它Unix | 相关下载: 资料下载 参考手册 开发工具 服务器类 软路由 其它
 技术搜索:
会员中心 注册会员 高级搜索  
  → 当前位置:首页>编程开发>php>php基础>正文

正则表达式在UBB论坛中的应用

http://www.oklinux.cn  2003-05-01  来源: 互联网    会员收藏  游客收藏  【 】 

一、读者指引

  读者指引帮助你掌握本文的梗概。以免你看了大半才明白这编文章不适合你,给你造成视觉污染。
  如果你正在用ASP写程序,或者你正在写一些诸如BBS、留言溥或表单数据检查之类的东东那就值得一看。

  如果你对正则表达式已经了如指掌,那么你不必一行行的看,只要看看我写的模板,再比较一下,取其精华就行了。
  如果你还是第一次接触正则表达式,那么你最好一行行的看,并逐条试验

  当你熟练的掌握了正则表达式的用法,你就会发现其乐无穷。

二、正则表达式的概念

  什么是UBB代码?什么是正则表达式?

  UBB代码是HTML的一个变种。一般情况下,UBB论坛不允许你使用HTML代码,而只能用UBB代码替代HTML代码。
  UBB代码是一套由流行的UBB标签组成了固定代码,代码有统一的格式。用户只要遵循代码规则就可以实现用户想要的功能。如:
  想要显示粗体的how are you 字样,就应该输入 how are you而不是输入<b>how are you</b>

  你也许会问:ASP是怎样把 how are you转换为<b>how are you</b>的呢?
  回答这个问题就是:用正则表达式。

三、正则表达式的用途

有时我们在制作网站表单数据处理的时候(尤其是UBB论坛),都需要进行数据验证和字符串替代,特别是UBB论坛要进行大量的数据安全性和字符串替代

邮于一般的论坛不支持HTML语法这就使得用户不能修改字体,不能贴图等等一些功能。这样使得论坛失去了吸引用户的一个强有力的途径。可能说一个强大的论坛在吸引用户数量上还是很重要的。这样就出现了一个UBB解决方案,即在论坛不支持HTML语法的情况下用户仍然可以定制自已贴子的样式,贴图,增加链接,转贴网页等等诸多的功能,可能达到支持HTML语法同样的效果,而且这样可以使得论坛相对于HTML的论坛安全性大大提高。用户基本不能对论坛过行任何恶意攻击。

四、正则表达式的语法规则和标记

  现在我们正式进入则表达式的学习,我会根据实例结合讲解正则表达式的用法,看完后你就会觉得写UBB代码如此简单了,只要你一步一步的跟着我学 看完本文章后你就成为UBB高手了。激动人心的就是你能写出自已的UBB标签来了,再也不用到别人那里去拷贝现成的代码和模板了。 还好VBScritp5.0给我们提供了“正则表达式”对象,只要你的服务器安装了IE5.x,就可以运行了.

  字符描述:

  ^符号匹配字符串的开头。例如:
    ^abc 与“abc xyz”匹配,而不与“xyz abc”匹配

  $符号匹配字符串的结尾。例如:
    abc$ 与“xyz abc”匹配,而不与“abc xyz”匹配。
    注意:如果同时使用^符号和$符号,将进行精确匹配。例如:
       ^abc$ 只与“abc”匹配   

  *符号匹配0个或多个前面的字符。例如:
    ab* 可以匹配“ab”、“abb”、“abbb”等

  +符号匹配至少一个前面的字符。例如:
    ab+ 可以匹配“abb”、“abbb”等,但不匹配“ab”。

  ?符号匹配0个或1个前面的字符。例如:
    ab?c? 可以且只能匹配“abc”、“abbc”、“abcc”和“abbcc”

  .符号匹配除换行符以外的任何字符。例如:
    (.)+ 匹配除换行符以外的所有字符串

  x|y匹配“x”或“y”。例如:
    abc|xyz 可匹配 “abc”或 “xyz”,而“ab(c|x)yz”匹配 “abcyz”和“abxyz”

  {n}匹配恰好n次(n为非负整数)前面的字符。例如:
    a{2} 可以匹配“aa“,但不匹配“a”

  {n,}匹配至少n次(n为非负整数)前面的字符。例如:
    a{3,} 匹配“aaa”、“aaaa”等,但不匹配“a”和“aa”。
    注意:a{1,}等价于a+
       a{0,}等价于a*

  {m,n}匹配至少m个,至多n个前面的字符。例如:
    a{1,3} 只匹配“a”、“aa”和“aaa”。
    注意:a{0,1}等价于a?

  [xyz]表示一个字符集,匹配括号中字符的其中之一。例如:
    [abc] 匹配“a”、“b”和“c”

  [^xyz]表示一个否定的字符集。匹配不在此括号中的任何字符。例如:
    [^abc] 可以匹配除“a”、“b”和“c”之外的任何字符

  [a-z]表示某个范围内的字符,匹配指定区间内的任何字符。例如:
    [a-z] 匹配从“a”到“z”之间的任何一个小写字母字符

  [^m-n]表示某个范围之外的字符,匹配不在指定范围内的字符。例如:
    [m-n] 匹配除从“m”到“n”之间的任何字符

  符号是转义操作符。例如:
    n 换行符
    f 分页符
    r 回车
    t 制表符
    v 垂直制表符

     匹配“”
    / 匹配“/”

    s 任何白字符,包括空格、制表符、分页符等。等价于“[ fnrtv]”
    S 任何非空白的字符。等价于“^fnrtv]”
    w 任何单词字符,包括字母和下划线。等价于“[A-Za-z0-9_]”
    W 任何非单词字符。等价于“[^A-Za-z0-9_]”

    b匹配单词的结尾。例如:
      veb 匹配单词“love”等,但不匹配“very”、“even”等

    B匹配单词的开头。例如:
      veB 匹配单词“very”等,但不匹配“love”等

    d匹配一个数字字符,等价于[0-9]。例如:
      abcdxyz 匹配“abc2xyz”、“abc4xyz”等,但不匹配“abcaxyz”、“abc-xyz”等

    D匹配一个非数字字符,等价于[^0-9]。例如:
      abcDxyz 匹配“abcaxyz”、“abc-xyz”等,但不匹配“abc2xyz”、“abc4xyz”等

    NUM匹配NUM个(其中NUM为一个正整数),引用回到记住的匹配。例如:
      (.)1 匹配两个连续相同的字符。

    oNUM匹配n(其中n为一个小于256的八进制换码值)。例如:
      o011 匹配制表符

    xNUM匹配NUM(其中NUM为一个小于256的十六进制换码值)。例如:
      x41 匹配字符“A”

五、实例分析

1)在字符串中精确查找链接地址

((http|https|ftp):(//|)((w)+[.]){1,}(net|com|cn|org|cc|tv|[0-9]{1,3})(((/[~]*|[~]*)
(w)+)|[.](w)+)*(((([?](w)+){1}[=]*))*((w)+){1}([&](w)+[=](w)+)*)*)

我们知道,链接地址一般以http或者https或者ftp等形式出现。初步总结一下就是,链接地址必须符合如下条件:

条件1
 以/upimg/070919/11Z13M9413014419.jpg或者http://或者ftp://等开头(当然还有其它形式,这里只列出主要的)

条件2
 /upimg/070919/11Z13M9413014419.jpg后面必须跟一个单词字符,紧接着单词字符后面的是"."(这样的组合必须出现一次或多次)。紧跟着“.”后面的是域名后缀(如net或者com或者cn等,如果是以IP地址的形式出现就可以是数字)

条件3
 出现完整的链接地址后,还可以出现下一级或者更多级的目录(还要注意个人主页的地址有可能出现"~"符号)

条件4
 链接地址末尾可以带参数。如典型的页数?PageNo=2&action=display等

现在我们用下面的代码来逐个匹配上面的条件——

1、((http|https|ftp):(//|) 满足条件1
表示/upimg/070919/11Z13M9413014419.jpg http: http:// https: ftp:// ftp:都匹配(在这里考虑了某些用户可能把"//"输成“”的易发性错误)
注意:"|"表示“或者”,""是转义字符。“//”表示"//",“”表示""

2、((w)+[.]){1,}(net|com|cn|org|cc|tv|[0-9]{1,3}) 满足条件2
“((w)+[.]){1,}”表示一个单词字符加一个点号可以出现1次或者多次(这里考虑了某些用户喜欢省略www而将/upimg/070919/11Z13M9413014419.jpgwww.w3c.com写成/upimg/070919/11Z13M9413014419.jpgw3c.com)
“(net|com|cn|org|cc|tv|[0-9]{1,3})”表示必须要以net或者com或者cn或者org或者cc或者tv或者三位以下的数字结束
[0-9]{1,3}表示三位以下的数字,因为ip地址的任何段不能超过255

3、(((/[~]*|[~]*)(w)+)|[.](w)+)* 满足条件3
“(/[~]*|[~]*)”表示可以出现"/~"或者是"~",(其中“[~]*”表示 ~ 可以出现也可以不出现),因为不是每个链接地址都有下一级目录
“(w)+)|[.](w)+)”表示必须出现一个单词字符(即目录或者是一个带有扩展名的文件)
注意:最后还有一个“*”表示上面括号内的可以出现也可以不出现,否则就只能匹配有下一级目录的链接地址了。

4、(((([?](w)+){1}[=]*))*((w)+){1}([&](w)+[=](w)+)*)*)满足条件4
“((([?](w)+){1}[=]*))*((w)+){1}”表示形如"?PageNo=2"的字符串可以出现也可以不出现,如果出现则只能出现一次(因为不可能有两个“?”号出现)。

“([&](w)+[=](w)+)*)”表示形如“&action=display”的字符串可以出现也可以不出现(因为并不是每个网页都带有两个以上的参数。

整个“((([?](w)+){1}[=]*))*((w)+){1}([&](w)+[=](w)+)*)*”表示形如“?PageNo=2&action=display”的字符串可以出现也可以不出现(即链接地址可以有参数也可以没有参数)

把上面的组合起来,我们就可以匹配一个比较全面的链接地址了。比用简单的“(/upimg/070919/11Z13M9413014419.jpgS+)”来匹配一个链接地址要好,读者可以自行行测试比较。当然,这段代码还有很多不足之处,希望大家能够继续改进。

2)替代典型的UBB标签:
我们的目的就是要把成对的替换成<b></b>下面来看我们实现它的模板
  ()(.+)()
这里用了"(.+)"来配匹到之间的整个字符串,在替代的时候我们要写成这样
  str=checkexp(re,str,"<b>$2</b>")
(注意:checkexp是我自定义的函数,将在后面给出。这个函数将把
按照我们提供的模板进行替代。)

也许你会问这里出现一个"$2"是什么东东,呵注意了这个$2可是很重要的,它代表了"(.+)"所配匹的整个字符串。
为什么是$2而不是$1、$3呢?因为$1代表()所匹配的""字符串,$3代表()所匹配的""字符串,显然这里我们需要的是$2而不是$1$3。

六)UBB正则表达模板实例
下面是我写的一个UBB函数,这个函数基本上能使你的论坛成为一个优秀的UBB代码论坛了。当然,通过改进后,你可以得到一个更强大的UBB论坛。

Function ReThestr(face,str)
 dim re,str

 re=">"
 str=checkexp(re,str,"&gt;")

 re="<"
 str=checkexp(re,str,"&lt;")

 re="nrn/"
 str=checkexp(re,str,"<P>")

 re=chr(32)
 str=checkexp(re,str,"&nbsp;")

 re="r"
 str=checkexp(re,str," ")

 re="[img]((http:(//|)){1}((w)+[.]){1,3}(net|com|cn|org|cc|tv)(((/[~]*|[~]*)
(w)+)|[.](w)+)*(w)+[.]{1}(gif|jpg|png))[/img]" '查找图片地址
 str=checkexp(re,str," <img src='$1'> ")

 re="[w](http:(//|)((w)+[.]){1,}(net|com|cn|org|cc|tv)(((/[~]*|[~]*)(w)+)|[.](w)+)*
(((([?](w)+){1}[=]*))*((w)+){1}([&](w)+[=](w)+)*)*)[/w]" '查找帧地址
 str=checkexp(re,str,"<iframe width='300' height='300' src='$1'></iframe>")

 re="([^('>)])(<br>)*((http|https|ftp):(//|)((w)+[.]){1,}(net|com|cn|org|cc|tv|([0-9]{1,3}))(((/[~]*|[~]*)(w)+)|[.](w)+)*(((([?](w)+){1}[=]*))*((w)+){1}([&](w)+[=](w)+)*)*)" '查找链接地址
 str=checkexp(re,str,"$1$2 <a href='$3' target=_blank>$3</a> ")

 re="([^(/upimg/070919/11Z13M9413014419.jpg|http:)])((www|cn)[.](w)+[.]{1,}(net|com|cn|org|cc)(((/[~]*|[~]*)(w)+)|[.](w)+)*
(((([?](w)+){1}[=]*))*((w)+){1}([&](w)+[=](w)+)*)*)" '查找不以/upimg/070919/11Z13M9413014419.jpg开头的地址
 str=checkexp(re,str,"$1 <a href='/upimg/070919/11Z13M9413014419.jpg$2' target=_blank>$2</a> ")

 re="([^(=)])((w)+[@]{1}((w)+[.]){1,3}(w)+)" '查找邮件地址
 str=checkexp(re,str," <a href='mailto:$2'>$2</a> ")

 re="[0-F]{6})]((.)+)
" '替换字体色彩
 str=checkexp(re,str,"<font color='$1'>$4</font>")

 re="[size=([0-9]{1})]((.)+)" '替换字体大小
 str=checkexp(re,str,"<font size='$1'>$2</font>")

 re="((.)+)" '替换字体
 str=checkexp(re,str,"<font face='$1'>$3</font>")

 re="()(.+)()" '加粗字体
 str=checkexp(re,str,"<b>$2</b>")

 re="()(.+)()" '下画线
 str=checkexp(re,str,"<u>$2</u>")

 re="([li])(.+)([/li])" '列表
 str=checkexp(re,str,"<li>$2</li>")

 re="(

QUOTE:
)(.+)(
)" '引用
 str=checkexp(re,str,"<BLOCKQUOTE>引用:<HR SIZE=1>$2<HR SIZE=1></BLOCKQUOTE>")

 re="[email=((w)+[@]{1}((w)+[.]){1,3}(w)+)](.+)([/email])" '邮件
 str=checkexp(re,str,"<a href=mailto:$1>$6</a>")

 re="([center])(.+)([/center])" '居中
 str=checkexp(re,str,"<center>$2</center>")

 re="fuck"
 str=checkexp(re,str,"***")

 re="操"
 str=checkexp(re,str,"***")

 re="sex"
 str=checkexp(re,str,"***")

 re="TMD"
 str=checkexp(re,str,"***")

 re="shit"
 str=checkexp(re,str,"***")

 ReThestr=str
end function

UBB代码如下:
[email=] [/email]

引用: [li] [/li]

测试代码如下:

click for full size

/upimg/070919/11Z13M9413014419.jpgcn.yahoo.com
aol.com 192.168.0.1
www.yahoo.com how are you

page2000.xiloo.com/~page2000?PageNo=2&action=del
[email protected] 大家好http:page2000.shit
<font color=red>/upimg/070919/11Z13M9413014419.jpgtest.com</font>/upimg/070919/11Z13M9413014419.jpgtest
全部符合预想结果

七)ASP正则表达式对像函数如下:
Function CheckExp(patrn,strng,tagstr)
 Dim regEx,Matches

 Set regEx=New RegExp'建立一个新对像
 regEx.Pattern=patrn'设置模板
 regEx.IgnoreCase=true'搜索是否区分大小写的 true表是不区分 flase表示区分
 regEx.Global=True'搜索是否应用于整个字符串

 Matches=regEx.replace(strng,tagstr)'匹配并替代字符串

 CheckExp=Matches返回函数结果
end function

把上面的两个函数存为一个页面(如ubbcode.asp),这样就组成一个完整的UBB函数了。
在你的论坛上加上这个函数,就成了支持UBB代码的论坛了。只要在用时调用这个函数就行了。调用形式如
 text=ReThestr(text)

很久以前写的文章了不知现在还实不实用
嘻~~有错误的话
问我我也不清楚了这么久不看都忘了
:)

倒这文章看不了了禁止笑脸转换了还这样

看来ubb和ubb冲突了

哈~~~~~



上一篇:Banner程序   下一篇:正则表达式在PHP中的应用


收藏于收藏夹】 【评论】 【推荐】 【打印】 【关闭
相关文档
·Banner程序
·正则表达式在PHP中的应用
·COM Functions in PHP4 (Windows)
·正则表达式学习笔记
·COM in PHP (winows only)
·正则表达式使用详解(一)
·dateadd(),datediff()两个函数的例程
·正则表达式使用详解(二)
·正则表达式(regular expression)
·DBA函数库
·怎么样可以把 phpinfo()屏蔽掉
·Discuz!跨站大全
·则表达式判断email和URL
·do..while 循环
·在线人数统计源代码
·for 循环
发表评论
密码: 匿名评论
评论内容:

(不超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规)
 
  最新文档
·用PHP执行Oracle存储过程示例
·用php做一个简单的表单
·用Socket发送电子邮件(二)
·用Socket发送电子邮件(一)
·用中文命名,让汉字走向程序开发
·在Linux下安装显卡驱动程序
·在PHP中用描点法“绘制”中文
·在线人数统计源代码
·怎么样可以把 phpinfo()屏蔽掉
·则表达式判断email和URL
·正则表达式(regular expression)
·正则表达式使用详解(二)
  阅读排行
·php.ini 中文版
·PHP安装全攻略:常见问题解答
·Linux新手入门常用命令大全
·入门教程:学习使用PHP数组
·利用PHP和CSS改变网页文字大小
·用AJAX实现聊天功能(part 1)
·PHP5学习笔记第二节PHP5的对象模型
·PHP程序编译中常见错误信息分析及解释
·PHP开发中最常见的文件操作疑难解答
·带你走进PHP世界 PHP新手上路之一
·PHPMyVisites安装
·使用PHP实现登陆验证码
·基于PHP的AJAX技术实现文件异步上传
·视频演示:Zend Platform功能特性详解
·ajax的最大缺点是什么?对搜索引擎的支
网摘收藏: