February 3, 2007
一直以来, 众多的编辑器只能做查找和替换工作, 假如你要从一篇文章中选择一些符合你要求的文字出来的话, 把其他不符合要求的文字全部都去掉的话, 那只有一招, 把你不需要的文字都替换成空, 这个在很多的编辑器中很难做到, 例如 editplus, 它自带的正则表达式几乎没有办法来做这个事情(注: 或许是我的水平太差, 请高手告诉方法)。 emeditor可以做到这个事情, 但这个正则表达式也的确是比较难写, 因为这个正则表达式很少用到, 也几乎很少在教程中看到, 这个正则表达式就是 “(^|(?<=url)).*?(?=url|$)”, 把中间的那个url替换成你要保留的那个字符就可以了。 但这个也不一定就是最完美的。 所以就有了sed的用武之地, sed可以将你需要的部分保留下来, 删除你不需要的部分, 也不用通过很多的替换步骤就可以了, sed一直被我用来干这种事情, 我用的最多的也就是sed -e “p。。。”的语句, 保留我自己需要的那部分。
December 13, 2006
写在前面: 正则表达式用于字符串处理、表单验证等场合,实用高效。但用到时总是不太把握,以致往往要查证一番。现将一些常用的表达式收集于此,以备不时之需。本贴随时会更新
按: 上次和crackabc、hitme等人讨论过一次,发现网上google来的谬误多多。这次重新整理一下,力求精简正确。也希望大家能一起来琢磨琢磨,捉捉bugs.
注: 以下表达式均在RegexBuddy测试修正过,若有错,还望指出。另外注意,在不同的语言环境下,对正则的支持都可能不一样,实际应用时注意不同之处
匹配中文字符的正则表达式: [\u4e00-\u9fa5]


