stepma 2012-07-06
这两天由于作业的原因用C#写了个小程序,苦恼于陌生的函数、规则,苦恼于想写的模式在C#中找不到相应的实现方法。不过在苦恼之外却有两个很让我欣喜的东西,正则表达式和LINQ。
学过编译原理的同学都很熟悉正则表达式,基于正则式的词法语法自动分析程序(LEX、YACC)的强大更是让我记忆犹新。
下面介绍下正则表达式吧。
正则表达式的表达能力等价于正则文法,正则表达式的定义如下:
1.字母表中的任意字母是正则表达式,空串和空集也是正则表达式;
2.如果r,s是正则表达式,那么r|s,rs,r*,(r)也是正则表达式。
正则表达式可以表示很多模式,如:
\d{2}-\d{5}一个2位数字,一个连字符以及一个5位数字组成的ID号
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$正浮点数
因此正则式在字符串处理方面有其得天独厚的优势,但是传统的标准C/C++并没有提供这方面的支持,反倒是一些第三方库加入了相应功能。到了C#,正则式被很好的支持和运用了,无论是字符串的匹配、替换,还是分词函数中都能看见它的身影,这无疑为我们处理字符串提供了很大的便捷。
如以下模式就能用于匹配以数字结束并含有小写字母的单词,比我们手写的匹配程序要简单方便许多。
RegexrEndingwithNumbers=newRegex(@"[a-z][0-9]+$",RegexOptions.Compiled);
而LINQ则是我们可以用一种类似数据库查询语句的方式来处理数据。
From,in,where,select,join,on,orderby,group等查询运算符的引入大大简化了一些数据处理程序的编写复杂性。
例如在一个词库中,用一个LINQ查询就可以实现词长筛选,词频统计,按要求排序等一系列功能。
以上皆是本人作为一个菜鸟接触C#几天的感受,理解的比较肤浅,欢迎拍砖。