[转]关于notepad++用正则表达式查找文本汉字的分析

gzgcz 2016-11-21

notepad++可以进行正则表达式查找,

偶然机会需要查找汉字

但是发现网上流传的

[\u4e00-\u9fa5]

[一-龥]

都不好用,有时候,一些个汉字“长”等就不认。但是,把这些个文本复制出来后就可以查找了。

研究发现,因为一般来自记事本或者其他地方的txt文档都是使用ansi格式保存的,应该要单字符查找,相对的,复制粘贴出来后,Notepad++默认是unicode的,因此,

[\u4e00-\u9fa5]之类的是unicode下的编码,所以工作良好。

同理,将上述txt文档另存为utf-8格式,重新用notepad打开,上述正则表达式可以良好工作了。

另外,转点基本正则表达式规则,以备后用

表达式说明

\t制表符.

\n新行.

.匹配任意字符.

|匹配表达式左边和右边的字符.例如,"ab|bc"匹配"ab"或者"bc".

[]匹配列表之中的任何单个字符.例如,"[ab]"匹配"a"或者"b"."[0-9]"匹配任意数字.

[^]匹配列表之外的任何单个字符.例如,"[^ab]"匹配"a"和"b"以外的字符."[^0-9]"匹配任意非数字字符.

*其左边的字符被匹配任意次(0次,或者多次).例如"be*"匹配"b","be"或者"bee".

+其左边的字符被匹配至少一次(1次,或者多次).例如"be+"匹配"be"或者"bee"但是不匹配"b".

?其左边的字符被匹配0次或者1次.例如"be?"匹配"b"或者"be"但是不匹配"bee".

^其右边的表达式被匹配在一行的开始.例如"^A"仅仅匹配以"A"开头的行.

$其左边的表达式被匹配在一行的结尾.例如"e$"仅仅匹配以"e"结尾的行.

()影响表达式匹配的顺序,并且用作表达式的分组标记.

\转义字符.如果你要使用"\"本身,则应该使用"\\".

http://blog.csdn.net/darkread/article/details/8485790

相关推荐