中文在UTF8和GBK编码中的范围

编码范围
1. GBK (GB2312/GB18030)

  • x00-xff GBK双字节编码范围

  • x20-x7f ASCII字符

  • x80-xff 中文(GBK中文范围)



  • xa1-xff 中文(GB2312中文范围)



2. UTF-8 (Unicode)

  • u4e00-u9fa5 (中文)

  • x3130-x318F (韩文)

  • xAC00-xD7A3 (韩文)

  • u0800-u4e00 (日文)




正则表达式例子:
1、使用PHP语言:
<?php
preg_replace("#[\x80-\xff]#", "", '爱E族:aiezu.com'); //GBK中匹配
preg_replace("#[\x{4e00}-\x{9fa5}]#", "", '爱E族:aiezu.com'); //UTF8中匹配

2、使用javascript:
var str = "爱E族:aiezu.com";
str.replace(/[\u4e00-\u9fa5]/g, "");

另外一些全角英文、特殊符号等UTF8字符的编码:

  • uff00 - uff0f:全角字符 ＀!"#$%&'()*+,./

  • uff10 - uff19:全角字符 0123456789

  • uff20 - uff20:全角字符 @

  • uff21 - uff3a:全角大写 A-Z

  • uff3b - uff40:全角字符[\]^_`

  • uff41 - uff5a:全角大写 a-z


0 个评论

要回复文章请先登录注册