PHP正则表达式匹配所有ASCII字符

PHPliuliangsong 发表了文章 • 0 个评论 • 253 次浏览 • 2016-10-18 22:15 • 来自相关话题

PHP可以使用"#[[:ascii:]]#"或者"#[\x{00}-\x{ff}]#u"来匹配ASCII字符。<?php
//删除所有ascii字符
echo preg_replace("#[\x{00}-\x{ff}]#u", "", "abc!@爱E族#{}x aiezu.com");
//输出: 爱族

//删除所有非ascii字符
echo preg_replace("#[^[:ascii:]]#u", "", "abc!@爱E族#{}x aiezu.com");
//输出: abc!@E#{}x aiezu.com 查看全部
PHP可以使用"#[[:ascii:]]#"或者"#[\x{00}-\x{ff}]#u"来匹配ASCII字符。
<?php
//删除所有ascii字符
echo preg_replace("#[\x{00}-\x{ff}]#u", "", "abc!@爱E族#{}x aiezu.com");
//输出: 爱族

//删除所有非ascii字符
echo preg_replace("#[^[:ascii:]]#u", "", "abc!@爱E族#{}x aiezu.com");
//输出: abc!@E#{}x aiezu.com

中文在UTF8和GBK编码中的范围

PHPliuliangsong 发表了文章 • 0 个评论 • 288 次浏览 • 2016-10-18 16:09 • 来自相关话题

编码范围
1. GBK (GB2312/GB18030)
x00-xff GBK双字节编码范围x20-x7f ASCII字符x80-xff 中文(GBK中文范围)
xa1-xff 中文(GB2312中文范围)

2. UTF-8 (Unicode)
u4e00-u9fa5 (中文)x3130-x318F (韩文)xAC00-xD7A3 (韩文)u0800-u4e00 (日文)


正则表达式例子:
1、使用PHP语言:<?php
preg_replace("#[\x80-\xff]#", "", '爱E族:aiezu.com'); //GBK中匹配
preg_replace("#[\x{4e00}-\x{9fa5}]#", "", '爱E族:aiezu.com'); //UTF8中匹配
2、使用javascript:var str = "爱E族:aiezu.com";
str.replace(/[\u4e00-\u9fa5]/g, "");
另外一些全角英文、特殊符号等UTF8字符的编码:
uff00 - uff0f:全角字符 ＀!"#$%&'()*+,./uff10 - uff19:全角字符 0123456789uff20 - uff20:全角字符 @uff21 - uff3a:全角大写 A-Zuff3b - uff40:全角字符[\]^_`uff41 - uff5a:全角大写 a-z 查看全部
编码范围
1. GBK (GB2312/GB18030)
  • x00-xff GBK双字节编码范围
  • x20-x7f ASCII字符
  • x80-xff 中文(GBK中文范围)

  • xa1-xff 中文(GB2312中文范围)


2. UTF-8 (Unicode)
  • u4e00-u9fa5 (中文)
  • x3130-x318F (韩文)
  • xAC00-xD7A3 (韩文)
  • u0800-u4e00 (日文)



正则表达式例子:
1、使用PHP语言:
<?php
preg_replace("#[\x80-\xff]#", "", '爱E族:aiezu.com'); //GBK中匹配
preg_replace("#[\x{4e00}-\x{9fa5}]#", "", '爱E族:aiezu.com'); //UTF8中匹配

2、使用javascript:
var str = "爱E族:aiezu.com";
str.replace(/[\u4e00-\u9fa5]/g, "");

另外一些全角英文、特殊符号等UTF8字符的编码:
  • uff00 - uff0f:全角字符 ＀!"#$%&'()*+,./
  • uff10 - uff19:全角字符 0123456789
  • uff20 - uff20:全角字符 @
  • uff21 - uff3a:全角大写 A-Z
  • uff3b - uff40:全角字符[\]^_`
  • uff41 - uff5a:全角大写 a-z

php正则表达匹配中文汉字

PHPliuliangsong 发表了文章 • 0 个评论 • 432 次浏览 • 2016-10-18 15:36 • 来自相关话题

正则匹配中文汉字根据字符编码不同而略有区别:
GBK编码 - [\x80-\xff]+ GB2312编码 - [x\a1-\xff]+UTF-8编码 - [\x{4e00}-\x{9fa5}]+/u
 
示例:
1、匹配UTF8编码字符中的汉字:<?php
// 删除字符串中所有汉字
echo preg_replace("#[\x{4e00}-\x{9fa5}]#u", "", '爱E族: aiezu.com');
// E: aiezu.com

// 删除字符串中所有非汉字字符
echo preg_replace("/[^\x{4e00}-\x{9fa5}]/u", "", '爱E族(aiezu.com)');
// 输出: 爱族 
2、匹配GB2312编码字符中的汉字:<?php
//GB2312替换中文为空,输出:Eaiezu.com
echo preg_replace("#[\xa1-\xff]+#", "", '爱E族(aiezu.com)');

//GB2312替换非中文为空,输出:爱族()
echo preg_replace("#[^\xa1-\xff]+#", "", '爱E族(aiezu.com)');
 3、匹配GBK编码字符中的汉字:<?php
// GBK编码删除中文字符,输出:Eaiezu.com
echo preg_replace("#[\x80-\xff]+#", "", '爱E族:aiezu.com');

//GBK编码删除非中文字符,输出:爱族:
echo preg_replace("#[^\x80-\xff]+#", "", '爱E族:aiezu.com'); 查看全部
正则匹配中文汉字根据字符编码不同而略有区别:
  • GBK编码 - [\x80-\xff]+ 
  • GB2312编码 - [x\a1-\xff]+
  • UTF-8编码 - [\x{4e00}-\x{9fa5}]+/u

 
示例:
1、匹配UTF8编码字符中的汉字:
<?php
// 删除字符串中所有汉字
echo preg_replace("#[\x{4e00}-\x{9fa5}]#u", "", '爱E族: aiezu.com');
// E: aiezu.com

// 删除字符串中所有非汉字字符
echo preg_replace("/[^\x{4e00}-\x{9fa5}]/u", "", '爱E族(aiezu.com)');
// 输出: 爱族
 
2、匹配GB2312编码字符中的汉字:
<?php
//GB2312替换中文为空,输出:Eaiezu.com
echo preg_replace("#[\xa1-\xff]+#", "", '爱E族(aiezu.com)');

//GB2312替换非中文为空,输出:爱族()
echo preg_replace("#[^\xa1-\xff]+#", "", '爱E族(aiezu.com)');

 3、匹配GBK编码字符中的汉字:
<?php
// GBK编码删除中文字符,输出:Eaiezu.com
echo preg_replace("#[\x80-\xff]+#", "", '爱E族:aiezu.com');

//GBK编码删除非中文字符,输出:爱族:
echo preg_replace("#[^\x80-\xff]+#", "", '爱E族:aiezu.com');

Compilation failed: invalid UTF-8 string at offset 6 in /tmp/aiezu.com.php on line 2

PHPliuliangsong 发表了文章 • 0 个评论 • 90 次浏览 • 2016-10-18 15:12 • 来自相关话题

当我们通过下面代码、使用正则表达式期望将字符串中的非汉字替换为空,这时收到一条警告信息:<?php
echo preg_replace("#[^\x4e00-\x9fa5]#u", "", '爱E族:aiezu.com');警告信息:PHP Warning: preg_replace(): Compilation failed: invalid UTF-8 string at offset 6 in /tmp/aiezu.com.php on line 2这时如何解决呢?
 
原来正则表达式中的"\x"后的UTF8编码,必须使用大括号括起来才行,如下:<?php
echo preg_replace("#[^\x{4e00}-\x{9fa5}]#u", "", '爱E族:aiezu.com');
//输出: 爱族 查看全部
当我们通过下面代码、使用正则表达式期望将字符串中的非汉字替换为空,这时收到一条警告信息:
<?php
echo preg_replace("#[^\x4e00-\x9fa5]#u", "", '爱E族:aiezu.com');
警告信息:
PHP Warning:  preg_replace(): Compilation failed: invalid UTF-8 string at offset 6 in /tmp/aiezu.com.php on line 2
这时如何解决呢?
 
原来正则表达式中的"\x"后的UTF8编码,必须使用大括号括起来才行,如下:
<?php
echo preg_replace("#[^\x{4e00}-\x{9fa5}]#u", "", '爱E族:aiezu.com');
//输出: 爱族

Compilation failed: character value in \x{...} sequence is too large at offset xxx

PHPliuliangsong 发表了文章 • 0 个评论 • 159 次浏览 • 2016-10-18 14:48 • 来自相关话题

当我们使用正则表达式匹配汉字时,收到一条警告信息,如:<?php
echo preg_replace("#[^\x{4e00}-\x{9fa5}]#", "", '爱E族:aiezu.com');
//抛出警告:
// PHP Warning: preg_replace(): Compilation failed: character value in \x{...} sequence is too large at offset 9 in /tmp/aiezu.com.php on line 2  这是由于我们正则表达式没加"u"模式原因,如果没加"u"模式,"\x"后的大括号中最多只能包含两个字符,范围为:"\x{00}-\x{ff}",表示匹配ascii字符,所以上面错误的解决方法就是加上"u"模式,修改后代码如下:<?php
echo preg_replace("#[^\x{4e00}-\x{9fa5}]#u", "", '爱E族:aiezu.com');
//输出: 爱族 查看全部
当我们使用正则表达式匹配汉字时,收到一条警告信息,如:
<?php
echo preg_replace("#[^\x{4e00}-\x{9fa5}]#", "", '爱E族:aiezu.com');
//抛出警告:
// PHP Warning: preg_replace(): Compilation failed: character value in \x{...} sequence is too large at offset 9 in /tmp/aiezu.com.php on line 2
  这是由于我们正则表达式没加"u"模式原因,如果没加"u"模式,"\x"后的大括号中最多只能包含两个字符,范围为:"\x{00}-\x{ff}",表示匹配ascii字符,所以上面错误的解决方法就是加上"u"模式,修改后代码如下:
<?php
echo preg_replace("#[^\x{4e00}-\x{9fa5}]#u", "", '爱E族:aiezu.com');
//输出: 爱族

Compilation failed: PCRE does not support \L, \l, \N, \U, or \u at offset 3 in xxx

PHPliuliangsong 发表了文章 • 0 个评论 • 189 次浏览 • 2016-10-18 14:18 • 来自相关话题

当我们辛辛苦苦的在网上找到匹配汉字的正则表达式拿来用时,才发现不能用,如下面代码:<?php
echo preg_replace("#[^\u4e00-\u9fa5]#", "", '爱E族:aiezu.com');代码抛出如下警告信息:PHP Warning: preg_replace(): Compilation failed: PCRE does not support \L, \l, \N, \U, or \u at offset 3 in /tmp/aiezu.com.php on line 2 
解决办法:
  原来上面代码的"\u4e00-\u9fa5"是javascript中用来匹配汉字的,在PHP中应该改成"\x"开头,并使用大括号括起来:"\x{4e00}-\x{9fa5}",并在正则表达式上使用"u"模式(UTF8模式),详见下面代码:<?php
echo preg_replace("#[^\x{4e00}-\x{9fa5}]#u", "", '爱E族:aiezu.com');
//输出结果:爱族 查看全部
当我们辛辛苦苦的在网上找到匹配汉字的正则表达式拿来用时,才发现不能用,如下面代码:
<?php
echo preg_replace("#[^\u4e00-\u9fa5]#", "", '爱E族:aiezu.com');
代码抛出如下警告信息:
PHP Warning:  preg_replace(): Compilation failed: PCRE does not support \L, \l, \N, \U, or \u at offset 3 in /tmp/aiezu.com.php on line 2
 
解决办法:
  原来上面代码的"\u4e00-\u9fa5"是javascript中用来匹配汉字的,在PHP中应该改成"\x"开头,并使用大括号括起来:"\x{4e00}-\x{9fa5}",并在正则表达式上使用"u"模式(UTF8模式),详见下面代码:
<?php
echo preg_replace("#[^\x{4e00}-\x{9fa5}]#u", "", '爱E族:aiezu.com');
//输出结果:爱族

Javascript计算字符串长度,中文长度为2,英文为1

Javascriptliuliangsong 发表了文章 • 0 个评论 • 189 次浏览 • 2016-10-18 11:46 • 来自相关话题

  使用js计算字符串长度,ASCII字符(英文、数字、字母等)长度算1,非ASCII字符(汉字等多字节字符)长度算2:
 
方法:将非ascii字符替换成两个星号,再计算长度:function abslength( str ) {
return str.replace(/[^\x00-\xff]/ig, '**').length;
}
alert(abslength("爱E族: aiezu.com")); //弹出16
这是JS版本,要使用PHP按同样规则计算字符串长度,请参考:PHP计算字符串长度,中文长度为2,英文为1 查看全部
  使用js计算字符串长度,ASCII字符(英文、数字、字母等)长度算1,非ASCII字符(汉字等多字节字符)长度算2:
 
方法:将非ascii字符替换成两个星号,再计算长度:
function abslength( str ) {
return str.replace(/[^\x00-\xff]/ig, '**').length;
}
alert(abslength("爱E族: aiezu.com")); //弹出16

这是JS版本,要使用PHP按同样规则计算字符串长度,请参考:PHP计算字符串长度,中文长度为2,英文为1

PHP计算字符串长度,中文长度为2,英文为1

PHPliuliangsong 发表了文章 • 0 个评论 • 163 次浏览 • 2016-10-18 11:19 • 来自相关话题

  PHP计算字符串长度,ASCII字符(英文、数字、字母等)长度算1,非ASCII字符(汉字等多字节字符)长度算2:
方法一:
  将非ascii字符替换成两个星号,再使用strlen计算长度:<?php
function abslength( $str ) {
return strlen(preg_replace("#[^\x{00}-\x{ff}]#u", '**', $str));
}
echo abslength("爱E族: aiezu.com"); //输出16
方法二:
  循环判断每个字符是否为ASCII字符,是则加1,否则加2:<?php
function abslength($s){
$n = 0;
preg_match_all("/./us",$s,$matchs);
foreach($matchs[0] as $p){
$n += preg_match('#^['.chr(0x1).'-'.chr(0xff).']$#',$p) ? 1 : 2;
}
return $n;
}
echo abslength("爱E族: aiezu.com"); //16 
  这是PHP版本,要使用JS按同样规则计算字符串长度,请参考:Javascript计算字符串长度,中文长度为2,英文为1 查看全部
  PHP计算字符串长度,ASCII字符(英文、数字、字母等)长度算1,非ASCII字符(汉字等多字节字符)长度算2:
方法一:
  将非ascii字符替换成两个星号,再使用strlen计算长度:
<?php
function abslength( $str ) {
return strlen(preg_replace("#[^\x{00}-\x{ff}]#u", '**', $str));
}
echo abslength("爱E族: aiezu.com"); //输出16

方法二:
  循环判断每个字符是否为ASCII字符,是则加1,否则加2:
<?php
function abslength($s){
$n = 0;
preg_match_all("/./us",$s,$matchs);
foreach($matchs[0] as $p){
$n += preg_match('#^['.chr(0x1).'-'.chr(0xff).']$#',$p) ? 1 : 2;
}
return $n;
}
echo abslength("爱E族: aiezu.com"); //16
 
  这是PHP版本,要使用JS按同样规则计算字符串长度,请参考:Javascript计算字符串长度,中文长度为2,英文为1

PHP中eval函数导致HTTP 500错误的解决方法

PHPliuliangsong 发表了文章 • 0 个评论 • 121 次浏览 • 2016-10-18 11:10 • 来自相关话题

  使用php eval函数来执行PHP代码时,常常由于提交给eval函数执行的代码不是合法的PHP代码,而导致http服务返回"HTTP/1.0 500 Internal Server Error"错误。尝试使用下面方式进行异常处理:try {
eavl("code...");
} catch(Exception $e){}或者:@eavl("code...");后发现页面依然返回http 500错误,在网上google一下才发现这是一个bug,通过下面方式得以解决:ini_set('display_errors', 'on');
try {
eavl("code...");
} catch(Exception $e){}
ini_set('display_errors', 'on');或者:ini_set('display_errors', 'on');
@eavl("code...");
ini_set('display_errors', 'off'); 查看全部
  使用php eval函数来执行PHP代码时,常常由于提交给eval函数执行的代码不是合法的PHP代码,而导致http服务返回"HTTP/1.0 500 Internal Server Error"错误。尝试使用下面方式进行异常处理:
try {
eavl("code...");
} catch(Exception $e){}
或者:
@eavl("code...");
后发现页面依然返回http 500错误,在网上google一下才发现这是一个bug,通过下面方式得以解决:
ini_set('display_errors', 'on');
try {
eavl("code...");
} catch(Exception $e){}
ini_set('display_errors', 'on');
或者:
ini_set('display_errors', 'on');
@eavl("code...");
ini_set('display_errors', 'off');

PHP通过http头user-agent判断是否为手机浏览器

PHPliuliangsong 发表了文章 • 0 个评论 • 130 次浏览 • 2016-10-18 11:03 • 来自相关话题

下面PHP自定义函数可以根据http头user-agent判断是否为手机访问,如果是则返回true:
<?php
/**
* 判断是否是通过手机访问
* @return bool 是否是移动设备
*/
public function isMobile() {
//判断手机发送的客户端标志
if(isset($_SERVER['HTTP_USER_AGENT'])) {
$userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
$clientkeywords = array(
'nokia', 'sony', 'ericsson', 'mot', 'samsung', 'htc', 'sgh', 'lg', 'sharp', ''
,'philips', 'panasonic', 'alcatel', 'lenovo', 'iphone', 'ipod', 'blackberry', 'meizu',
'android', 'netfront', 'symbian', 'ucweb', 'windowsce', 'palm', 'operamini',
'operamobi', 'opera mobi', 'openwave', 'nexusone', 'cldc', 'midp', 'wap', 'mobile'
);
// 从HTTP_USER_AGENT中查找手机浏览器的关键字
if(preg_match("/(".implode('|',$clientkeywords).")/i",$userAgent)&&strpos($userAgent,'ipad') === false)
{
return true;
}
}
return false;
}
 附各移动浏览器的http user-agent:
一、微信的http user-agent(关键词MicroMessenger)
1、Iphone(苹果)平台微信的ucweb的useragent:
Mozilla/5.0 (iPhone; CPU iPhone OS 5_1 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko)
Mobile/9B176 MicroMessenger/4.3.22、Android(安卓)平台微信的useragent:Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; GT-S5660 Build/GINGERBREAD) AppleWebKit/533.1
(KHTML, like Gecko) Version/4.0 Mobile Safari/533.1 MicroMessenger/4.5.255
 二、UC浏览器的http user-agent(关键词UCWEB)1、 android平台:
android平台ucweb急速模式开启下ucweb浏览器useragent:UCWEB/2.0 (Linux; U; Adr 2.3; zh-CN; MI-ONEPlus) U2/1.0.0 UCBrowser/8.6.0.199 U2/1.0.0 Mobileandroid平台ucweb急速模式关闭状态下的http_user_agent:Mozilla/5.0 (Linux; U; Android 2.3; zh-CN; MI-ONEPlus) AppleWebKit/534.13 (KHTML, like Gecko)
UCBrowser/8.6.0.199 U3/0.8.0 Mobile Safari/534.13 2、iPhone 平台
iPhone 平台极速模式开启状态下ucweb浏览器useragent:UCWEB/2.0 (iOS; U; iPh OS 4_3_2; zh-CN; iPh4) U2/1.0.0 UCBrowser/8.6.0.199 U2/1.0.0 Mobile iPhone 平台极速模式关闭状态下 UA 示例如下:(OBUA 为自带浏览器 UA)OBUA UCBrowser/8.6.0.199 Mobile3、iPad 平台
ipad平台下ucweb浏览器useragent:Mozilla/5.0 (iPad; U; CPU OS 6_0 like Mac OS X; zh-CN; iPad2) AppleWebKit/534.13
(KHTML, like Gecko) UCBrowser/8.6.0.199 U3/0.8.0 Safari/534.13  查看全部
下面PHP自定义函数可以根据http头user-agent判断是否为手机访问,如果是则返回true:
<?php
/**
* 判断是否是通过手机访问
* @return bool 是否是移动设备
*/
public function isMobile() {
//判断手机发送的客户端标志
if(isset($_SERVER['HTTP_USER_AGENT'])) {
$userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
$clientkeywords = array(
'nokia', 'sony', 'ericsson', 'mot', 'samsung', 'htc', 'sgh', 'lg', 'sharp', ''
,'philips', 'panasonic', 'alcatel', 'lenovo', 'iphone', 'ipod', 'blackberry', 'meizu',
'android', 'netfront', 'symbian', 'ucweb', 'windowsce', 'palm', 'operamini',
'operamobi', 'opera mobi', 'openwave', 'nexusone', 'cldc', 'midp', 'wap', 'mobile'
);
// 从HTTP_USER_AGENT中查找手机浏览器的关键字
if(preg_match("/(".implode('|',$clientkeywords).")/i",$userAgent)&&strpos($userAgent,'ipad') === false)
{
return true;
}
}
return false;
}

 附各移动浏览器的http user-agent:
一、微信的http user-agent(关键词MicroMessenger)
1、Iphone(苹果)平台微信的ucweb的useragent:
Mozilla/5.0 (iPhone; CPU iPhone OS 5_1 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) 
Mobile/9B176 MicroMessenger/4.3.2
2、Android(安卓)平台微信的useragent:
Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; GT-S5660 Build/GINGERBREAD) AppleWebKit/533.1 
(KHTML, like Gecko) Version/4.0 Mobile Safari/533.1 MicroMessenger/4.5.255

 二、UC浏览器的http user-agent(关键词UCWEB)1、 android平台:
android平台ucweb急速模式开启下ucweb浏览器useragent:
UCWEB/2.0 (Linux; U; Adr 2.3; zh-CN; MI-ONEPlus) U2/1.0.0 UCBrowser/8.6.0.199 U2/1.0.0 Mobile
android平台ucweb急速模式关闭状态下的http_user_agent:
Mozilla/5.0 (Linux; U; Android 2.3; zh-CN; MI-ONEPlus) AppleWebKit/534.13 (KHTML, like Gecko) 
UCBrowser/8.6.0.199 U3/0.8.0 Mobile Safari/534.13
2、iPhone 平台
iPhone 平台极速模式开启状态下ucweb浏览器useragent:
UCWEB/2.0 (iOS; U; iPh OS 4_3_2; zh-CN; iPh4) U2/1.0.0 UCBrowser/8.6.0.199 U2/1.0.0 Mobile 
iPhone 平台极速模式关闭状态下 UA 示例如下:(OBUA 为自带浏览器 UA)
OBUA UCBrowser/8.6.0.199 Mobile
3、iPad 平台
ipad平台下ucweb浏览器useragent:
Mozilla/5.0 (iPad; U; CPU OS 6_0 like Mac OS X; zh-CN; iPad2) AppleWebKit/534.13 
(KHTML, like Gecko) UCBrowser/8.6.0.199 U3/0.8.0 Safari/534.13