一次坑爹的小bug。读取一段文字(编码utf-8),想替换掉空格,str_replace(" "..)、preg_replace("/\s/"..)都不起作用。

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(" ", "-", $str);
$str = preg_replace("/\s/", "-", $str);
echo $str; // 不起作用

  没办法,将替换不了的空格ord()下才看到,这个utf-8空格比较特殊。ASCII 194 + 160出来的。

<?php

// 替换<p>后4个空格
$str = file_get_contents("http://m.ts.cn/new/99cms_ts/api.php?s=/News/getNewsInfoTmp/Nid/51089");
$str = str_replace(chr(194) . chr(160), "-", $str); // 解决方法
echo $str; // OK

  实验下这个空格。

<?php

// utf-8无bom文件下,四个空格
$s1 = chr(194) . chr(160);
$s2 = chr(32);
$s3 = " ";
$s4 = " "; // 全角空格
$s = $s1 . $s2 . $s3 . $s4; // 判断
$r = '';
if ($s1 == $s2) $r .= 1;
if ($s1 == $s3) $r .= 2;
if ($s1 == $s4) $r .= 3;
if ($s2 == $s3) $r .= 4;
if ($s2 == $s4) $r .= 5;
if ($s3 == $s4) $r .= 6; // 结果
echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/\s/", "-", $s);

  结果:为方便书写,|代表空格,|代表全角空格。

  ||||####4####|--|####|--|

  改下浏览器编码为gbk,结果:聽 銆€#####4####聽--銆€####聽--銆€

  问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”(194 160),转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符。

  总结下来就是:替换不了的字符,打印出ASCII码来总能替换掉吧。

参考:解决采集UTF-8网页空格变成问号乱码  诡异的UTF8空格

最新文章

  1. 7.1数据注解属性--Key【Code-First系列】
  2. ArcMap计算PolyLine中点VBA
  3. iBatis + SQL Server 项目开发实战小结
  4. PHP redis Api 中文文档
  5. 如何设置word里的代码格式,使之有底纹的效果
  6. MVC系列之二 Model层细解
  7. ZOJ 4114 Detect the Virus(AC自动机)
  8. windbg基本命令
  9. makefile--Unfound symbol
  10. Android开发手记(7) 按钮类控件的使用
  11. js禁止默认的右键菜单或出现自定义右键菜单
  12. HDU1004题解分析(字符串处理)
  13. 如何使用Add-on SDK开发一个自己的火狐扩展
  14. Android -- 自定义ScrollView实现放大回弹效果
  15. iOS-UITableviewcell分割线位置
  16. Flask即插视图与tornado比较
  17. Oracle 检查约束check
  18. 使用httpClient发送post请求连接restful接口
  19. 使用SqlBulkCopy类实现导入excel表格
  20. git学习相关的博客地址

热门文章

  1. 2018徐州网络赛 - Trace
  2. java并行之parallelStream与CompletableFuture比较
  3. Q64 最小路径和
  4. /usr/bin/ld: cannot find -lperconaserverclient_r 解决
  5. 协作式取消 CancellationTokenSource
  6. RHCE 共享文件系统
  7. (转)DB2高可用性灾难恢复
  8. 深度学习(六)keras常用函数学习
  9. 在进行make之前,configure的时候,请先清理config.cache
  10. STL 排序(转载)