最近在做一个BizTalk项目,对XML文件的处理很复杂。本来是想找有没有方法可以一次性去除XML文件中节点和属性的值的空格。但是找了很久没有看到相关的方法。如果有知道该方法的麻烦跟我讲一下:cbcye@live.com 不过下面我整理了一下与之相关的XML空白字符(WhiteSpace)。

先来看看这个问题比较一下这两个XML是否一样?

XML(一)

<AddBook>

  <Name/>

  <Mobile/>

</AddBook> 

XML(二)

<AddBook><Name/><Mobile/></AddBook> 

如果你觉得一样的话,那么我们来进行如下。我们使用的是XSLT(XML转换语言)读取整个XML文档。此XSLT文件的作用是拷贝整个源XML文档中的节点到目标XML文件中。


<?xml version="1.0" encoding="UTF-8" ?>

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

  <xsl:output method="xml" indent="yes"/>

  <xsl:template match="node()">

    <xsl:copy>

      <xsl:apply-templates select="node()"/>

    </xsl:copy>

  </xsl:template>

</xsl:stylesheet> 

测试时在Visual Studio的XSLT调试界面设置断点。在监视窗口使用Xpath函数:node()来查看XML文档中的节点变化情况。

XML(一)的节点:

XML(二)的节点:

从以上的测试数据可以看出当XML处于不同行的时候XML会多一些类型为whitespace的节点。由此可见XML(一)与XML(二)是不相同的。那
为什么它们之间不相同呢?那为什么我们使用IE之类的XML解析器打开两个文件的话看到的效果是一样的?当然我们这里不讨论IE之类的是如何处理的(事实
上是我也不知道IE是如何处理的:)。我们主要来看看这两个XML之间为什么不一样。也就是本文要涉及的Whitespace。

首先我们来了解一下在XML里什么叫WiteSpace。XML 将以下四种字符归为空白字符:回车符(\r 或 ch(13))、换行符(\n 或 ch(10))、制表符 (\t) 以及空格 (' ')。在 XML 文档中,空白字符分为两类:
有意义空白字符 是文档内容的一部分,应予以保留。
无意义空白字符 在编辑 XML 文档时使用,以增加可读性。这些空白字符一般在文档交付时不予保留。

由此可见XML文档有时根据处理需要会增加一些回车、换行之类的特殊字符。但是如果这些字符在处理XML时不先清除(如果有必要的话)。那么就会造成一些
错误。比如在XSLT文件中有如下表达式的话那么XML文件中的空白字符就有可能引用转换处理错误。因为空白字符是不能作为节点名称的。

<xsl:element name="{local-name()}">

了解了XML文件中有无空白字符的区别与XML文件中空白字符的用处之后我们来了解一下XML处理器是如果处理空白字符的。该如何根据需要处理空白字符。

XML 分析:XML 规范提供了一个内置属性 xml:space 来告知 XML
分析器其是否应忽略空白字符。该属性由其根元素的子元素来继承。声明时,必须将其指定为枚举类型,其可能的值只能是“default”和
“preserve”。如果指定为“preserve”,则所定义元素内的空白字符必须保留。

示例:

  • XML数据

<?xml version="1.0" encoding="utf-8"?>

<root xmlns="http://quicklearn.cn"/>

  <part1>

    <ns0:books xmlns:ns0="http://books.quicklearn.cn"/>

      <ns0:book>

        <name>BizTalk Develop</name>

        <ISDN>0101010101010</ISDN>

      </ns0:book>

    </ns0:books>

  </part1>

  <part2>

    <ns1:customers xmlns:ns1="customers.quicklearn.cn">

      <customer xml:space="preserve">

        <name>Zhang San</name>

        <mobile>133333333333</mobile>

        <address>

          <province>Guang Dong</province>

          <city>Shen Zhen     </city>

        </address>

      </customer>

    </ns1:customers>

  </part2>

</root>
  • C#代码
XmlDocument xmlDoc = new XmlDocument();

xmlDoc.PreserveWhitespace = false;

xmlDoc.Load(@"D:\Projects\Temp\XSLTTest\XSLTTest\XSLTTest\XMLData2.xml");

this.richTextBox1.Text = xmlDoc.OuterXml;
  • 输出效果

<?xml version="1.0" encoding="utf-8"?><root xmlns="http://quicklearn.cn"/><part1><ns0:books xmlns:ns0="http://books.quicklearn.cn"/><ns0:book><name>BizTalk Develop</name><ISDN>0101010101010</ISDN></ns0:book></ns0:books></part1><part2><ns1:customers xmlns:ns1="customers.quicklearn.cn"><customer xml:space="preserve">

        <name>Zhang San</name>

        <mobile>133333333333</mobile>

        <address>

          <province>Guang Dong</province>

          <city>Shen Zhen     </city>

        </address>

      </customer></ns1:customers></part2></root>

XSLT 转换。W3C XSLT 规范提供了两个元素(即 xsl:strip-space 和
xsl:preserve-spacea€”)来处理空白字符。xsl:strip-space
指定了应删除空白字符文本节点(即文本节点完全由空白字符组成)的 XML 元素。请注意,xsl:strip-space
只有影响纯空白字符的节点。xsl:strip-space 可以列为一组由空白字符或使用通配符(例如
*)隔开的元素。xsl:preserve-space 具有类似的语法,但执行的结果却与 xsl:strip-space 正好相反。

使用方法:在XSLT文件声明全局属性 <xsl:strip-space elements="*"/>或 <xsl:strip-space elements="element1 element2…"/>

输出的效果与XML分析器相同。

总结

了解了XML空白字符的作用及XML分析与处理器处理方式。那么在处理XML空白字符字符的时候,如果XML是给后台应用程序处理的话在处理之前最好先去除XML空白字符。如果XML是给用户阅读的话则保留相关的空白字符。

最新文章

  1. CentOS-7下安装MySQL5.6.22
  2. Java注释
  3. 解析json格式数据
  4. ping提示小结
  5. JSTL分类查询
  6. 添加 Gradle 依赖与 build.gradle 配置初识
  7. jstree级联查找树
  8. HDU 1394 (逆序数) Minimum Inversion Number
  9. [Unit Testing] Angular Unit Testing, ui-router, httpbackend and spy
  10. [转]Python跳过第一行读取文件内容
  11. EFI、GPT和BIOS、MBR
  12. Extjs4新特性
  13. weui.css中flex容器下子项目的水平和垂直居中
  14. locale命令设置语言环境
  15. PBOC圈存时用到3DES加密解密以及MAC计算方法
  16. window10下安装linux虚拟机
  17. openwrt 下添加sim760ce usb驱动
  18. Java中Semaphore(信号量)的使用
  19. C#创建自己的扩展方法
  20. cudnn 安装步骤

热门文章

  1. 去掉SrollView、GrdiView、ListView、ViewPager等滑动到边缘的光晕效果
  2. react-redux(1)
  3. python 线程之_thread
  4. 内核终端判断,微信?QQ?ipad?IE?移动?Google?opera……
  5. 解决js(ajax)提交后端的“ _xsrf&#39; argument missing from POST” 的错误
  6. #include&lt;&gt;与#include&quot;&quot;
  7. WPF中图形表示语法详解(Path之Data属性语法)ZZ
  8. &quot;Accepted today?&quot;[HDU1177]
  9. ccc 模拟重力
  10. python 代码片段21