最近在开发在线XML编辑器,打算使用JSON做为中间格式。因为JSON相对于XML,有着容易阅读、解析速度快、占用空间小等优点,更易于在WEB上传递数据。但在实际使用中还是发现了一些易于忽略的细节,对于需要严格保证XML原始结构的情况,在转换成JSON时需要一些注意。
XML转换成JSON的格式大概如下:
代码如下
//XML形式
<article>
<header id="h1"> 文章标题 </header>
<section id="s1">
<header> 章节标题 </header>
<p> 章节段落 </p>
</section>
</article>
//JSON表现形式
{
"article": {
"header": {
"#text": "文章标题",
"@id": "h1"
},
"section": {
"@id": "s1",
"header": "章节标题",
"p": "章节段落"
}
}
}
用Js将XML转换成JSON的脚本,在网上找了一些现成的脚本,但大都只满足比较简单的情况,都不可以完成保证原始结构的互转。下面是从网上找到的一些脚本或者文章:
x2js : https://code.google.com/p/x2js/
jsonxml :
JKL.ParseXML :
x2js不会将下面的XML正确还原。
代码如下
//XML形式
<p> <strong>章节</strong>段<em>落</em> </p>
而第2个脚本jsonxml,在上面这种“文本混合标签”的情况下,没有将标签提取出来,而是转换成了下面这种格式。
代码如下
{"p":"<strong>章节</strong>段<em>落</em>"}}
之后我做了些改动,将它解析成如下格式后,满足了“文本混合标签”可正确还原的情况。
代码如下
{"p":[{"strong":"章节"},"段",{"em":"落"}]}
另外,形如下面的代码,使用上文提到的脚本进行转换,也会导致无法正确还原的情况。
代码如下
<article>
<section id="s1">第一节</section>
<header id="h1"> 标题 </header>
<section id="s2">第二节</section>
</article>
同样,在一个标签内,它的子标签出现了大于一次,如果需要记录数据的路径,应该使用数组来保存这个结构。正确的代码应该是:
代码如下
{
"article": [ {
"section": {
"#text": "第一节",
"@id": "s1"
},
}, {
"header": {
"#text": "标题",
"@id": "h1"
}
}, {
"section": {
"#text": "第一节",
"@id": "s2"
}
}
]
}
jkl.parsexml
代码如下
SAMPLE XML SOURCE: XML
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<items>
<item>
<zip_cd>10036</zip_cd>
<us_state>NY</us_state>
<us_city>New York</us_city>
<us_dist>Broadway</us_dist>
</item>
</items>
SAMPLE SCRIPT:
<script type="text/javascript" src="jkl-parsexml.js"></script>
<script><!--
var url = "zip-e.xml";
var xml = new JKL.ParseXML( url );
var data = xml.parse();
document.write( data["items"]["item"]["us_state"] );
document.write( data.items.item.us_state );
// --></script>
OUTPUT JSON:
{
items: {
item: {
zip_cd: "1000001"
us_state: "NY",
us_city: "New York",
us_dist: "Broadway",
}
}
};
jsonxml
代码如下
// Changes XML to JSON
function xmlToJson(xml) {
// Create the return object
var obj = {};