使用 Java 拆分 1GB Xml 文件

2022-09-04 07:38:57

我有一个1GB的Xml文件,如何使用Java将其拆分为格式良好,尺寸较小的Xml文件?

下面是一个示例:

<records>
  <record id="001">
    <name>john</name>
  </record>
 ....
</records>

谢谢。


答案 1

在这种情况下,我会使用StAX解析器。它将阻止整个文档一次读入内存。

  1. 将 XMLStreamReader 推进到子片段的本地根元素。
  2. 然后,您可以使用 javax.xml.transform API 从此 XML 片段生成新文档。这会将 XMLStreamReader 推进到该片段的末尾。
  3. 对下一个片段重复步骤 1。

代码示例

对于以下 XML,将每个“语句”部分输出到以“帐户属性值”命名的文件中:

<statements>
   <statement account="123">
      ...stuff...
   </statement>
   <statement account="456">
      ...stuff...
   </statement>
</statements>

这可以通过以下代码完成:

import java.io.File;
import java.io.FileReader;
import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamConstants;
import javax.xml.stream.XMLStreamReader;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.stax.StAXSource;
import javax.xml.transform.stream.StreamResult;

public class Demo {

    public static void main(String[] args) throws Exception  {
        XMLInputFactory xif = XMLInputFactory.newInstance();
        XMLStreamReader xsr = xif.createXMLStreamReader(new FileReader("input.xml"));
        xsr.nextTag(); // Advance to statements element

        TransformerFactory tf = TransformerFactory.newInstance();
        Transformer t = tf.newTransformer();
        while(xsr.nextTag() == XMLStreamConstants.START_ELEMENT) {
            File file = new File("out/" + xsr.getAttributeValue(null, "account") + ".xml");
            t.transform(new StAXSource(xsr), new StreamResult(file));
        }
    }

} 

答案 2

试试这个,使用Saxon-EE 9.3。

<xsl:stylesheet version="3.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
    <xsl:mode streamable="yes"/>
    <xsl:template match="record">
      <xsl:result-document href="record-{@id}.xml">
        <xsl:copy-of select="."/>
      </xsl:result-document>
    </xsl:template>
</xsl:stylesheet>

该软件不是免费的,但是如果它为您节省了一天的编码,您可以轻松证明投资的合理性。(为销售宣传道歉)。


推荐