在java中解析非常大的XML文档(以及更多)
2022-09-02 13:03:29
(以下所有内容都将用Java编写)
我必须构建一个应用程序,该应用程序将采用可能非常大的 XML 文档作为输入。文档已加密 - 不是使用XMLsec,而是使用我的客户端先前存在的加密算法 - 将分三个阶段处理:
首先,流将根据上述算法进行解密。
其次,扩展类(由第三方编写到我提供的API)将读取文件的某些部分。读取的量是不可预测的 -- 特别是它不能保证在文件的标头中,但可能发生在 XML 中的任何位置。
最后,另一个扩展类(相同的交易)将输入 XML 细分为 1..n 子集文档。这些可能在某些部分与第二个操作处理的文档部分重叠,即:我相信我需要倒退我用来处理此对象的任何机制。
这是我的问题:
有没有办法做到这一点,而不必一次将整个数据读取到内存中?显然,我可以将解密实现为输入流过滤器,但我不确定是否有可能以我描述的方式解析XML;通过遍历文档的大部分内容来收集第二步的信息,然后通过倒带文档并再次传递它以将其拆分为作业,理想情况下,释放文档中所有在通过后不再使用的部分。