维基百科的解析器

2022-09-04 22:02:19

我下载了一个维基百科转储,我想将wiki格式转换为我的对象格式。是否有可用的 wiki 解析器可以将对象转换为 XML?


答案 1

参见java-wikipedia-parser。我从未使用过它,但根据文档:

解析器附带一个 HTML 生成器。但是,您可以通过传递自己的接口实现来控制正在生成的输出。be.devijver.wikipedia.Visitor


答案 2

我不知道维基百科转储的xml格式到底是什么样子的。但是,如果部分文本在维基百科标记中,我建议调查 http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html。这是apache lucene的维基百科软件包的类之一。我没有使用它,但apache lucene是一个相当成熟的项目,所以值得尝试它的 - 在这种情况下是实验性的 - 包。


推荐