大型数据集的三重存储 [已关闭]
我想问一个好的三元存储用于大型数据集,它应该:
- 扩展良好(数百万个三倍)
- 有一个Java接口
我想问一个好的三元存储用于大型数据集,它应该:
您应该考虑使用OpenLink Virtuoso商店。它可以通过开源许可证获得,并且可以扩展到数十亿个三倍。您可以通过芝麻和Jena API使用它。
有关大型三重商店的概述,请参阅此处。Virtuoso绝对比BigData更容易设置。除此之外,我还使用了Sesame NativeStore,它不能很好地扩展。
4Store也是一个不错的选择,尽管我还没有使用它。Virtuoso 相对于 4Store 的一个好处是,您可以轻松地将标准关系模型与 RDF 混合,因为 Virtuoso 是一个关系数据库。
引用4store网站...
4store的主要优势是其性能,可扩展性和稳定性。它没有提供RDF存储和SPARQL查询之外的许多功能,但是如果您正在寻找可扩展,安全,快速和高效的RDF存储,那么4store应该在您的候选名单上。
就个人而言,我已经测试了具有非常大的数据库(高达20亿个三倍)的4store,结果非常好。4store是用C语言编写的,在Linux/Unix 64位平台上运行,当前的版本1.1.1已经部分实现了SPARQL 1.1。
4store可以部署在商用服务器集群上,这可以提高查询的性能,断言吞吐量可以达到100 KTriples /秒。但是,即使您在单个服务器中使用它,您也会获得相当不错的性能。
在南安普敦大学,我们是研究项目中非常大的数据集的选择,也是我们网站管理员团队的选择,请参阅南安普敦的数据存储和ECS开放数据。
在这里,您还获得了可用于查询和管理 4store 客户端库的所有库的列表。此外,4store的IRC频道有一个活跃的用户社区,如果您遇到任何问题,他们将提供帮助。
如果你是Linux / Unix用户,4store绝对是一个不错的选择。