在 WebApp 中创建和下载大型 ZIP（来自多个 BLOB）的最佳实践

web-applications java filesystems zip

2022-09-03 12:54:33

我需要从我的Web应用程序执行大量文件下载。

它显然应该是一个长期运行的操作（它将每年使用一次[-每个客户]），所以时间不是问题（除非它达到某个超时，但我可以通过创建某种形式的保持警惕的心跳来处理）。我知道如何创建一个隐藏的iframe，并使用它来尝试下载文件而不是在浏览器中打开它，以及如何实例化客户端 - 服务器通信以绘制进度表;content-disposition: attachment

下载的实际大小（和文件数量）是未知的，但为了简单起见，我们几乎可以将其视为1GB，由100个文件组成，每个文件为10MB。

由于这应该是一键式操作，我的第一个想法是将所有文件分组，同时从数据库中读取它们，将其放入动态生成的ZIP中，然后要求用户保存ZIP。

问题是：在 WebApp 中的多个小字节数组创建大型存档时，最佳实践是什么，已知的缺点和陷阱是什么？

这可以随机分为：

是否应该将每个字节数组转换为物理临时文件，或者是否可以将它们添加到内存中的ZIP中？
如果是的话，我知道我必须处理名称的可能相等性（它们可以在数据库的不同记录中具有相同的名称，但不能在同一文件系统或ZIP中具有相同的名称）：是否有任何其他可能的问题浮现在脑海中（假设文件系统始终具有足够的物理空间）？
由于我不能依靠足够的RAM在内存中执行整个操作，我想在发送给用户之前应该创建ZIP并将其馈送到文件系统;有没有办法以不同的方式做到这一点（例如使用websocket），例如询问用户在哪里保存文件，然后开始从服务器到客户端的持续数据流（我猜是科幻小说）？
任何其他相关的已知问题或最佳实践，您将不胜感激。

答案 1

通过将每个 BLOB 从数据库直接流式传输到客户端的文件系统而创建的完全动态 ZIP 文件的启动示例。

使用具有以下性能的大型存档进行测试：

服务器磁盘空间成本：0 兆字节

服务器RAM成本：~~〜xx兆字节，~~内存消耗是不可测试的（或者至少我不知道如何正确执行此操作），因为我在循环之前，期间和之后多次运行相同的例程（通过使用）得到了不同的，显然是随机的结果）。但是，内存消耗低于使用byte[]，这就足够了。Runtime.getRuntime().freeMemory()

FileStreamDto.java使用 InputStream 而不是 byte[]

public class FileStreamDto implements Serializable {
    @Getter @Setter private String filename;
    @Getter @Setter private InputStream inputStream; 
}

Java Servlet （or Struts2 Action）

/* Read the amount of data to be streamed from Database to File System,
   summing the size of all Oracle's BLOB, PostgreSQL's ABYTE etc: 
   SELECT sum(length(my_blob_field)) FROM my_table WHERE my_conditions
*/          
Long overallSize = getMyService().precalculateZipSize();

// Tell the browser is a ZIP
response.setContentType("application/zip"); 
// Tell the browser the filename, and that it needs to be downloaded instead of opened
response.addHeader("Content-Disposition", "attachment; filename=\"myArchive.zip\"");        
// Tell the browser the overall size, so it can show a realistic progressbar
response.setHeader("Content-Length", String.valueOf(overallSize));      

ServletOutputStream sos = response.getOutputStream();       
ZipOutputStream zos = new ZipOutputStream(sos);

// Set-up a list of filenames to prevent duplicate entries
HashSet<String> entries = new HashSet<String>();

/* Read all the ID from the interested records in the database, 
   to query them later for the streams: 
   SELECT my_id FROM my_table WHERE my_conditions */           
List<Long> allId = getMyService().loadAllId();

for (Long currentId : allId){
    /* Load the record relative to the current ID:         
       SELECT my_filename, my_blob_field FROM my_table WHERE my_id = :currentId            
       Use resultset.getBinaryStream("my_blob_field") while mapping the BLOB column */
    FileStreamDto fileStream = getMyService().loadFileStream(currentId);

    // Create a zipEntry with a non-duplicate filename, and add it to the ZipOutputStream
    ZipEntry zipEntry = new ZipEntry(getUniqueFileName(entries,fileStream.getFilename()));
    zos.putNextEntry(zipEntry);

    // Use Apache Commons to transfer the InputStream from the DB to the OutputStream
    // on the File System; at this moment, your file is ALREADY being downloaded and growing
    IOUtils.copy(fileStream.getInputStream(), zos);

    zos.flush();
    zos.closeEntry();

    fileStream.getInputStream().close();                    
}

zos.close();
sos.close();

用于处理重复条目的帮助程序方法

private String getUniqueFileName(HashSet<String> entries, String completeFileName){                         
    if (entries.contains(completeFileName)){                                                
        int extPos = completeFileName.lastIndexOf('.');
        String extension = extPos>0 ? completeFileName.substring(extPos) : "";          
        String partialFileName = extension.length()==0 ? completeFileName : completeFileName.substring(0,extPos);
        int x=1;
        while (entries.contains(completeFileName = partialFileName + "(" + x + ")" + extension))
            x++;
    } 
    entries.add(completeFileName);
    return completeFileName;
}

非常感谢@prunge给我直接流媒体的想法。

答案 2

对于无法立即放入内存的大型内容，请将内容从数据库流式传输到响应。

这种事情其实很简单。您不需要AJAX或websockets，可以通过用户单击的简单链接流式传输大型文件下载。现代浏览器有不错的下载管理器，有自己的进度条 - 为什么要重新发明轮子？

如果为此从头开始编写 servlet，请访问数据库 BLOB，获取其输入流并将内容复制到 HTTP 响应输出流。如果你有Apache Commons IO库，你可以使用IOUtils.copy（），否则你可以自己做。

可以使用 ZipOutputStream 动态创建 ZIP 文件。通过响应输出流（从 servlet 或框架提供给您的任何内容）创建其中之一，然后从数据库获取每个 BLOB，首先使用，然后按照前面所述流式传输每个 BLOB。putNextEntry()

潜在的陷阱/问题：

根据下载大小和网络速度，请求可能需要很长时间才能完成。防火墙等可能会妨碍这种情况并提前终止请求。
希望您的用户在请求这些文件时处于一个体面的企业网络上。在远程/躲避/移动连接上会更糟（如果在下载1.9G的2.0G后掉线，用户必须重新开始）。
它可能会给服务器带来一些负担，尤其是压缩巨大的ZIP文件。如果这是一个问题，则在创建时关闭压缩可能是值得的。ZipOutputStream
超过 2GB（或 4 GB）的 ZIP 文件可能存在某些 ZIP 程序的问题。我认为最新的Java 7使用ZIP64扩展名，所以这个版本的Java将正确写入巨大的ZIP，但是客户端会有支持大型zip文件的程序吗？我以前肯定遇到过这些问题，特别是在旧的Solaris服务器上