是否有跨平台的Java方法来删除文件名特殊字符?

我正在制作一个跨平台的应用程序,该应用程序根据在线检索到的数据重命名文件。我想清理我从当前平台的Web API中获取的字符串。

我知道不同的平台有不同的文件名要求,所以我想知道是否有跨平台的方法可以做到这一点?

编辑:在Windows平台上,文件名中不能有问号“?”,而在Linux中,您可以。文件名可能包含此类字符,我希望支持这些字符的平台保留它们,但否则,请将其删除。

另外,我更喜欢不需要第三方库的标准Java解决方案。


答案 1

正如其他地方所建议的那样,这通常不是您想要做的。通常最好使用安全方法(如 File.createTempFile() )创建临时文件。

您不应该使用白名单执行此操作,而只保留“好”字符。如果文件仅由中文字符组成,那么您将从中剥离所有内容。出于这个原因,我们不能使用白名单,我们必须使用黑名单。

Linux几乎允许任何可能真正痛苦的东西。我只是将Linux限制在你限制Windows的同一列表中,这样你就可以省去将来的麻烦。

在 Windows 上使用此 C# 代码段,我生成了一个在 Windows 上无效的字符列表。这个列表中的字符比你想象的要多(41),所以我不建议尝试创建自己的列表。

        foreach (char c in new string(Path.GetInvalidFileNameChars()))
        {
            Console.Write((int)c);
            Console.Write(",");
        }

下面是一个简单的 Java 类,它“清理”文件名。

public class FileNameCleaner {
final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};
static {
    Arrays.sort(illegalChars);
}
public static String cleanFileName(String badFileName) {
    StringBuilder cleanName = new StringBuilder();
    for (int i = 0; i < badFileName.length(); i++) {
        int c = (int)badFileName.charAt(i);
        if (Arrays.binarySearch(illegalChars, c) < 0) {
            cleanName.append((char)c);
        }
    }
    return cleanName.toString();
}
}

编辑:正如斯蒂芬所建议的那样,您可能还应该验证这些文件访问仅在您允许的目录中发生。

以下答案包含示例代码,用于在 Java 中建立自定义安全上下文,然后在该“沙盒”中执行代码。

如何创建安全的 JEXL(脚本)沙盒?


答案 2

或者只是这样做:

String filename = "A20/B22b#öA\\BC#Ä$%ld_ma.la.xps";
String sane = filename.replaceAll("[^a-zA-Z0-9\\._]+", "_");

结果:A20_B22b_A_BC_ld_ma.la.xps

解释:

[a-zA-Z0-9\\._]匹配 a-z 小写或大写字母、数字、点和下划线中的字母

[^a-zA-Z0-9\\._]是相反的。即所有与第一个表达式不匹配的字符

[^a-zA-Z0-9\\._]+是与第一个表达式不匹配的字符序列

因此,每个字符序列都不包含 a-z、0-9 或 ._ 将被替换。


推荐