自定义归类规则

上一节讨论了如何针对语言环境使用 预定义规则来比较字符串。这些排序规则确定字符串 的排序 Sequences。如果 预定义的排序规则不符合您的需求,则可以设计自己的规则并将其分配给RuleBasedCollator对象。

自定义的排序规则包含在String对象中,该对象传递给RuleBasedCollator构造函数。这是一个简单的例子:

String simpleRule = "< a < b < c < d";
RuleBasedCollator simpleCollator =  new RuleBasedCollator(simpleRule);

对于前面示例中的simpleCollator对象,a小于b,小于c,依此类推。比较字符串 时,simpleCollator.compare方法引用这些规则。与该简单示例相比,用于构造归类规则的完整语法更加灵活和复杂。有关语法的完整说明,请参阅RuleBasedCollator类的 API 文档。

下面的示例使用两个排序规则对西班牙语单词列表进行排序。此示例的完整源代码在RulesDemo.java中。

RulesDemo程序首先为英语和西班牙语定义排序规则。该程序将以传统方式对西班牙语单词进行排序。当按照传统规则进行排序时,字母 ch 和 ll 及其大写等效项在排序 Sequences 中各有其位置。这些字符对进行比较,就好像它们是一个字符一样。例如,ch 排序为单个字母,紧随 cz 之后。请注意两个整理者的规则有何不同:

String englishRules = (
    "< a,A < b,B < c,C < d,D < e,E < f,F " +
    "< g,G < h,H < i,I < j,J < k,K < l,L " +
    "< m,M < n,N < o,O < p,P < q,Q < r,R " +
    "< s,S < t,T < u,U < v,V < w,W < x,X " +
    "< y,Y < z,Z");

String smallnTilde = new String("\u00F1");    // ñ
String capitalNTilde = new String("\u00D1");  // Ñ

String traditionalSpanishRules = (
    "< a,A < b,B < c,C " +
    "< ch, cH, Ch, CH " +
    "< d,D < e,E < f,F " +
    "< g,G < h,H < i,I < j,J < k,K < l,L " +
    "< ll, lL, Ll, LL " +
    "< m,M < n,N " +
    "< " + smallnTilde + "," + capitalNTilde + " " +
    "< o,O < p,P < q,Q < r,R " +
    "< s,S < t,T < u,U < v,V < w,W < x,X " +
    "< y,Y < z,Z");

以下代码行创建整理器并调用排序例程:

try {
    RuleBasedCollator enCollator = new RuleBasedCollator(englishRules);
    RuleBasedCollator spCollator =
        new RuleBasedCollator(traditionalSpanishRules);

    sortStrings(enCollator, words);
    printStrings(words);
    System.out.println();

    sortStrings(spCollator, words);
    printStrings(words);
} catch (ParseException pe) {
    System.out.println("Parse exception for rules");
}

名为sortStrings的排序例程是通用的。它将根据任何Collator对象的规则对任何单词数组进行排序:

public static void sortStrings(Collator collator, String[] words) {
    String tmp;
    for (int i = 0; i < words.length; i++) {
        for (int j = i + 1; j < words.length; j++) {
            if (collator.compare(words[i], words[j]) > 0) {
                tmp = words[i];
                words[i] = words[j];
                words[j] = tmp;
            }
        }
    }
}

当使用英语排序规则进行排序时,单词数组如下:

chalina
curioso
llama
luz

将前面的列表与下面的列表进行比较,下面的列表是根据传统的西班牙排序规则进行排序的:

curioso
chalina
luz
llama