照合の詳細

ガイド

照合の規則についての詳細な説明が必要な場合は、このページの説明をお読みください。[Collation Rules] フィールドは規則のリストで、各規則は次の 3 つの形式のどれかです。

テキスト引数

テキスト引数は任意の文字列で、特別の文字 (空白文字、および修飾子、関係指定子、リセット指定子に使われる文字) は除きます。これらの文字を指定する場合は、単一引用符で囲みます (「アンパサンドの例」を参照)。

修飾子

現在は、修飾子は 1 つだけです。これは、すべてのアクセント記号 (優先度 2 ) が逆方向にソートされることを示します。

@

フランス語の場合のように、アクセント記号が逆方向にソートされることを示す

関係指定子

次の関係指定子があります。

<

より大きい - 文字の相違 (優先度 1)

;

より大きい - アクセント記号の相違 (優先度 2)

,

より大きい - 大文字と小文字の相違 (優先度 3)

=

等しい

リセット指定子

現在、リセット指定子は 1 つだけ定義されています。これは、主に縮約と展開に使用されますが、規則の最後に修正を追加するためにも使用されます。

&

リセット指定子のテキスト引数の次に、別の規則が続くことを示す

リセット指定子は、テキスト引数をソートシーケンスに入れない

説明では難しそうに思われますが、実際は簡単です。たとえば、次の 3 つは同じことを別々の方法で表しています。

テキスト引数のすぐ後ろに次の要素が続くので、順序は重要です。次の 2 つは等価ではありません。

どちらかのテキスト文字列が、シーケンス内にすでに存在しているか、または、テキスト文字列の最初の部分文字列が存在して存在している必要があります。 たとえば「a < b & ae < e」は、シーケンス内で「ae」の前に「a」があるために有効です。 後者の場合、「ae」は単一文字として入力や取り扱いをされず、「e」が 2 文字に展開 (「a」に「e」が続く) されたようにソートされます。

この相違は自然言語に現れます。 伝統的なスペイン語では、「ch」は単一文字 (「c < ch < d」と表現) に縮約されているものとして扱われ、伝統的なドイツ語では、「ä」(a ウムラウト) は 2 文字 (「a & ae ; ä < b」と表現) に展開されているものとして扱われます。

無視できる文字

最初の規則は必ず関係指定子で開始します (上記の例は部分的な例で、実際には「a < b」は「< a < b」でなければならない)。 ただし、最初の関係指定子が「<」でない場合は、最初の「<」より前のすべてのテキスト引数は無視できます。 たとえば、「, - < a < b」で「-」は、「black-birds」という語の例で見たように、無視できる文字となります。ほかの言語の例では、アクセント記号が無視できる文字になります。

標準化とアクセント記号

Collation オブジェクトは内部で自動的にテキストを標準化して、できる限りベース文字とアクセント記号を分離します。これは、規則を処理するときと 2 つの文字列を比較するときの両方で行われます。さらに、Collation は結合シーケンスが適切に保存されるように、Unicode の標準マッピングも行います。詳細については「The Unicode Standard, Version2.0」を参照し、Unicode の「U」をクリックしてください。

アクセント記号を使用するほとんどの言語では、アクセント記号を一貫した方法で (修飾されていないベースの直後に) ソートします。これを行うには、アクセント記号を無視できる文字にしてから、照合規則の最初に正しい順序で記入します。この場合、ドイツ語の「ä」などの一部のケースは明示的な規則で取り扱う必要があります。

エラー

次の場合はエラーになります。

これらのエラーのどれかがあると、画面の最下行に、どこにエラーがあるかを示すエラーメッセージが表示され、正しくないテキストが選択されます (注 - 一部のブラウザではエラーの選択が正しく表示されない)。



© Copyright 1997. All rights reserved.Taligent, Inc., IBM Corp.