|
Samba 国際化プロジェクト > テストに使用したデータ
テストに使用したデータこのページでは、Sambaの国際化の評価にあたり、日本語の中でもっとも問題の起こりやすい文字列のパターンをあげてみました。 目次テストに使用したデータダウンロード:
検証に使用したテキストデータは以下のリンクからダウンロードすることができます。
i18n_testdata.tar.gz (2003/12/19) 使用方法:
以下の操作を行うとファイルが展開されます。
$ tar zxvf i18n_testdata.tar.gz $ cd testdataなお、公開されているテスト用パッチには、もうすでにこのデータは組み込まれています。 国際化対応の考慮の必要がある要素テストを実行するにあたり、マルチバイト文字対応の有無を調べるための考慮すべきデータのパターンをあげます。 リソース名
文字列のパターン
round trip 可能な文字
cp932/eucJP-ms と Unicode との間で文字コード (エンコーディング) の相互変換を行っても元のコードポイントの変換される文字です。 入力文字列と出力文字列を比較して一致する事を確認するテストが必要です。
大文字小文字 (全角文字)
Windowsの世界ではローマ数字のなど、全角の大文字小文字を同一視します。 Sambaでも同様の処理が行われているか、テストを行う必要があります。
シフトJIS 2 バイト目の ASCII 文字
2バイト目が "\" (0x5C) の場合、想定していた動作をしない可能性があります。(参照)
"表" と "都" のように 2バイト目がASCIIの大文字と小文字だった場合、 2つの文字を同一と扱わないように確認が必要です。(参照)
日本語版 Samba 2.2 と異なるコードポイントを用いる文字
テストに使用するエンコーディング
ファイル、ディレクトリ名 最大128バイト (unix charset)round trip 可能な文字
文字列一覧ファイル
ファイルフォーマット 1 行に 1 つの文字列
大文字小文字
文字列一覧ファイル
ファイルフォーマット 1 行に大文字の文字列と小文字の文字列をタブを区切って格納 <大文字の文字列>\t<小文字の文字列> テスト例
参照: https://bugzilla.samba.org/show_bug.cgi?id=185 シフトJIS 2 バイト目の ASCII 文字
0x5C (\) 問題
参照:
https://bugzilla.samba.org/show_bug.cgi?id=186
ASCII文字の大文字小文字問題
参照:
https://bugzilla.samba.org/show_bug.cgi?id=189
日本語版 Samba 2.2 と異なるコードポイントを用いる文字
文字列一覧ファイル
ファイルフォーマット Samba 3で使用する NEC特殊文字と Samba 2.2日本語版で使用するIBM拡張文字 をタブ区切って行単位で格納 (1 レコードのみ) <NEC特殊文字>\t<IBM拡張文字> ユーザ、グループ名 最大8バイト (unix charset)round trip 可能な文字
文字列一覧ファイル
ファイルフォーマット
大文字小文字
文字列一覧ファイル
ファイルフォーマット 1 行に大文字の文字列と小文字の文字列をタブを区切って格納 <大文字の文字列>\t<小文字の文字列> シフトJIS 2 バイト目の ASCII 文字
0x5C 問題
"表" をパラメータに使用できることを確認する。 ASCII文字の大文字小文字 "鉄" と "都" を区別できる事を確認する。 日本語版 Samba 2.2 と異なるコードポイントを用いる文字
文字列一覧ファイル
ファイルフォーマット Samba 3で使用する NEC特殊文字と Samba 2.2日本語版で使用する IBM拡張文字をタブ区切って行単位で格納 (1 レコードのみ) <NEC特殊文字>\t<IBM拡張文字> 共有名、プリンタ名 最大12バイト (unix charset)round trip 可能な文字
文字列一覧ファイル
ファイルフォーマット
大文字小文字
文字列一覧ファイル
ファイルフォーマット 1 行に大文字の文字列と小文字の文字列をタブを区切って格納 <大文字の文字列>\t<小文字の文字列> シフトJIS 2 バイト目の ASCII 文字
0x5C 問題
"表" をパラメータに使用できることを確認する。 ASCII文字の大文字小文字 "鉄" と "都" を区別できる事を確認する。 日本語版 Samba 2.2 と異なるコードポイントを用いる文字
文字列一覧ファイル
ファイルフォーマット Samba 3で使用する NEC特殊文字と Samba 2.2日本語版で使用する IBM拡張文字をタブ区切って行単位で格納 (1 レコードのみ) <NEC特殊文字>\t<IBM拡張文字> コンピュータ名、ワークグループ名 最大15バイト (CP932)round trip 可能な文字
文字列一覧ファイル
※半角カナ以外は、16バイト目がシフトJIS の 2 バイト目になっています。 Samba が単純に 15バイトで文字列を切っていると不具合が発生すると思われます。 ファイルフォーマット
大文字小文字
文字列一覧ファイル
ファイルフォーマット 1 行に大文字の文字列と小文字の文字列をタブを区切って格納 <大文字の文字列>\t<小文字の文字列> シフトJIS 2 バイト目の ASCII 文字
0x5C 問題
"表" をパラメータに使用できることを確認する。 ASCII文字の大文字小文字 "鉄" と "都" を区別できる事を確認する。 日本語版 Samba 2.2 と異なるコードポイントを用いる文字
文字列一覧ファイル
ファイルフォーマット Samba 3で使用する NEC特殊文字と Samba 2.2日本語版で使用する IBM拡張文字をタブ区切って行単位で格納 (1 レコードのみ) <NEC特殊文字>\t<IBM拡張文字> |
|