この原則に従い,現状では General Punctuation (U+2000--U+206F) は全体が JAchar です(JIS X 0208 の文字があるため).
しかしこのブロックには en-dash, em-dash, ‹ › といった欧文組版で「よく使われるであろう」文字の他に,U+200B(ZWSP;欧文ゴーストとして使える)や U+200D(ZWJ;絵文字の結合.参考:#39513)など「特殊な」文字もあります.
そこで,次バージョンでは General Punctuation ブロックを JAchar の文字と ALchar の文字に分割しようと考えています.JAchar とする手っ取り早い基準としては「Adobe-Japan1 にある」「JIS X 0213 にある」「JIS X 0208 にある」というのが考えられますが,実際には以下に示すように en dash が JIS X 0208 段階で収録されているので,迷っているところです.
現状の LuaTeX-ja では和文扱い (JAchar) と欧文扱い (ALchar) をUnicode ブロック単位で決めています(Latin-1 Supplement (U+0080--U+00FF) は文字範囲を 1 と 8 に分割していますが,どちらも ALchar 扱いなのでこのブロックは ALchar しかありません).どちらの扱いにするかは Adobe-Japan1 との共通部分があるかどうかで決めています.
この原則に従い,現状では General Punctuation (U+2000--U+206F) は全体が JAchar です(JIS X 0208 の文字があるため). しかしこのブロックには en-dash, em-dash, ‹ › といった欧文組版で「よく使われるであろう」文字の他に,U+200B(ZWSP;欧文ゴーストとして使える)や U+200D(ZWJ;絵文字の結合.参考:#39513)など「特殊な」文字もあります.
そこで,次バージョンでは General Punctuation ブロックを JAchar の文字と ALchar の文字に分割しようと考えています.JAchar とする手っ取り早い基準としては「Adobe-Japan1 にある」「JIS X 0213 にある」「JIS X 0208 にある」というのが考えられますが,実際には以下に示すように en dash が JIS X 0208 段階で収録されているので,迷っているところです.