UTF-8 without BOM「日本語①」の自動判定
こんにちは,日本語 TeX の開発関係者です。既に報告があるのかもしれませんが,過去チケットを検索しても見つけられませんでしたので報告します。
現在,Windows 版の pTeX(日本語 TeX)では nkf をライブラリとして組み込んで文字コード推定に使わせて頂いております。その中で,nkf が文字コード推定を誤る例が(ずいぶん前から)指摘されていることに今更気づきました。
確かに nkf 単体で「日本語①」を test.txt として UTF-8 without BOM で保存しても,nkf --guess test.txt で Shift_JIS と返ってきます。ところが
となり「日本語①」の時だけ判定を誤るのを不思議に思っています。100%判定が当たるとは思っていませんが,不思議なので理由だけでも分かるとありがたいです。よろしくお願いします。
申し訳ありません,なぜか2個オープンしてしまいました。 https://osdn.net/projects/nkf/ticket/42653 に統一します。
こんにちは,日本語 TeX の開発関係者です。既に報告があるのかもしれませんが,過去チケットを検索しても見つけられませんでしたので報告します。
現在,Windows 版の pTeX(日本語 TeX)では nkf をライブラリとして組み込んで文字コード推定に使わせて頂いております。その中で,nkf が文字コード推定を誤る例が(ずいぶん前から)指摘されていることに今更気づきました。
確かに nkf 単体で「日本語①」を test.txt として UTF-8 without BOM で保存しても,nkf --guess test.txt で Shift_JIS と返ってきます。ところが
となり「日本語①」の時だけ判定を誤るのを不思議に思っています。100%判定が当たるとは思っていませんが,不思議なので理由だけでも分かるとありがたいです。よろしくお願いします。