CreateCorpusでの自動判定の改良
ディレクトリを指定してのインポートもほぼ問題はないのですが、Input Typeを指定せずにAutoにしておくと、 ディレクトリに含まれるファイルのいくつかでInput Typeの判定が失敗し、最後に謎のエラーとして 表れることがありました。
このエラーは、一文が長すぎたために最初の100行を読んだだけではEOSを検出できず、 フォーマット判定に失敗してPlainTextReaderが使われたのが原因でした。 白書ではCaboChaフォーマットで500行を超える文もあるので、フォーマット判定のために読む行数を 多めにすることと、このエラーの原因をわかりやすく(各Readerの使用回数を最後に表示するなど) していただけるとありがたいです。
ディレクトリを指定してのインポートもほぼ問題はないのですが、Input Typeを指定せずにAutoにしておくと、 ディレクトリに含まれるファイルのいくつかでInput Typeの判定が失敗し、最後に謎のエラーとして 表れることがありました。
このエラーは、一文が長すぎたために最初の100行を読んだだけではEOSを検出できず、 フォーマット判定に失敗してPlainTextReaderが使われたのが原因でした。 白書ではCaboChaフォーマットで500行を超える文もあるので、フォーマット判定のために読む行数を 多めにすることと、このエラーの原因をわかりやすく(各Readerの使用回数を最後に表示するなど) していただけるとありがたいです。