[Anthy-dev 3761] Re: 郵便番号のデータ

Back to archive index

Jun Oizumi vagus****@gmail*****
2010年 6月 8日 (火) 00:53:32 JST


> こんにちは、白井です。

白井さん、お久しぶりです :-)

> 大泉さんのスクリプトに発破をかけられて

いや、お恥ずかしいです…。

>>>    elsif item[3] == "新所・岡崎・梅田入会地"
>>>      # これだけなぜか中黒
>
> ちょっと気になったので調べてみましたが、「静岡県湖西市新所・岡崎・
> 梅田入会地」という住所がありました :-)

げ、これで一つの住所でしたか。
すみませんです。

>>> # (JIGYOSYO.CSV は一部、第3水準の漢字を使っていて、EUC-JP に変換できないので
>>> # 入れない。)
>
> こちらも調べて見たところ、
>
> 郵便番号  事業所名
>
> 2138522 . "あすか製薬(株) 川崎事業所"    ;; 「崎」が「立」
> 9508732 . "大塚製薬(株) 新潟出張所"      ;; 「塚」に点付き
> 5141293 . "(医)ショウ純会 榊原温泉病院"  ;; 「日章 U+66B2」ってどの文字にすればよいのか?
> 9558655 . "(株)高儀"                ;; はしご高
> 9590595 . "(株)高儀"                        ;; はしご高
>
> の四種類、五点だけでした。これ以上例外が増えないようならば、郵便
> 番号でのスペシャル扱いでなんとか出来そうです。上の二つは郵政のチョ
> ンボかな?

[大口事業所個別番号データの説明]
http://www.post.japanpost.jp/zipcode/dl/jigyosyo/readme.html
> 3. JISの第1・第2水準以外の漢字については類字または仮名を使用しています。

と書いてあるので、本来は郵便事業会社に「ウソつき!!」って言うべきなんでしょうが、
そもそも需要があるのか疑問だったので、私は「面倒だし、なくていいだろう」と (^^;

> SDIC 用を改造して、ついでに (^^;) zipcode.t も作ってみたのですが、
> もう一息かなぁ。SDIC で使う方は "( )" の中身とかもそのまま表示し
> ちゃっているのですが、なるたけ anthy でも "( )" 内を使えるように
> したいなぁ〜、とか野望を抱いています。

実は、あの後、「郵便番号辞書はどの IME でも KEN_ALL.CSV を元にしてるはずなんだから、
いっそのこと、一つのソースパッケージで Anthy/Canna/SKK 用の辞書を全部作った方が
いいのかな」と思いました。
「make skk; make anthy; make canna」みたいにできるような感じで。
そうすれば、anthy でファイル形式を変えた場合でも、「古いのは "make anthy-old"、新形式の
は "make anthy"」みたいな感じに Makefile を書き換えるだけで、一つのソースパッケージで
対応できるんじゃないかなぁ、と。

# [Anthy-dev 3756] 進捗/予定
# > * 最初のお客さんは anthy の zipcode.t ですか。
# という言い方を見ると、新部さんも、もしかしたらそのつもりなのかな、という気がしますが。

そう思ったので、SKK と Canna でどうなってるのかと思って、ちょっと調べてみたんですが、

SKK-JISYO.zipcode
http://openlab.jp/skk/wiki/wiki.cgi?page=SKK%BC%AD%BD%F1#p21
(「SKK 辞書ツール」が必要
http://openlab.jp/skk/wiki/wiki.cgi?page=%BC%AD%BD%F1%A5%E1%A5%F3%A5%C6%A5%CA%A5%F3%A5%B9%A5%C4%A1%BC%A5%EB
)

Canna
http://sourceforge.jp/cvs/view/canna/canna/misc/zipcode/

さすがというか何と言うか、SKK が凄いです。
"()" 内もできるだけ展開して、京都の通り名の対応までしてます。
私からすると、「そこまでやるか」という感じです。

残念ながら、elisp で書かれてるようなので、私には読めませんが。

# 尤も、SKK-JISYO.zipcode のタイムスタンプが 2010/1/23 で、
# 元データのファイル名が "ken_all.csv" と小文字になってるところをみると、
# 最近はメンテされてない?

この http://openlab.jp/skk/dic/zipcode.tar.gz をベースにして、
Anthy/Canna 用のはそこから派生する形にすればいいんじゃないかと思ったりしてたんですが、
自分がメンテするわけではないので、言いにくかったりしてました。

# ただ、SKK のにもちょっと問題があって、「新宿エルタワー(1階)」みたいな場合に、
# "(" ")" を取って単純にビル名とくっつけているので、「東池袋サンシャイン60(1階)」
# が「東池袋サンシャイン601階」となってしまってるのが、ちょっと頂けない。
# これがあるために、私は "(" ")" を残すようにしたので。

以上、半ば独り言の妄想でした。




Anthy-dev メーリングリストの案内
Back to archive index