――――Japan Association for East Asian Text Processing (JAET)―――― △▼△▼△▼△ 漢 字 文 献 情 報 処 理 研 究 会 △▼△▼△▼△ ▽▲▽▲▽▲▽ メ ー ル マ ガ ジ ン ▽▲▽▲▽▲▽ ―――――――――――― http://www.jaet.gr.jp/ ――――――――――― ========== 東洋学研究・教育の電子化と電脳漢字処理の最新情報 ========== ■□ 2002.4.15 □■ ■□ 第七号 □■ ―[PR]―――――――――――――――――――――――――――――――― ★☆★☆★ Windows中国語処理と電脳東洋学研究の最新マニュアル★☆★☆★ ★☆★☆★ 『電脳中国学II』(本会編、好文出版)絶賛発売中! ★☆★☆★ 詳細は、http://jaet.gr.jp/denchu2/ ---------------------------------------------------------------------- ◇◆◇◆ 機関誌『漢字文献情報処理研究』(好文出版)好評発売中 ◆◇◆◇ 詳細は、http://jaet.gr.jp/denchu2/ ――――――――――――――――――――――――――――――――――― ・メーラーを等幅フォントに設定してください。 ・バックナンバーの閲覧・検索は、http://jaet.gr.jp/mag/ でどうぞ。 ――――――――――――――――――――――――――――――――――― 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ◆◇ JAET か ら の お 知 ら せ ◇◆ 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ――――――― ■会員向け情報 ――――――― ○【重要】BBS用IDおよびパスワードの再発行について 4月14日(日)に、システム上の都合により全会員のアカウントを再発行 しました。新規アカウントの連絡を着信していない方は、JAET入会申し込 みフォーム http://jaet.gr.jp/ent-form.html で、入会申請理由欄に 「新規アカウント未着」と明記の上、大至急、メールアドレスおよびご住 所をお知らせください。 ○会費納入のお願い 2001年度・2002年度会費が未納の方は、出来るだけ早くお振り込みくだ さい。振り込み口座はhttp://jaet.gr.jp/JAET-BBS/(会員専用)にてご 確認ください。 ○新入会員(2002.3.26〜2002.4.10) 6名の方が新たにJAETに入会されました。 ====================================================================== 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ◆◇JAET-BBS ダ イ ジ ェ ス ト◇◆ 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ・漢情研会員はリンクをクリックするとJAET-BBSの当該発言を閲覧できます。 ――――――――――― ■春期公開講座を終えて ――――――――――― ・漢情研主催の春期公開講座「漢字文献データベース最前線」が3月31日(日) に行われ、盛況のうちに終了いたしました。当日ご参加の皆様には御礼申し上 げます。BBSも下記の4つのスレッドが立ち当日の話題で盛り上がっています。 なお本号の“きまぐれコラム”は当研究会代表二階堂善弘氏による、公開講座 当日のレポートを掲載しています。こちらの方も是非ご一読ください。 ○公開講座無事終了 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=an&mes=413 ○電子編目員(画像付き) http://jaet.gr.jp/JAET-BBS/contents.cgi?room=an&mes=417 ○公開講座備忘録 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=an&mes=424 ○数碼太師パーソナル開発に http://jaet.gr.jp/JAET-BBS/contents.cgi?room=an&mes=425 ――――――― ■イベント情報 ――――――― ○2nd Workshop on NLP and XML (NLPXML-2002) 本年9月1日に台北で標記の国際ワークショップが開催されます。 詳細:http://www.ling.helsinki.fi/~gwilcock/NLPXML/ ――――――――――――――――――― ■雑談 <電脳・社会・学界をめぐって> ――――――――――――――――――― ○XPのCD書き込み時の問題? Windows XPでCD-R/RW書込時に ディスクにコピーしたファイルまたはフォ ルダが消失する面白いエラーが出ているようです。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=501 ○新聞紙面の変化 最近「わい曲」、「破たん」といった漢字と仮名の交ぜ書きが一部新聞紙 上から消えたようです。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=507 関連URL:http://www.pressnet.or.jp/info/news0111.html ―――――――――――――――――――――― ■電脳情報 <Webサイト・ソフトウエア etc.> ―――――――――――――――――――――― ○21世紀の東方学・第2回「東方学と国際協力」記録PDF 京都大学人文科学研究所主催の標記シンポジウムの記録が公開されました。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=626 関連URL:http://www.zinbun.kyoto-u.ac.jp/symposium/cooperation.html ○寒泉から「二十五史」が消えている あの寒泉からいつのまにか「二十五史」が消えている模様です。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=627 ○EGBridge 13はなかなか驚異 マックのソフトのUnicode対応もかなりの水準に達しているようです。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=628 ○伊藤雅光『計量言語学入門』 新刊書情報。大修館書より2002年4月発売。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=629 ○台湾研究資源 台湾大学図書館作成の日本統治時代の台湾研究をメインとした、資料目録 ・データベース・リンク集などの統合サイト情報。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=631 ○上海数字世紀 書同文サイトからのリンク先に行くと、上海数字世紀の書同文提供のオン ライン辞書等が無償で検索・閲覧できるようになっている模様です。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=632 ○国学は最近バラ売り路線? 国学が個人ユーザー向けなのかデータのバラ売り路線を展開中 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=633 ―――――――――――――――――――――― ■文字処理情報 <テキスト処理と文字コード> ―――――――――――――――――――――― ○中研院外字と文字化け―仕様のようです― OFFICE XPで起きる台湾中央研究院外字の文字化けは仕様の問題というこ とが判明。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=625 関連スレッド:http://jaet.gr.jp/JAET-BBS/contents.cgi?room=soft2&mes=567 ○Unicode 3.2リリース Unicode 3.2がリリースされた模様です。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=code2&mes=263 ――― ■訃報 ――― ○平川彰先生逝去 日本印度学仏教学会理事長として、INBUDS(インド学仏教学論文データ ベース)の基礎を築いた平川彰氏が3月31日に逝去されました。謹んでご 冥福をお祈りいたします。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=422 ―気まぐれコラム――――――――――――――――――――――――――― 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ◆◇ 驚異の技術力・書同文 ◇◆ 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 二階堂よしひろ@電気漢文箱 『四庫全書』や『四部叢刊』のデータベースの話を聞くにつれ、いつも不思議 に感じたのは、そのような何億字という文字数を持つデータを、いかにして短 時間で構築できたか、ということでした。 その秘密の一端を探るべく(?)、ではありませんが、今回はそれらのデータ ベースの構築に当たられた書同文公司の技術陣にお越しいただき、JAET開催の 公開講座にて講演していただきました。JAETはビザなどの件で些か協力いたし ましたが、お忙しいビジネスの合間に多くの時間を割いてお話いただき、また ディスカッションにも詳細にお答えいただき、非常に実りの多い時間となりま した。 お招きしたのは、書同文公司(http://www.unihan.com.cn/html/index.htm) の朱岩・朱江の両氏で、通訳は慶応大講師の山下一夫氏にお願いし、2002年3 月31日の14時から、慶応大三田キャンパスにおいて開催しました。主に朱岩氏 がデモを含めて講演され、その後熱のこもった討論となりました。 それにしても、こちらもその動向にはいつも注意していたつもりなのに、いざ 目の前で技術の紹介や、デモによる裏技の公開(?)をしていただくと、自分 も知らないことが多く、驚嘆の連続でした。所謂ベンチャー企業に属すると思 われますが、高い技術力に支えられた自信と風格を感じました。 書同文については、『四庫全書』や『四部叢刊』データベースの他、『漢語大 詞典』CD-ROMや、また『e-康煕字典』などの製作でも知られています。まず朱 岩氏が紹介されたのも、これらの実績でした。 そしてUnicode・ISO/IEC 10646との積極的な関わりを強調されていました。Un icodeのCJK漢字を使ってデータベースを構築するというだけではなく、実際に その制定に大きな役割を果たしているのが書同文の特色です。 現在、CJK漢字とCJK拡張漢字Aで27,484文字、これにCJK拡張漢字Bの42,710字 が加わり、実質的に約7万の漢字がWindowsなどで使用できるようになっていま すが、その拡張漢字の選定などに書同文は関わっています。拡張漢字の中には、 『四庫全書』や『四部叢刊』をソースとするものがあり、これがデータベース 構築作業に伴って申請されたもののようです。今後も、補完を続けていくとの こと。 ただ、『四庫全書』『四部叢刊』の段階では、基本的にUnicodeのプライベー ト領域に作字を行って処理しているようです。『康煕字典』は、現在は画像版 ですが、別に電子テキスト版があり、こちらでは拡張漢字Bまで対応している とか、期待できます(質問の時間では、『四部叢刊』も拡張漢字Bへの将来の 対応も予定しているとのことでした)。 Unicodeで構築されているために、基本的にデータベースはシングルバイナリ で提供されています。だから、中文Windowsでも日本語Windowsでも問題なく動 きます(ただし、主にWindows 2000/XP)。 拡張漢字まで対応したIMEも、すでに開発されているようです。劉書沢氏の開 発された「劉形碼」を基礎に「四庫流行碼」を作成、3万字前後の部首や発音 による入力が可能となっているとのことでした。これは単独でも販売可能とか。 手頃なお値段で提供されることを望みます。いまはまだ、拡張漢字B入力する のが大変ですからねえ(笑)。 これほど多くのデータをどう扱うのか?ということでしたが、基本的にOCRに より処理するようになっているようです。しかし、そのOCR処理もかなり自動 化されており、校合のシステムまで含んだものとなっています。書同文のサイ トでも紹介されていますが、その速度はペンティアムII/266MHzのマシンで、 毎秒22字。平均可読率は92%。手書きの文書でもかなり高率で読めるようです。 これは古典文献を対象としているという特殊性も考えると、驚くべき数字に思 えます。 また、画像との連動やデータベースの作成まで、ほぼシステム化がなされてい ます。なんとこのシステムは販売しているようですが、さすがにちょっとお値 段は高く、35万元とのことでした。もっとも、近年開発した「孫中山デジタル 図書館システム」ではこの簡易版を使っており、そちらはちょっと安めで20万 元とのこと。いずれにせよ、ちょっと個人では無理ですね。ご興味をお持ちの 機関に期待します。 「電子編目員」という電子目録自動作成ソフトも興味深いものでした。図書カ ードのイメージから、題名・作者・出版社などの多くの情報を、自動的に抽出、 そしてXMLなどの、標準化された形式に則って電子化するという優れたシステ ムです。前記の「孫中山デジタル図書館」構築の事例をデモでは披露されてい ました。 この他、『四部叢刊』検索の裏技的なテクニックも紹介されていましたが、詳 しくは割愛します(笑)。 2時間近くの講演の後、休憩をはさんで1時間以上熱心なディスカッションが行 われました。急に開催が決まったこともあり、参加者は決して多くはなかった のですが、かなりの盛り上がりを見せました。 自分がベンチャー企業をやれ、と言われたら、まずもってこの書同文と日本の ユーザをつなぐ商売をやりますね(笑)。日本でも、大量のデータをどう電子 的に処理するか、悩んでいるところは多いはずです。図書館や辞典を持つ出版 社など。しかし電子化のコストと時間を考えると、二の足を踏むところがほと んどでしょう。しかし、書同文のシステムを使えば、かなりの速度と、ある程 度のコストで電子化が可能となります。これを使わない手は無いと思いますよ。 あと、日本でももっとこういった技術を備えた企業があるべきではないか、と 思いました。先のことを考えると、やはりグローバルスタンダードを見据えた 多漢字処理の技術は重要になってくるはずですが。 --------------------------------------------------------------------- ※編者記 書同文に関しては、現在発売中の機関誌『漢字文献情報処理研究』第2号 に千田大介氏による「中国における古典文献データベースの構築 - 書同 文公司へのインタビューを通じて-」が掲載されています。今回来日され た朱岩氏へのインタビューでこちらの方も大変興味深い内容となっていま す。 ==Information========================================================= ・このメールマガジンは、講読をお申し込みいただいた方に、無償で送信して おります。 ・このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して 発行しています。http://www.mag2.com/ (マガジンID: 0000083458) ◆登録変更・講読停止 ----- http://jaet.gr.jp/mag/ ◆漢情研入会申し込み ----- http://jaet.gr.jp/guiding.html ====================================================================== ┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ ┃ 漢字文献情報処理研究会メールマガジン 第七号 [2002.4.15] ┃ ┃ 毎月1日・15日発行┃ ┠─────────────────────────────────┨ ┃ 編集・発行:(c)漢字文献情報処理研究会┃ ┃ 本号編集担当:小島浩之┃ ┠─────────────────────────────────┨ ┃本メールマガジンの内容を、著作権法に定められた範囲を超えて、無断で┃ ┃引用・転載・再利用することを厳禁します。 ┃ ┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛ |