――――Japan Association for East Asian Text Processing(JAET)―――― △▼△▼△▼△ 漢 字 文 献 情 報 処 理 研 究 会 △▼△▼△▼△ ▽▲▽▲▽▲▽ メ ー ル マ ガ ジ ン ▽▲▽▲▽▲▽ ―――――――――――― http://www.jaet.gr.jp/ ――――――――――― ========== 東洋学研究・教育の電子化と電脳漢字処理の最新情報 ========== ■□ 2002.1.15 □■ ■□ 創刊号 □■ ―[PR]―――――――――――――――――――――――――――――――― ★☆★☆★ Windows中国語処理と電脳東洋学研究の最新マニュアル★☆★☆★ ★☆★☆★ 『電脳中国学II』(本会編、好文出版)絶賛発売中! ★☆★☆★ 詳細は、http://jaet.gr.jp/denchu2/ ---------------------------------------------------------------------- ◇◆◇◆ 機関誌『漢字文献情報処理研究』(好文出版)好評発売中 ◆◇◆◇ 詳細は、http://jaet.gr.jp/jj/ ――――――――――――――――――――――――――――――――――― ・メーラーを等幅フォントに設定してください。 ・バックナンバーの閲覧・検索は、http://jaet.gr.jp/mag/ でどうぞ。 ――――――――――――――――――――――――――――――――――― 〜〜〜〜〜〜〜〜〜 ◆◇ 創刊の辞 ◇◆ 〜〜〜〜〜〜〜〜〜 漢情研はこれまでも、BBSや書籍・雑誌を通じて情報発信と交流を行ってきま したが、今回これにメールマガジンという形を加えることになりました。会員 諸氏に感謝したいと思います。 漢情研BBSは、かなり回転が速く、熱心な会員でも情報を追いかけるのが大変 だということもあり、また会員外の方にも広く情報をお伝えするという意味か らも、ダイジェストを作りました。しかし、こちらはあまり見られる方が少な いようで、今回はもっとアクティブなプッシュ型の情報公開を目指しました。 もとよりいろいろ問題はあると思いますが、ご協力のほどをお願いいたします。 漢字文献情報処理研究会代表 二階堂善弘 ====================================================================== 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ◆◇ JAET か ら の お 知 ら せ ◇◆ 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ――――――― ■会員向け情報 ――――――― ○漢情研BBS再編 第四回総会での議決を受けて、元旦よりBBSの会議室を整理統合しました。 ○会費納入のお願い 2001年度・2002年度会費が未納の方は、出来るだけ早くお振り込みくださ い。 ○名簿を発行します 本年三月を目途に、名簿を発送します。住所変更があった方は、入会申し 込みフォームにてご連絡ください。 ○新入会員(2002.1.2〜2002.1.10) 3名の方が新たにJAETに入会されました。 ====================================================================== 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ◆◇ JAET-BBS ダ イ ジ ェ ス ト・2002.1.1〜1.10 ◇◆ 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ・漢情研会員はリンクをクリックするとJAET-BBSの当該発言を閲覧できます。 ――――――― ■イベント情報 ――――――― ○文化資産としてのウェブ情報 − ウェブ・アーカイビングに関する国際シン ポジウム と き:2002.1.30(水) ところ:国立国会図書館 新館講堂 詳 細:http://www.ndl.go.jp/ndl_frm_site_7_1_sympo.html ○句読点研究会第7回例会 と き:2002.2.17(日)午後1時から6時まで ところ:小石川後楽園「涵徳亭」(JR飯田橋駅東口徒歩8分、地下鉄大江 戸線飯田橋駅後楽園口下車徒歩4分、庭園入場料は「涵徳亭」利 用と名乗れば無料) 詳 細:http://www.linelabo.com/kutouten.htm ○連続公開シンポジウム「21世紀の東方学」第三回「東方学の再構築」 主 催:京都大学人文科学研究所 と き:2002.3.16(土) ところ:京都大学京大会館 詳 細:http://www.zinbun.kyoto-u.ac.jp/symposium/announce.html ――――――――――――――――――― ■雑談 <電脳・社会・学界をめぐって> ――――――――――――――――――― ○「朝日」一面記事に赤旗Linux 2002.1.10関東版「アメリカ アメリカ」に紅旗Linuxの話題が。ZDネット にも関連記事が。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=405&area=1-1000 ○再びOS競争時代? ソニーと東芝とIBMが新OSを開発。最近のTRONも同方向を目指している。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=399&area=1-1000 ―――――――――――――――――――――― ■電脳情報 <Webサイト・ソフトウエア etc.> ―――――――――――――――――――――― ○微軟ピンイン3.0ダウンロード マイクロソフト中国で、ピンインIME最新版の配布開始。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=530&area=1-1000 ○ナイサス6.5何故旧Mac? MACの多言語ワープロ ナイサスライターは、新版でもOS Xに対応せず。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=528&area=1-1000 ○文物圖象研究室 追加text 台湾中央研究院文物圖象研究室に、新たな発掘報告書のデータが追加。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=527&area=1-1000 ○中国の新ソフトウエア管理法 2002年元旦より、中国で新たなソフト管理法が施行。著作権保護が強化され る一方、ソフトウエアアーカイブには打撃に? http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=526&area=1-1000 ―――――――――――――――――――――― ■文字処理情報 <テキスト処理と文字コード> ―――――――――――――――――――――― ○NGSMでクラスター分析 『般若心經』各異訳のNGSM(N-gram)結果をクラスター分析。興味深い結果 が得られた。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=code2&mes=192&area=1-1000 ○サンスクリットをN-gram 石飛貞典氏のサイトに、インド古典に対するNグラム実験ページが。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=code2&mes=191&area=1-1000 ○morogram ver.0.7.1公開 ver.0.7.0のバグフィックス版。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=code2&mes=183area=1-1000 ○morogram ver.0.7公開 もろしげき氏作のN-gram分析スクリプトがバージョンアップ。関連して、 N-gramで一行一データとして分析する方法に関する議論が展開。 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=code2&mes=177&area=1-1000 ―気まぐれコラム――――――――――――――――――――――――――― 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ◆◇ 中文電子テキストの黎明 ◇◆ 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 千田大介@電脳瓦崗寨 http://wagang.econ.hc.keio.ac.jp/ ●はじめに 中国古典文献の二十一世紀は電子テキストのインフレとともに幕を開けた。中 国のちょっと大きな書店に行けば、二十五史のCD-ROMはわずか三千円、『全唐 詩』に到っては五百円で手に入る。CD-ROMだけではない。国学や亦凡公益図書 館などのオンラインテキストアーカイブを訪問すれば、さらに多くの古典文献 電子テキストを無償で入手できる。五年たらず前、四書五経の電子テキストの 入手すらもおぼつかなかった頃とは隔世の感がある。研究者しか読まないよう なお堅い古典文献の大全集が、今や、だれにでも手軽に入手できる通俗的商品 になってしまったのだ。 読書に研究に、とりあえず手軽に利用できるオンライン電子テキストは、既に 十年にもおよぶ発展の歴史をもっており、それは台湾中央研究院・寒泉・香港 中文大・四庫全書などの学術データベースの発展史と表裏をなしている。小稿 では、この十年間の中国語古典文献電子テキスト発展の経過を、ごくおおざっ ぱになぞってみたい。もちろん、インターネットを行き交ったさまざまな電子 テキストについて完全に把握することは筆者の能力では到底不可能なので、誤 りは免れえないものと覚悟している。諸賢の指正を乞う次第である。 ●東坡資料庫とCND・新語絲〜電子テキストアーカイブの成立 日本でようやくインターネットが普及しはじめた1995-97年頃、中国はまだイ ンターネットに公式接続しておらず、中国語ネットワーカーは欧米や日本など の留学生・華僑と中国プロパー、それと台湾・香港の人びとだけだった。この ため、文献入力の担い手はごく少数のボランティア愛好者だけに限られ、電子 テキスト構築の歩みは遅々としていた。 この時期、しばしば利用された中国語オンラインテキストアーカイブは ・東坡資料庫 gopher://dongpo.math.ncu.edu.tw/ ・CND http://www.cnd.org/ ・新語絲 http://www.xys.org/ 現在でもサービスは続いているが、中国大陸のテキストデータインフレのおか げですっかり影が薄くなってしまった。 東坡資料庫は台湾中央大学の單維彰氏の提供で、Big5コード繁体字。CNDは北 米の民主派よりニュースダイジェスト「華夏文摘」の発行元で、HZコード簡体 字。これらが90年代前半にサービスを提供していたのに対して、新語絲サイト (GBコード簡体字)の開設は1996年とやや遅れる。北米で大陸より現実路線の 同名オンラインマガジンを発行しており、CNDとは浅からぬ因縁があり水と油 の仲だ。 この三カ所に収録されているデータは、四書五経に『唐詩三百種』『紅楼夢』、 ほかは名作古典詩文と古典小説がちらほら、といった具合でおおむね一致する。 例えば、四書五経の大半は、John H. Jenkins(井作恒)の入力。オリジナル はBig5コード繁体字版で1992-3年の日付が見える。『孫子』『鬼谷子』などは、 カリフォルニア大の張家傑氏の入力。入力は1991年に完了している。1990年代 初頭といえば、日本ではパソコン通信が普及しはじめた時代、中国語のバーチャ ルコミュニティはまだ成立していなかったから、それらはおそらくスタンドア ロン環境で入力されたのだろう。 ところで、世界で最初に成立した中国語バーチャルコミュニティーは、1992年、 アメリカインディアナ大学に設置されたニューズグループ、Alt.Chinese.Text (ACT)であるとされる。それまでにも英語のコミュニティーはあったが、簡 体字GBコードを細工したHZコードによってASCIIコードのシステム上でも中国 語情報を交換できるようにした点が画期的だった。欧米の中国人留学生の生活 情報交換にはじまり、時事批評、文芸批評、さらには文学作品の発表の場とし ても活用されるようになり、中国語総合バーチャルコミュニティーとして90年 代半ばに最盛期を迎えた。 参考 ・方舟子「ACT的興起」 http://www.xys.org/xys/netters/Fang-Zhouzi/Net/act1.txt 例えば新語絲の『荘子』テキストにAlt.Chinese.Textのヘッダが残り、データ の入力・校訂者にACTで名を馳せた「網文八大家」の面々が見えるように、ACT は電子テキストの入力・交換の場としても機能していたようだ。それらを総合 したのが、これらのオンラインテキストアーカイブということだろう。(筆者 は当時ACTを講読していなかったので、このあたりの事情に詳しい方がいたら、 具体的状況をご教示いただきたい。) ●新語絲から大陸系テキストアーカイブへ 1997-8年には、東坡資料庫とCNDは電子テキストの更新をほぼ停止したが、新 語絲だけは次々と新たらしい古典文献のテキストデータを公開していった。 『全唐詩』を切り取った李白・杜甫をはじめとする唐代詩人の別集、詞のアン ロジー、さらには『三国演義』全文のテキストデータ化を完了させるなど古典 白話小説のテキストデータ構築もすすめた。四書五経や諸子などは学術利用も 考慮して、校訂もそれなりにきちんとなされているようだ。また、著者サイド の抗議を受けて金庸全集を削除するなど、中文電子テキストをめぐる著作権問 題にはじめて直面したのも、新語絲だ。 中国では1997年のインターネット接続の後、1999年前後に多くのオンラインテ キストアーカイブが出現するが、新語絲のデータはそれらの基本コンテンツと して利用された。つまり新語絲は、北米を中心とした先駆的なテキストデータ 入力の成果を集大成して発展させ、現在の中国大陸系オンラインテキストアー カイブへと継承する媒介の作用を果たしたと言える。このことは、中文電子テ キスト発展の歴史において、高く評価されよう。 かくて、1999年には中文テキストデータの構築の主役の座は、北米系サイトか ら大陸系サイトへと交代し、オンラインテキストアーカイブの仁義無き拡張の 時代が幕を開けるのである。 【このコラムは不定期掲載です。】 ==Information========================================================= ・このメールマガジンは、講読をお申し込みいただいた方に、無償で送信して おります。 ・このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して 発行しています。http://www.mag2.com/ (マガジンID: 0000083458) ◆登録変更・講読停止 ----- http://jaet.gr.jp/mag/ ◆漢情研入会申し込み ----- http://jaet.gr.jp/guiding.html ====================================================================== ┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ ┃ 漢字文献情報処理研究会メールマガジン 創刊号 [2001.1.15]┃ ┃ 毎月1日・15日発行┃ ┠─────────────────────────────────┨ ┃ 編集・発行:(c)漢字文献情報処理研究会┃ ┃ 本号編集担当:千田大介┃ ┠─────────────────────────────────┨ ┃本メールマガジンの内容を、著作権法に定められた範囲を超えて、無断で┃ ┃引用・転載・再利用することを厳禁します。 ┃ ┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛ |