――――Japan Association for East Asian Text Processing(JAET)――――

△▼△▼△▼△     漢 字 文 献 情 報 処 理 研 究 会     △▼△▼△▼△
▽▲▽▲▽▲▽           メ ー ル マ ガ ジ ン           ▽▲▽▲▽▲▽

―――――――――――― http://www.jaet.gr.jp/ ―――――――――――

========== 東洋学研究・教育の電子化と電脳漢字処理の最新情報 ==========

                         ■□    2005.2.1   □■
                         ■□   第七十四号  □■

―――――――――――――――――――――――――――――――――――
・メーラーを等幅フォントに設定してください。
・バックナンバーの閲覧・検索は、http://jaet.gr.jp/mag/ でどうぞ。
―――――――――――――――――――――――――――――――――――
―――――――
■会員向け情報
―――――――
○【重要】会費納入のお願い
    会費未納の方は、出来るだけ早くお振り込みください。
    振込口座は http://www.jaet.gr.jp/JAET-BBS/(会員専用)トップページ
    にてご確認ください。また、会員種別変更(一般・BBS)も随時受付中で
    す。

〇【重要】会員登録情報変更のお願い
    本年度には会員名簿を発行いたします。このため異動や引越しなどによっ
    て会員登録情報に変更が生じた会員の方は下記のフォームより事務局まで
    お知らせ願います。
    http://www.jaet.gr.jp/JAET-BBS/change.html(会員専用)

〇『漢字文献情報処理研究』第5号の一般会員への送付について
    11月末日までに一般会員となられた会員の方には、好文出版社より会誌を
    発送しています。もし、会員種別変更を申請されているにもかかわらず、
    雑誌が届いていないなど、発送に伴う不具合がありましたら、至急事務局
    までご連絡ください。事務局への連絡先はBBSトップページ
    http://www.jaet.gr.jp/JAET-BBS/(会員専用)にあります。

○大会発表レジュメ
    当会第七回大会の発表レジュメをご希望の方は、事務局まで送付先等をご
    連絡ください。
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=an&mes=736

○新入会員(2005.1.11〜2005.1.25)
     1名の方が新たにJAETに入会されました。

======================================================================
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
◆◇ JAET-BBS ダ イ ジ ェ ス ト・2005.1.11〜2005.1.25 ◇◆
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
・漢情研会員はリンクをクリックするとJAET-BBSの当該発言を閲覧できます。

―――――――
■イベント情報
―――――――
○大規模知識資源シンポジウム
 日時:2005年3月1日〜3日(木)
 会場:東京工業大学、西8号館 10階大会議室
 主催:東工大21世紀COEプログラム「大規模知識資源体系化と活用基盤構築」
 詳細:http://www.coe21-lkr.titech.ac.jp/japanese/symposium2005.html

―――――――――――――――――――
■雑談 <電脳・社会・学界をめぐって>
―――――――――――――――――――
○【雑談】アップル格安Mac
    気になるMac miniだが、512MBでメモリは足りるかな?
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac3&mes=653

○【雑談】iPod shuffle
    Mac miniとならんで気になるiPod shuffle。携帯音楽プレーヤーとしては
    すこぶるよろしいようで。
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac3&mes=669

○【雑談】雑談その後
    IBMとSCO、トランスメタ身売り、躍進Firefoxなど、ネットニュースを斜
    め読み。
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac3&mes=671

○【雑談】いまさらか常用漢字
    読売新聞に「常用漢字、情報化時代で抜本見直し…文化審が報告書案」と
    いう記事が。何を今更、というのが正直な印象。
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac3&mes=674

○【雑誌】情報処理「台湾のIT事情」
    情報処理学会の会誌『情報処理』2005年1月号の記事。マサチューセッツ
    工科大のプログラムは全部中文化を目指してるとのこと。
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=info3&mes=69

――――――――――――――――――――――
■電脳情報  <Webサイト・ソフトウエア etc.>
――――――――――――――――――――――
○【サイト】ジャパンナレッジ、『白川静 字通』公開
    各社辞書や東洋文庫(平凡社)などを公開するジャパンナレッジから、今
    度は『字通』が公開。どのような形になるのか楽しみ。
    http://www.japanknowledge.com/
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac3&mes=652

○【ソフト】Linux用Wnnの最新版リリース
    オムロンソフトウェアのLinux用日本語IME「Wnn」がリリースに。売りの
    ひとつが「Unicode Ver.3.2の全ての日本語文字をサポート」とのことだ
    が、フォントはあるのかな?
    http://www.omron.co.jp/press/2005/s0114.html
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac3&mes=663

○【ソフト】オムロンソフト「楽々中国語 V3」発売
    オムロンソフトウェアの中国語IMEに新バージョン。声調付きピンインや
    カタカナの「読み」を自動的に付加する機能などが売りとの由。
    http://www.omron.co.jp/press/2004/s1221.html
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=info3&mes=70

○【サイト】フレッシュアイの中日機械翻訳
    翻訳の精度についてはまだまだだが、辞書の選択や原文・訳文の対照に工
    夫も。
    http://www.fresheye.co.jp/
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=info3&mes=71

○【ソフト】j北京V5
    高電社の日中翻訳ソフトに新バージョン。ものによっては修正不要な翻訳
    も可能だが、まだやはり下訳に使うレベルか。
    http://www.kodensha.jp/jis/soft/jbv5_00.html
    http://jaet.gr.jp/JAET-BBS/contents.cgi?room=info3&mes=73

―気まぐれコラム―――――――――――――――――――――――――――
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
◆◇ Perlミニスクリプト集(其の二) ◇◆
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
                                                             もろしげき

■おまたせしました

と書いたところで、ふと思った。待っていた人はいるのだろうか (^_^;;

それはともかく、このコラムは、漢情研メルマガ第69号に掲載した「Perlミニ
スクリプト集(その一)」の続編である。趣旨などについてはバックナンバー
でご確認を。現在積み残しているお題は以下の通りである。

(4)  空行を無視した検索の方法
(6)  行を逆順に表示
(7)  各行毎に文字数、バイト数を出力
(8)  行頭に行番号を付けて表示
(9)  フィールド分割文字を指定して扱う方法
(10) フィールド同士の入れ替え出力
(11) 最大フィールド数を表示
(12) 複行データをCSVデータに変換
(13) ファイルから一行読み込んで外部実行ファイルに一つずつ渡す方法
(14) Unicodeで書かれたApp形式又はSAT形式のテキストをKWIC出力するCGI

■やってみよう

(4)は長くなりそうなので今回もパス。サンプル用のテキストは以下のものを
使う(文字コードはUTF-8)。実行方法はすべて「perl nnn.pl sample.txt」
である。出力例と比較してほしい。

---sample.txt---------------------------------------------------------
あいうえお
かき
くけこ
さしすせ
そ
----------------------------------------------------------------------

(6)...以下の通り。

---6.pl---------------------------------------------------------------
print reverse <>;
----------------------------------------------------------------------

この一行だけ (^_^;; reverseは配列の順序を逆にする標準関数。

---出力例-------------------------------------------------------------
そ
さしすせ
くけこ
かき
あいうえお
----------------------------------------------------------------------

説明の都合上、(7)を飛ばして(8)から。

(8)...以下の通り。

---8.pl---------------------------------------------------------------
while (<>) {
    print $., ': ', $_;
}
----------------------------------------------------------------------

特殊変数「$.」は、読み込んでいるファイルの行番号が入るので、それをprint
するだけ。ちなみに「print "$.: $_"」でも同じだが、上のサンプルの方がほ
んのちょっとだけスピードが速いらしい。ダブルクオーテーションの場合、変
数展開とかをしたりするからだと思う。

---出力例-------------------------------------------------------------
1: あいうえお
2: かき
3: くけこ
4: さしすせ
5: そ
----------------------------------------------------------------------

行番号の桁を揃えたかったら、printfを使えばよい。例えば5桁に揃えて空いた
桁を0で埋める場合には、

---8.1.pl-------------------------------------------------------------
while (<>) {
    printf "%05d: $_", $.;
}
----------------------------------------------------------------------

とすれば、

---出力例-------------------------------------------------------------
00001: あいうえお
00002: かき
00003: くけこ
00004: さしすせ
00005: そ
----------------------------------------------------------------------

と出る。

(7)...以下の通り。

---7.pl---------------------------------------------------------------
use open ":utf8";
while (<>) {
	chomp;
	print $., ", "; # 行番号
	print length, ", "; # 文字数
	do {
		use bytes;
		print length, "\n"; # バイト数
	}
}
----------------------------------------------------------------------

perl 5.8のlength関数は基本的に文字数を返す。しかし、use bytesをすること
で、文字列をバイト単位で扱うようになる。do { ... } はその範囲(スコープ)
を限定するためのしかけ。

---出力例-------------------------------------------------------------
1, 5, 15
2, 2, 6
3, 3, 9
4, 4, 12
5, 1, 3
----------------------------------------------------------------------

■今日はここまで

ということで、今回はここまで。また次回をお楽しみに。質問等があれば、BBS
上でお願いしたい(会員じゃない方は、これを機にご入会を (^_^;;)。

現在困っていること:(9)〜(11)の「フィールド」って何だろう...表計算ソフト
とかの列のことだろうか?

==Information=========================================================
・このメールマガジンは、講読をお申し込みいただいた方に、無償で送信して
     おります。
・このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用し
    て発行しています。http://www.mag2.com/ (マガジンID: 0000083458)

◆登録変更・講読停止 ----- http://jaet.gr.jp/mag/
◆漢情研入会申し込み ----- http://jaet.gr.jp/guiding.html
======================================================================

┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓
┃   漢字文献情報処理研究会メールマガジン       第七十四号[2005.2.1]┃
┃                                              毎月1日・15日発行   ┃
┠─────────────────────────────────┨
┃                             編集・発行:(c)漢字文献情報処理研究会┃
┃                                            本号編集担当:師 茂樹┃
┠─────────────────────────────────┨
┃本メールマガジンの内容を、著作権法に定められた範囲を超えて、無断で┃
┃引用・転載・再利用することを厳禁します。                          ┃
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛

Last-modified: 2018-10-20 (土) 15:51:08