[PocketCafe トップ] [Pocketに書斎][Pocket日記] [Mail]

H/PCで国語辞典を使う

-実はけっこう修正個所が多かったりする-

作成日 00/03/26
更新日 00/11/04

★Jornada680に国語辞典導入

『Jornadaスーパーブック』に国語辞書の導入方法が載っていたので、早速試してみました。
ジョルナダはバンドルアプリが少ないのですが、ネット上で様々なソフトが公開されているので、あまり不自由していません。ですが、国語辞典がバンドルされていないことだけは、例外です。ほかのソフトと違って、WindowsCE用の辞典ソフトは市販されていないからです。

『Jornadaスーパーブック』によると、PDD図書館に、フリー(正確には、PDD;Public Domain Data です。)の国語辞典ファイルが公開されているということなので、これをダウンロードして、CE用の辞書検索ソフトで使えるように変換します。

★準備編

  1. 辞書検索ソフト:PDIC形式の辞書ファイルを検索できる「FET Dictionary Serch」というソフトをダウンロード。ジョルナダにインストールします。
  2. 国語辞典ファイルのダウンロードPDD図書館から、国語辞書「あ」から「わ」までダウンロードします。
  3. JPerlの設定:辞書ファイルの変換には、JPerlを使用します。Perlはもともと、テキストファイルの加工や整形処理などを行うことを主目的として開発された言語です。JPerlをインストールすることで、WindowsでPerlスクリプトが実行できるようになります。詳細は、JPerl for MS-Windowsをご覧ください。
  4. 辞書作成用Perlスクリプトのダウンロードkokugoce.plをダウンロードします。

★ちょっと修正

PDIC形式の辞書は、1行目が単語、2行目が意味の二行一組構成になっています。


はんどへるどぴーしー
【ハンドヘルドPC】○携帯情報端末の内、OSにWindowsCEを採用しているもの。



単語はひらがなで記してあります。カタカナだとダメなのかどーかは、試していないのでわかりません。ですが、単語に「ヴ」が入っていると、「FET Dictionary Serch」で検索したときにハンドヘルドPCがハングアップしてしまいます。だから、「しヴァ」→「しば」のように、先に「ヴ行」を「ば行」に変換しておく必要があります。ちなみに「ヴ」にひらがなはありません。

PDIC形式の仕様では、「意味」は複数行にまたがることができません。上の例では、わざと「意味」が2行に渡るように見せかけていますが、間に改行コードは入っていません。

だから、

けいせんひょう
【罫線表】
 ┌────┬──┬──┬──┬──┬──┬──┬──┐
 ├────┼──┼──┼──┼──┼──┼──┼──┤
 └────┴──┴──┴──┴──┴──┴──┴──┘

罫線表のように、必ず改行コードが入ってしまうものも、PDICでは使えません。残しておくとやはり検索の時にハングアップします。2000年3月現在の辞書データでは、「あんぺあぶれーかー」「えと」「かいへい」「きゅうせい」「ごぎょうせつ」は罫線表を使っているので、罫線部分を先に削除しておきましょう。
※ 2000年9月公開版では、さらに罫線を使った単語が増えました。「じゅうにじんしょう」「たいふう」「にじゅうしばんかしんふう」「はちぎゃく」「れきほう」です。

PDD図書館の国語辞典ファイルは五十音順に並んでいますが、


あかい
あがし
あかんこ
あきた

の順で並んでおり、清音と濁音の区別がありません。
ところが「FET Dictionary Serch」は、どうやら清音と濁音を、区別しているようです。
「あかんこ」を検索しようとしても、「あか・・・」までは検索できるけど、間に「あが・・・」が入っているので、そこで検索が止まってしまいます。
そこで、


あかい
あかんこ
あがし
あきた

のように、濁音部分を後ろに持ってきてあげると、うまく検索できました。

つまり、ダウンロードした国語辞典をフルに使おうと思えば、辞典ファイルを、清音濁音の区別を付けて、ソート(並べ替え)し直さないといけないわけです。

★ソートするための細工

いくらなんでも1万件以上のデータを手動でソートすることはできません。そこで、並び替えソフト(ソータ)を使ってパソコンに並び替えさせることにします。
ソータは、デリミタを指定できる「GOSORT」を使います。
デリミタとは、要素と要素の間を識別するために挿入される区切り記号のことです。

kokugoce.plで生成される辞書ファイルは
せついっさいうぶ
【説一切有部】○[仏]上座部の分派。単に「有部」とも呼ぶ。
せっかい《せきくわい》
【石灰】○(1)生石灰・消石灰の総称。
せっかく《せきくわく》
【石槨】○古墳などの、棺や副葬品を納める石造りの室。
のようになっているので、ソータで自動的にソートしようとしても、どこで要素間の区別を付けるのか、指定できません。

そこで、辞書ファイル内で絶対に使われていない文字「■」をデリミタとし、要素の先頭につけてみます。

まず、kokugoce.plを次のように修正します。
54		print $str,"\n","\n";
55	}
56	if( $kmidashi == 1 ){
57		for( $j= 0 ; $j < $i ; $j++ ){
58			print $midashi2[$j], "\n","\n";
59			if( $swflag == 1 ){
60				print "⇒", $midashi;
61				#print "→", $midashi;
62			}else{
63				print $str,"\n","\n";
数字は行番号
"\n"は、改行コードです。,"\n"を追加することで、要素間が改行で区切られるわけです。ちなみに私はPerlをまったく知らずに見よう見まねでやっているので、余分な記述があるかもしれません。

これで、kokugoce.plを辞書ファイルと同じフォルダに置いて、DOS窓から
「jperl kokugoce.pl > kokugo.txt」
を実行すると、辞書ファイルkokugo.txtが作成されます。

せついっさいうぶ
【説一切有部】○[仏]上座部の分派。単に「有部」とも呼ぶ。

せっかい《せきくわい》
【石灰】○(1)生石灰・消石灰の総称。

せっかく《せきくわく》
【石槨】○古墳などの、棺や副葬品を納める石造りの室。
いま生成したばかりのkokugo.txtを、エディタで開きます。このように、要素間が区切られています。

エディタの置換機能を使って、「\n\n」を、「\n■」に変換します。

このようになったはずです。これだと、■から■までが1要素だと明確になっているので、ソータで自動的にソートできるようになります。
■せついっさいうぶ
【説一切有部】○[仏]上座部の分派。単に「有部」とも呼ぶ。
■せっかい《せきくわい》
【石灰】○(1)生石灰・消石灰の総称。
■せっかく《せきくわく》
【石槨】○古墳などの、棺や副葬品を納める石造りの室。

注意点としては、先頭の単語には■がつかないので手動でつけてあげます。逆に、文末にひとつだけ■がつくので、これを削除します。
確認したら、kokugo.txtを閉じます。
これで、gosort.exeを辞書ファイルと同じフォルダに置いて、DOS窓から
「gosort kokugo.txt kokugoce.txt /J■」
を実行すると、ソート済み辞書ファイルkokugoce.txtが作成されます。
※ GOSORTはシェアウェアなので、試用のときは、お試し登録が必要です。



最後にもう一度kokugoce.txtをエディタで開き、置換で■を削除します。


★使ってみよう

作成したkokugoce.txtを、ハンドヘルドPCにコピーします。コピーが終われば、「FET Dictionary Serch」のメニューから[Dictionary]-[Option]を選び、辞書を設定します。



検索結果

[戻る]




[PR]話題の新車を無料プレゼント中:必ず当る抽選会!今すぐ応募で簡単GET