MgrepAppで中国語の用例を検索
現在Web上には多くの中国語文献のデータが公開されています。それらをダウンロードした後、必要な用例を検索するためには、飯森秀昭氏のMgrepApp(フ
リーウェア)が便利です。
MgrepAppは、日本語や英語以外に、中国語簡体字(簡体字中国語)や中国語繁体字(繁体字中国語)のテキストファイルを検索できます。
残念なことに最近アップデートが止まっているため、起動すると「期限切れ」を知らせるメッセージが出ますが、OKをクリックすればそのまま使えま
す。
MgrepAppの主な特徴
- 日本語や英語はじめとするRoman諸言語だけではなく、中国語簡体字(GB)・中国語繁体字(Big5)・Unicodeのテキストファイ
ルを検索できる。
- 非常に高速!
- 正規表現による検索ができる。
- 複数のファイルを一気に検索できる。
- Nisus Writerなどの対応ソフトの書類であれば、検索結果をダブルクリックして当該の箇所を開くことができる。
検索の手順
- 検索したいテキストファイルを用意し、フォルダに入れておく。
- MgrepAppを起動する。
- Languageでテキストファイルの言語を選ぶ。
- Chooseボタンを押してテキストファイルの入ったフォルダを選ぶ。
- 検索語を入力する。
- Searchボタンをクリックする。
検索結果の保存
- ファイルメニューからsaveを選ぶと検索結果を保存できます。
- ファイルメニューからsave as
textを選ぶと検索結果をテキストファイルとして保存できます。テキストファイルですからMgrepAppがインストールされていないパソコンでも開く
ことができます。
検索のTips
エイリアスを使って複数の検索セットを作る。
MgrepAppはエイリアス(Windowsでいうところのショートカット)を追うことができます。フォルダに検索する文書のエイリアスを放り込
んでおくと、本体の文書ファイルの場所を動かさずに複数の検索セットを作ることができます。例えば、ある作家のファイルのエイリアスだけを入れたフォルダ
を作る、ある年代の文章のファイルのエイリアスだけを入れたフォルダを作るなど、本体のファイルの場所を動かすことなく、さまざまな条件で検索するための
セットを作ることができます。
- 目的のファイルのエイリアスを作る。ファイルをクリックして選択し、Mac OS
9であればコマンドキー(林檎マークのキー)+Mを、Mac OS Xであればコマンドキー+Lを押すと、エイリアスができる。
エイリアスは影武者のようなものなので、一つのファイルに対していくつでも作ることが可能。またエイリアスを削除しても本体ファイルは削除されない。
- 適当な場所に新しいフォルダを作る。そのフォルダに自分が検索したい条件を備えたファイルのエイリアスを入れる。
- MgrepAppの検索画面 の「Follow alias」にチェックをつける。
- Chooseボタンを押してエイリアスの入ったフォルダを選ぶ。
- 検索語を入力して検索する。
各行ごとに強制改行の入ったファイルを検索する。
テキストの中には、段落ごとに改行するのではなく、1行ごとに一定の文字数で強制改行しているものがあります。こういうファイルを検索するときには
注意が必要です。
たとえば「学習」という単語を検索するとします。検索語として「学習」だけを入力すると、「学」と「習」の間に強制改行が入っている例、言い換えれ
ば「学」が行末に来て「習」が次ぎの行頭に来ている場合は検索されてきません。その場合は以下のようにします。
- MgrepAppの検索語欄に学習と入力する。
- Regexメニューから「or」を選ぶ。
- 検索語欄に学と入力する。
- Regexメニューから「Carriage Return」を選ぶ。
- 検索語欄に習と入力する。
これで「学習」または「学 改行 習」を探すことができます。
上記の例は改行記号がCR(Carriage
Return)の場合ですが、Windowsのテキストファイルの改行記号はCR+LFです。その場合は(4)のところを以下のようにしてください。
(4) Regexメニューから「Carriage
Return」を選び、さらにRegexメニューから「Line
Feed」を選ぶ。
#Macのテキストファイルの改行記号はCR(Carriage Return)。
#Windowsのテキストファイルの改行記号はCR(Carriage Return)LF(Line
Feed)。
#UNIXのテキストファイルの改行記号はLF(Line Feed)です。
#上記のような作業が面倒であれば、検索する前にあらかじめワープロやエディタの検索置換機能を使って改行記号を削除しておくという方法がありま
す。NisusWriterの例はこちらへ。
検索語を含み、且つ句読点に挟まれた部分を検索する。
たとえば「学習」という語を以下に示す検索式で検索すると、句読点で囲まれた以下のような部分がピックアップされてきます。
[,。?!][^,。?!]*学習[^,。?!]*[,。?!]
,学習外国的技術,(句読点のすぐ後に検索語がある)
。我在北大学習。(句読点のすぐ前に検索語がある)
,把精力集中到学習中来。(中間に検索語がある)
もちろん?で終わる疑問文や、!で終わる感嘆文も検索されてきます。
検索式の入力の仕方
- 「Regex」メニューから「char in range」を選ぶと[0-9]が入力されるので、0-9を削除して,。?!を入力する。
[,。?!]は,。?!のうちいずれかの文字を指す。
- 「Regex」メニューから「char not in
range」を選ぶと[^0-9]が入力されるので、0-9を削除して,。?!を入力する。^を削除しないように注意。
[^,。?!]は,。?!以外の文字を指す。
- 「Regex」メニューから「0 or more times」を選ぶと*が入力される。
[^,。?!]*は,。?!以外の文字が0回または1回以上現れることを示す。
- 検索語を入力する。
- (2)(3)を繰り返し、[^,。?!]*と入力する。
- (1)のようにして、[,。?!]と入力する。
できあがった検索式は以下の通り。
[,。?!][^,。?!]*検索語[^,。?!]*[,。?!]
この検索式の意味は、
,。?!の後に
,。?!以外の文字が0回または1回以上続き、
その後ろに目指す検索語あり、
さらにその後ろに,。?!以外の文字が0回または1回以上続き、
,。?!で終わる、そういう部分を探すという意味になります。
注意点:
- 句読点には全角と半角があります。,(全角のコンマ)も,(半角のコンマ)も人間にとっては同じ「逗号」ですが、コンピュータにとっては全角
と半角では文字コードが異なるため、別の文字として認識します。
全角と半角どちらを使っているか、文章によってまちまちです。全角を使うのが一般的だと思いますが、どちらを使っているかわからないときは検索式の中に両
方とも入れておきます。
[,,。??!!][^,,。??!!]*検索語[^,,。??!!]*[,,。??!!]
- 中国語を検索するのであれば、句読点も中国語で入力してください。このページは日本語で書かれているため、このページの検索式をコピーしても
中国語の検索には使えません。
2003年8月27日