GoTagger


No English translation available. Sorry.

 

GoTagger は英文テキストに自動で品詞タグを付与するプログラムです

 

Version 0.7 ・・・ download (400KB)

 

動作環境

OS:Microsoft Windows 2000/XP

解像度:800 * 600以上

※これ以降の動作保証はしていませんが、単純なプログラムなので動作すると思います。ただし、本ツールを使用して起こったいかなる損害も作者は補償いたしませんので、すべて自己責任でお願いします。

 

インストール

GoTaggerをダウンロードし、解凍してください。次に、「Brill Tagger」をダウンロードしてください。解凍されたフォルダ内に、「Bin_and_Data」というフォルダがあるので、その中の全ファイル(10個)をGoTaggerの「G_data」というフォルダ内にコピーしてください(下図参照)。

bri1.jpg (15KB) bri1.jpg (15KB) bri1.jpg (5KB)

 

アンインストール

GoTagger フォルダを削除してください。レジストリはいじってません。

 

ファイル選択画面

g-gamen1.jpg (81KB)

 

(1)ディレクトリ選択, (2)ファイル選択

(1)で選択しているディレクトリ内のファイルが(2)に表示される。上部のボックス値を変更することで全ファイルの表示も可能。 (2)でファイル名をダブルクリックすると(5)にファイルが追加される。シングルクリックで(7)にファイル内容が表示される。

 

(3)処理するファイルの決定と削除

Add ・・・(2)で選択しているファイルを(5)へ追加。複数ファイルの選択が可能。

Add all・・・ (2)に表示されているすべてのファイルを(5)へ追加。

Remove・・・ (5)で選択しているファイルを削除。実際のファイルを削除するのではなく、選択リストから消すだけ。

Remove all・・・ (5)内にある全ファイルを削除。実際のファイルを削除するのではなく、選択リストから消すだけ。

 

(4)START, (5)Selected Files

(4)のボタンで(5)内のファイルに対してタグ付け処理を開始。なお、出力ファイル名は自動的に付与され、元のファイル名_(アンダースコア)tag.txtとなる。たとえば、test.txtであれば、test_tag.txtとなる。

 

(6)Settings (品詞タグ付与の設定)

Lexicon・・・利用するLexiconファイルを選択。

Contextual Rule・・・利用するContextualRuleファイルを選択。

Separator・・・出力形式を the_DT か the/DT にするか選択。

Sentence Splitter・・・1行1文形式へ変換。

Tokenizer・・・Tokenization を実行。

Lemmatizer・・・Lemmatizationを実行。染谷泰正氏が作成された "e_lemma.txt" (Version 1) を "G_data" に入れておく。

Destination of outputs・・・「..\(original file)\Tagged\」を選択していると、タグ付を行うテキストがあるフォルダの下に「Tagged」という名前のフォルダが作成され、そこに出力結果が保存される。「Specify」を選択すると、「where」というボタンが利用可能になり、保存先のフォルダを指定。

 

(7)Preview

ファイルのプレビューを表示。

 

(8)Processing Time

タグ付与に要した時間を表示。

 

(9)進行状況

処理の進行状況をバーで表示。

 

結果画面

g-gamen2.jpg (106 KB)

 

(10)出力ファイルの一覧

出力ファイルを表示(絶対パス)。

 

(11)Preview

(10)内にあるファイルをプレビュー表示。

 

(12)Tag set

GoTaggerで使用されているタグを表示。「Brill Tagger」と共通。

 

(13)画面切り替えタブ

「Select Files(ファイル選択)」画面と「Result(結果)」画面の切り替え。

 

更新履歴

公開再開 (2021/7)

更新停止中

Version 0.7 (2006/4) Lemmatizer の機能を追加

Version 0.6 (2006/4) Sentence Splitter の機能を追加、BREGEXP.DLL (Tatsuo Baba氏作)を同梱

Version 0.5 (2006/2) Tokenization の機能を分離

Version 0.451 (2006/2) tokenization 機能のバグを修正

Version 0.45 (2005/12) separator 記号を選択可能に

Version 0.44 (2005/7) FLOWN、FLOBへのタグ付けの際に停止する不具合を修正

Version 0.43 (2005/6) ' (apostrophe)が含まれている文の単語の切り分けの不具合を修正

Version 0.42 (2005/6) メモリ消費量を軽量化、単語の切り分けの不具合を修正

Version 0.41 (2005/5) iniファイルを採用

Version 0.4 (2005/5) 「Brill Tagger」のルールファイルを分離

Version 0.3 (2005/3) Lexiconファイルの選択と修正を可能に、画面デザインを変更

Version 0.2 (2005/1) ContextualRuleファイルの選択と修正を可能に、タグ付けの不具合を修正

Version 0.1 (2005/01) 公開開始

Copyright (C) GOTO Kazuaki, 2004 - 2010 All rights reserved