Skip to main content.

Tuesday, June 05, 2007

Toolbox でできること

SILが開発したToolbox というソフトウェアがある。これは言語学者が収集したテキスト資料を、別に入力した語彙データベースをもとに形態素分析するものである。テキストの中で、すでに語彙リストに登録されている形態素は自動的に区切られてグロスがつけられるので、テキスト分析の効率が格段にあがる。また新たな語彙の登録も簡単な操作でできる。このほかにもコンコーダンスや辞書の作成などさまざまな機能がある。

Toolboxを使うために

Toolboxは便利な反面、期待どおりの結果が得られるようになるまでの設定が初心者にはわかりにくい。そこでFieldling では2度にわたりToolbox勉強会を行なった。勉強会で参加者が行なった主な作業は下記の4点である。

  • テキストの形態素が適切に区切られるように、各言語の特徴にあわせたデータベースの構成を考える。
  • これまでの調査で収集したテキストおよび語彙のデータベース資料をToolboxで使えるような形式に変換する。
  • それぞれのデータベースをひとつにまとめてToolboxで処理する。
  • 処理が思いどおりにいかない場合の設定の修正。

成果

講習会用に準備したサンプルデータをもとに、各自が基本的な操作を習得した。今後時間をかけて作業を進めれば、収集したテキスト資料をすべて分析できると期待できる。

(WS責任者:永山ゆかり)

Comments

No comments yet

Add Comment

このアイテムは閉鎖されました。このアイテムへのコメントの追加、投票はできません。

Global Navigation

AACoRE > Projects > Fieldling
ILCAA