インストール
動作環境
DODDLE-OWLを実行するためには,以下の環境が必要である.
OS: Javaが動作可能なOS
メモリ: 1GB以上
ハードディスクの空き容量: 1GB以上
ディスプレイ: 解像度1024×768 以上のカラーディスプレイ
利用しているライブラリ
DODDLE-OWLは以下のライブラリを利用している.以下のライブラリについては,DODDLE-OWLに含まれているため別途ダウンロードする必要はない.
-
Java Swingデスクトップアプリケーション向けのモダンなオープンソースのクロスプラットフォーム用ルックアンドフィール
ライセンス: Apache License 2.0
-
RDF, RDFS, OWLを扱うためのライブラリ
ライセンス: Apache License 2.0
-
Javaで実装された形態素解析器
ライセンス: Apache License 2.0
-
Javaで実装されたWordNetを操作するためのライブラリ
ライセンス: BSDライセンス
-
Javaで実装されたコマンドラインオプションを解析するためのライブラリ
ライセンス: Apache License 2.0
-
Microsoft Officeのドキュメントを読み込むためのライブラリ
ライセンス: Apache License 2.0
-
Javaで実装されたPDFファイルからテキストを抽出するためのライブラリ.
ライセンス: Apache License 2.0
-
ライセンス: The MIT License
-
SQLiteのJDBCドライバ
ライセンス: Apache License 2.0
-
英語用のパーサー
Material Design icons by Google
アイコン
ライセンス: Apache License 2.0.
利用しているソフトウェア
DODDLE-OWLは,以下のソフトウェアを利用している.以下の注意点に記述されていることを行いたい場合には,別途以下のソフトウェアのインストールが必要である.
JRE 25以上(組み込まれている)
形態素解析エンジン MeCab (オプション)
日本語係り受け解析器 CaboCha (オプション)
TermExtract (オプション)
警告
Beta6からは,ChaSen, MeCab, CaboChaは,UTF-8のみに対応している.
ChaSenでUTF-8を利用する方法は,ChaSen’s Wiki FAQを参照すること.
MeCabおよびCaboChaは,2008年11月現在の最新版は,UTF-8に対応している.(Windows版ではインストール時に辞書の文字コードとして「UTF-8」を選択します.Unix,Macでは,configureのオプションとして「–with-charset=utf8」を指定する.)
日本語文書から複合語を抽出したい場合には,PerlとChaSen(またはMeCab)とCaboChaが必要である.
英語文書から複合語を抽出したい場合には,Perlが必要である.
EDR電子化辞書から領域オントロジーを構築したい場合には,EDR電子化辞書の概念体系辞書(必須),日本語単語辞書(必須),英語単語辞書(オプション),概念記述辞書(オプション)が必要である.
参照オントロジー
英語汎用オントロジー
日本語汎用オントロジー
インストールと起動方法
Windows 場合
ダウンロードページ から doddle-owl-26.5.1.msi ファイルを任意のフォルダにダウンロードして実行する.
macOS の場合
ダウンロードページ から doddle-owl-26.5.1.dmg ファイルを実行し,「DODDLE-OWL.app」を任意のフォルダにコピーして実行する.
アンインストール方法
Windows 場合
「設定」->「アプリ」->「インストール済みアプリ」から「DODDLE-OWL」を選択してアンインストールする.
macOS の場合
「DODDLE-OWL.app」を削除する.
設定
各種設定は,オプションダイアログからGUIで行う.
オプションダイアログ: 基本タブ
- 言語
enまたはjaを指定することで,英語または日本語メニューを表示することができる.
- 基本接頭辞
ユーザが定義した概念の接頭辞を設定する.
- 基本URI
オントロジー保存時のベースURIを設定する.
オプションダイアログ: フォルダタブ
- プロジェクトフォルダ
プロジェクトファイルを保存するフォルダを設定する.プロジェクトを保存・復元する際に このフォルダが基点となる.
- ストップワードリスト
用語抽出時に無視する単語リストが保存されたファイルを設定する.
- JWOフォルダ
日本語WikipediaオントロジーをDODDLE-OWL用に変換したファイルを置いたフォルダを設定する.
- EDR辞書フォルダ
EDR一般辞書のテキストデータをDODDLE-OWL用に変換したファイルを置いたフォルダを設定する.
- EDRT辞書フォルダ
EDR専門辞書のテキストデータをDODDLE-OWL用に変換したファイルを置いたフォルダを設定する.
- 日本語形態素解析器
複合語抽出モジュール言選を利用する場合に必要である.(chasen21は不可)
- 日本語係り受け解析器
複合語抽出する場合に必要である.
- perl.exe
言選(TermExtract)を利用する場合に必要である.
- 上位概念リスト
上位概念のリストを設定する.ある単語がEDR上の指定した概念の下位にあるかどうかを提示するために利用する.
- 複合語抽出スクリプトフォルダ
複合語抽出スクリプトを置くフォルダを設定する.
EDR電子化辞書の利用方法
DODDLE-OWLでEDR電子化辞書を汎用オントロジーとして参照するためには,EDR電子化辞書のテキストデータをDODDLE-OWLで参照する形式に変換する必要がある. 以下では,その変換手順について説明する.
CPU: Intel Core i7 4GHz,メモリ: 32GBのiMacを用いてEDR一般辞書とEDR専門辞書をDODDLE-OWLで参照する形式に変換するためにかかる時間は以下の通りである.
EDR一般辞書: 約3分
EDR専門辞書: 約40秒
必要条件
1GB以上のメモリ(推奨 2GB) (JVMオプション -Xmx1024mが指定可能な程度)
EDR一般辞書またはEDR専門辞書のテキストデータ
EDR一般辞書
CPC.DIC, CPH.DIC, CPT.DIC, EWD.DIC, JWD.DICを任意のフォルダにコピーする.(例:C:/EDR_Text).
DODDLE-OWLのツールメニューの「DODDLE Dic Converter」サブメニューを選択すると 図 1 のダイアログが表示される.
「Dictionary Type」として「EDR」を,「Convertion Type」として「Text」を選択する.
「Browse」ボタンを押して,Input Dictionary PathにEDR一般辞書のテキストデータが保存されたフォルダを設定する.Output Dictionary Pathに,DODDLE-OWLが参照する変換後のEDR一般辞書データを保存するフォルダを設定する.
「Convert」ボタンを押すと,concept.data, relation.data, tree.data, word.data, concept.index, relation.index, tree.index, word.indexファイルがオプションダイアログで設定したEDR辞書フォルダに保存される.
DODDLE-OWLのオプションダイアログのフォルダタブでEDR辞書フォルダのパスを設定する.
EDR専門辞書
TCPC.DIC, TCPH.DIC, TEWD.DIC, TJWD.DICを任意のフォルダにコピーする.(例: C:/EDRT_Text/).
DODDLE-OWLのツールメニューの「DODDLE Dic Converter」サブメニューを選択すると 図 1 のダイアログが表示される.
「Dictionary Type」として「EDRT」を,「Convertion Type」として「Text」を選択する.
「Browse」ボタンを押して,Input Dictionary PathにEDR専門辞書のテキストデータが保存されたフォルダを設定する.Output Dictionary PathにDODDLE-OWLが参照する変換後のEDR専門辞書のデータを保存するフォルダを設定する.
「Convert」ボタンを押すと,concept.data, tree.data, word.data, concept.index, tree.index, word.indexファイルがオプションダイアログで設定したEDRT辞書フォルダに保存される.
DODDLE-OWLのオプションダイアログのフォルダタブでEDRT辞書フォルダのパスを設定する.
図 1 DODDLE_Dic_Converter