第三者のライブラリを使う
戻る
|
学科
概要
Javaが独自に提供する
APIライブラリ
だけでなく, 世の中には便利がライブラリが沢山あります. (Javaに限ったことじゃないですが・・・)
今回は以下の3つライブラリを例題に実際にそれらを利用する方法を解説します.
英語の構文解析ライブラリ The Stanford Parser: A statistical parser
[HTML]
最新版は 2.x だが,この授業では, 1.6.2 を使う.
PDF文書操作ライブラリ PDFBox
[HTML]
機械学習器ライブラリ WEKA
[HTML]
基本的な戦略
ネットとかで情報を集める.
配布先のサイトからダウンロード.
サンプルがあれば目を通す.
APIが見れれば目を通す.
配布されているソース内にサンプルが入っている場合もある.
試行錯誤で組んでみる.
Eclipseでの設定法 (Stanford Parserを例に)
ライブラリの準備
公式ページからダウンロード.
アーカイブはtarとかtgzなので(stanford-parser-2010-02-26.tgz), cygwinとかlaplusとかで展開.
展開したフォルダに,
stanford-parser.jar
があることを確認.
stanford-parser.jar
をJavaのライブラリファイル(jarファイル)を 適当なフォルダ(ここの例では \C:\Program Files\Java\extJAR\ ) にコピーしてもよいし, 上記の展開した場所を覚えておいても良い.
プログラミング
プロジェクトを選びPropertiesを表示, Libraries のタブを開く
[JPG]
.
追加したいjarをExternal JAR として選択
[JPG]
.
追加されるとこうなる
[JPG]
.
ちなみに,ライブラリをプロジェクトに登録しないと, Eclipseが「そんなクラス知らん」と怒ります
[JPG]
API
の説明を見ながらプログラムを書く.
stanford parserの場合,
辞書ファイル
が必要なので, それも Project に Import で追加
[JPG]
,
[JPG]
.
実行
mainメソッドのあるJavaファイルを選択して, Application として実行すれば動きます
[JPG]
.
プロジェクトのダウンロード
[ZIP]
(ライブラリバージョン stanford-parser-2010-02-26)
PDFBox
PDFファイルからテキストを抜き取るサンプル: ダウンロード
[ZIP]
(ライブラリバージョン commons-logging-1.1.1.jar fontbox-1.1.0.jar pdfbox-1.1.0.jar)
以下のライブラリを利用
commons-logging-1.1.1.jar fontbox-1.1.0.jar pdfbox-1.1.0.jar
ライブラリは \Program Files\Java\extJAR\ においてあることを 想定しているが,各自で置き場所は自由にしてください.
日本語はテストしてません・・・
一応,
security policy を適用
した実行スクリプトもアーカイブには 同梱してます.
画面例
[JPG]
WEKA
サンプル
[ZIP]
(ライブラリバージョン weka-3-7-1)
性別,年齢,収入の大中小から, その人がどんなOSのPCを使っているか予測するプログラム.
具体的には,ZIP内のlearn.arffという学習データをもとに, test.arffというファイルにある三人の人それぞれが, どのOSを使っているかを予測する.
学習データからは,
図
にあるような決定木が(J48というアルゴリズムに基づき)自動的に作られ, その木に基づいて予測が自動的に行なわれる.
機械学習とは何ぞや,とか, J48というアルゴリズムは何なのか, 全然しらなくても, 「実績データから予測を行う」 ことがまかりなりにもできる.
サンプルを動かすには上記他のAPIと同様に,
weka.jar
を自身で指定した場所に配置する必要がある.
尚,WEKAは Java から呼び出すより, 単独ツールとして利用するのが一般的.
API
[HTML]
他参考ページの例題
[HTML]
(ライブラリバージョン ?)
[ZIP]
(ライブラリバージョン weka-3-7-1)
リンク
学内限定
[HTML]
Apache Commons
[HTML]
Jung
[HTML]
Sen 日本語形態素解析器
[HTML]
日本語ワードネット
[HTML]
本ページトップ
|
戻る
更新