Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

事前学習済みモデル

Litsea は models/ ディレクトリに複数の事前学習済みモデルを同梱しています。

モデルカタログ

japanese.model

プロパティ
言語日本語
学習コーパスUD Japanese-GSD
正解率94.15%
適合率95.57%
再現率94.36%
ファイルサイズ約 2.9 KB

korean.model

プロパティ
言語韓国語
学習コーパスUD Korean-GSD
正解率85.08%
ファイルサイズ約 1.8 KB

chinese.model

プロパティ
言語中国語(簡体字・繁体字)
学習コーパスUD Chinese-GSD
正解率80.72%
ファイルサイズ約 1.3 KB

RWCP.model

プロパティ
言語日本語
ソースオリジナルの TinySegmenter から抽出
ライセンスBSD 3-Clause (Taku Kudo)
ファイルサイズ約 22 KB

JEITA_Genpaku_ChaSen_IPAdic.model

プロパティ
言語日本語
学習コーパスJEITA プロジェクト 杉田玄白コーパス
トークナイザChaSen with IPAdic
ファイルサイズ約 17 KB

品詞推定モデル

japanese_pos.model

プロパティ
言語日本語
アルゴリズムAveraged Perceptron
学習コーパスUD Japanese-GSD(7,050 文)
エポック数10
正解率98.34%
マクロ適合率97.87%
マクロ再現率91.67%
ファイルサイズ約 11 MB

chinese_pos.model

プロパティ
言語中国語(簡体字・繁体字)
アルゴリズムAveraged Perceptron
学習コーパスUD Chinese-GSD(3,997 文)
エポック数10
正解率97.09%
マクロ適合率97.31%
マクロ再現率96.23%
ファイルサイズ約 19 MB

korean_pos.model

プロパティ
言語韓国語
アルゴリズムAveraged Perceptron
学習コーパスUD Korean-GSD(4,400 文)
エポック数10
正解率95.33%
マクロ適合率95.30%
マクロ再現率87.69%
ファイルサイズ約 8.4 MB

使用方法

echo "これはテストです。" | litsea segment --pos -l japanese models/japanese_pos.model

出力:

これ/PRON は/ADP テスト/NOUN です/AUX 。/PUNCT

モデルの選択

  • 日本語には、最高精度を求める場合は japanese.model を、オリジナルの TinySegmenter との互換性を重視する場合は RWCP.model を使用
  • 中国語には chinese.model を使用
  • 韓国語には korean.model を使用
  • 品詞推定には、対応する *_pos.modeljapanese_pos.modelchinese_pos.modelkorean_pos.model)を使用して単語分割と品詞推定を同時実行
  • ドメイン固有の用途には、独自モデルの学習または既存モデルの再学習を検討

サンプルデータ

resources/ ディレクトリには以下も含まれています:

  • bocchan.txt – 夏目漱石の小説「坊っちゃん」のサンプル日本語コーパス(約 307 KB)。ベンチマークに使用されます。