Litsea は models/ ディレクトリに複数の事前学習済みモデルを同梱しています。
| プロパティ | 値 |
| 言語 | 日本語 |
| 学習コーパス | UD Japanese-GSD |
| 正解率 | 94.15% |
| 適合率 | 95.57% |
| 再現率 | 94.36% |
| ファイルサイズ | 約 2.9 KB |
| プロパティ | 値 |
| 言語 | 韓国語 |
| 学習コーパス | UD Korean-GSD |
| 正解率 | 85.08% |
| ファイルサイズ | 約 1.8 KB |
| プロパティ | 値 |
| 言語 | 中国語(簡体字・繁体字) |
| 学習コーパス | UD Chinese-GSD |
| 正解率 | 80.72% |
| ファイルサイズ | 約 1.3 KB |
| プロパティ | 値 |
| 言語 | 日本語 |
| ソース | オリジナルの TinySegmenter から抽出 |
| ライセンス | BSD 3-Clause (Taku Kudo) |
| ファイルサイズ | 約 22 KB |
| プロパティ | 値 |
| 言語 | 日本語 |
| 学習コーパス | JEITA プロジェクト 杉田玄白コーパス |
| トークナイザ | ChaSen with IPAdic |
| ファイルサイズ | 約 17 KB |
| プロパティ | 値 |
| 言語 | 日本語 |
| アルゴリズム | Averaged Perceptron |
| 学習コーパス | UD Japanese-GSD(7,050 文) |
| エポック数 | 10 |
| 正解率 | 98.34% |
| マクロ適合率 | 97.87% |
| マクロ再現率 | 91.67% |
| ファイルサイズ | 約 11 MB |
| プロパティ | 値 |
| 言語 | 中国語(簡体字・繁体字) |
| アルゴリズム | Averaged Perceptron |
| 学習コーパス | UD Chinese-GSD(3,997 文) |
| エポック数 | 10 |
| 正解率 | 97.09% |
| マクロ適合率 | 97.31% |
| マクロ再現率 | 96.23% |
| ファイルサイズ | 約 19 MB |
| プロパティ | 値 |
| 言語 | 韓国語 |
| アルゴリズム | Averaged Perceptron |
| 学習コーパス | UD Korean-GSD(4,400 文) |
| エポック数 | 10 |
| 正解率 | 95.33% |
| マクロ適合率 | 95.30% |
| マクロ再現率 | 87.69% |
| ファイルサイズ | 約 8.4 MB |
echo "これはテストです。" | litsea segment --pos -l japanese models/japanese_pos.model
出力:
これ/PRON は/ADP テスト/NOUN です/AUX 。/PUNCT
- 日本語には、最高精度を求める場合は
japanese.model を、オリジナルの TinySegmenter との互換性を重視する場合は RWCP.model を使用
- 中国語には
chinese.model を使用
- 韓国語には
korean.model を使用
- 品詞推定には、対応する
*_pos.model(japanese_pos.model、chinese_pos.model、korean_pos.model)を使用して単語分割と品詞推定を同時実行
- ドメイン固有の用途には、独自モデルの学習または既存モデルの再学習を検討
resources/ ディレクトリには以下も含まれています:
- bocchan.txt – 夏目漱石の小説「坊っちゃん」のサンプル日本語コーパス(約 307 KB)。ベンチマークに使用されます。