中国語
Litseaは簡体字・繁体字の両方を対象とした中国語の単語分割をサポートしています。
文字タイプ
| Code | Name | Pattern | Examples |
|---|---|---|---|
| F | 機能語 | 高頻度の文法語 | 的, 了, 在, 是, 和 |
| C | CJK統合漢字 | U+4E00–U+9FFF | 中, 国, 人 |
| X | CJK拡張A | U+3400–U+4DBF | 稀少文字 |
| R | CJK部首 | U+2E80–U+2FDF | 康熙部首 |
| P | 句読点 | CJK記号 + 全角 | 。, ,, 《, 》 |
| B | 注音符号 | U+3100–U+312F, U+31A0–U+31BF | 注音記号 |
| A | ASCII/ラテン文字 | [a-zA-Za-zA-Z] | A, z |
| N | 数字 | [0-90-9] | 0, 5, 5 |
| O | その他 | フォールバック | @, #, $ |
中国語の機能語(虚词)
「F」タイプは、分割において重要な高頻度の文法語を捉えます。
| Category | Characters |
|---|---|
| 構造助詞 | 的, 地, 得 |
| アスペクト・語気助詞 | 了, 着, 过, 吗, 呢, 吧, 啊, 嘛 |
| 接続詞 | 和, 与, 或, 但, 而, 且, 及 |
| 前置詞 | 在, 从, 到, 把, 被, 对, 向, 给 |
| 文法動詞・副詞 | 是, 有, 不, 也, 都, 就, 要, 会, 能, 可 |
これらの文字は圧倒的に文法的な役割で出現し、内容語とは異なる形で語境界を示します。
学習済みモデル
chinese.model
- 学習コーパス: UD Chinese-GSD
- 精度(Accuracy): 80.72%
使用例
echo "中文分词测试。" | litsea segment -l chinese ./models/chinese.model