Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

中国語

Litseaは簡体字・繁体字の両方を対象とした中国語の単語分割をサポートしています。

文字タイプ

CodeNamePatternExamples
F機能語高頻度の文法語的, 了, 在, 是, 和
CCJK統合漢字U+4E00–U+9FFF中, 国, 人
XCJK拡張AU+3400–U+4DBF稀少文字
RCJK部首U+2E80–U+2FDF康熙部首
P句読点CJK記号 + 全角。, ,, 《, 》
B注音符号U+3100–U+312F, U+31A0–U+31BF注音記号
AASCII/ラテン文字[a-zA-Za-zA-Z]A, z
N数字[0-90-9]0, 5, 5
Oその他フォールバック@, #, $

中国語の機能語(虚词)

「F」タイプは、分割において重要な高頻度の文法語を捉えます。

CategoryCharacters
構造助詞的, 地, 得
アスペクト・語気助詞了, 着, 过, 吗, 呢, 吧, 啊, 嘛
接続詞和, 与, 或, 但, 而, 且, 及
前置詞在, 从, 到, 把, 被, 对, 向, 给
文法動詞・副詞是, 有, 不, 也, 都, 就, 要, 会, 能, 可

これらの文字は圧倒的に文法的な役割で出現し、内容語とは異なる形で語境界を示します。

学習済みモデル

chinese.model

  • 学習コーパス: UD Chinese-GSD
  • 精度(Accuracy): 80.72%

使用例

echo "中文分词测试。" | litsea segment -l chinese ./models/chinese.model