segment

学習済みモデルを使用してテキストを単語に分割します。

使い方

echo "text" | litsea segment [OPTIONS] <MODEL_URI>

Argument	Description
`MODEL_URI`	学習済みモデルファイルのパスまたはURL。サポート形式: ローカルファイルパス, `file://`, `http://`, `https://`

Option	Default	Description
`-l`, `--language <LANGUAGE>`	`japanese`	文字タイプ分類に使用する言語。指定可能な値: `japanese` / `ja`, `chinese` / `zh`, `korean` / `ko`
`--pos`	off	品詞推定付き分割を有効にします。`train --pos` で学習したPOSモデルが必要です

日本語:

echo "LitseaはTinySegmenterを参考に開発された。" \
  | litsea segment -l japanese ./models/japanese.model

Litsea は TinySegmenter を 参考 に 開発 さ れ た 。

中国語:

echo "中文分词测试。" | litsea segment -l chinese ./models/chinese.model

韓国語:

echo "한국어 단어 분할 테스트입니다." \
  | litsea segment -l korean ./models/korean.model

ファイルの処理:

cat input.txt | litsea segment -l japanese ./models/japanese.model > output.txt

URLからモデルを読み込み:

echo "テスト文です。" \
  | litsea segment -l japanese https://example.com/models/japanese.model

--pos フラグを指定すると、Averaged Perceptron モデルを使用して単語分割と品詞推定を同時に行います。

echo "text" | litsea segment --pos [OPTIONS] <MODEL_URI>

各単語が 単語/品詞 の形式で出力されます。品詞は UPOS タグセットに準拠します。

echo "今日はいい天気ですね。" \
  | litsea segment --pos -l japanese ./models/japanese_pos.model

今日/X は/ADP いい/ADJ 天気/NOUN です/AUX ね/PART 。/PUNCT

cat input.txt | litsea segment --pos -l japanese ./models/japanese_pos.model > output.txt