Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

segment

学習済みモデルを使用してテキストを単語に分割します。

使い方

echo "text" | litsea segment [OPTIONS] <MODEL_URI>

引数

ArgumentDescription
MODEL_URI学習済みモデルファイルのパスまたはURL。サポート形式: ローカルファイルパス, file://, http://, https://

オプション

OptionDefaultDescription
-l, --language <LANGUAGE>japanese文字タイプ分類に使用する言語。指定可能な値: japanese / ja, chinese / zh, korean / ko
--posoff品詞推定付き分割を有効にします。train --pos で学習したPOSモデルが必要です

入力 / 出力

  • 入力: stdinから読み取り、1行に1文。空行はスキップされます。
  • 出力: stdoutに書き込み、スペース区切りのトークン、入力行ごとに1行。

使用例

日本語:

echo "LitseaはTinySegmenterを参考に開発された。" \
  | litsea segment -l japanese ./models/japanese.model
Litsea は TinySegmenter を 参考 に 開発 さ れ た 。

中国語:

echo "中文分词测试。" | litsea segment -l chinese ./models/chinese.model

韓国語:

echo "한국어 단어 분할 테스트입니다." \
  | litsea segment -l korean ./models/korean.model

ファイルの処理:

cat input.txt | litsea segment -l japanese ./models/japanese.model > output.txt

URLからモデルを読み込み:

echo "テスト文です。" \
  | litsea segment -l japanese https://example.com/models/japanese.model

品詞推定付き分割(--pos

--pos フラグを指定すると、Averaged Perceptron モデルを使用して単語分割と品詞推定を同時に行います。

使い方

echo "text" | litsea segment --pos [OPTIONS] <MODEL_URI>

出力形式

各単語が 単語/品詞 の形式で出力されます。品詞は UPOS タグセットに準拠します。

echo "今日はいい天気ですね。" \
  | litsea segment --pos -l japanese ./models/japanese_pos.model
今日/X は/ADP いい/ADJ 天気/NOUN です/AUX ね/PART 。/PUNCT

ファイルの処理

cat input.txt | litsea segment --pos -l japanese ./models/japanese_pos.model > output.txt

注意事項

  • --language フラグは、モデルが学習された言語と一致する必要があります
  • モデルの読み込みは非同期で行われ、TLS(rustls)を使用したHTTP/HTTPSをサポートしています
  • モデルURIはファイルパスに限定されません – 有効なURLであれば使用可能です
  • --pos を使用する場合、モデルは train --pos で学習したPOSモデルである必要があります