CLIリファレンス概要

litsea CLIは、単語分割、モデル学習、テキスト処理のためのコマンドを提供します。

使い方

litsea <COMMAND> [OPTIONS] [ARGS]

コマンド一覧

Command	Description
`extract`	学習用にコーパスから特徴量を抽出
`train`	単語分割モデルを学習
`segment`	学習済みモデルを使用してテキストを単語に分割

グローバルオプション

Option	Description
`-h`, `--help`	ヘルプ情報を表示
`-V`, `--version`	バージョン番号を表示

一般的なワークフロー

AdaBoost ワークフロー（単語分割のみ）

flowchart LR
    A["1. scripts/download_udtreebank.sh"] --> B["2. scripts/corpus_udtreebank.sh"]
    B --> C["3. litsea extract"]
    C --> D["4. litsea train"]
    D --> E["5. litsea segment"]

UD Treebank をダウンロードする: conllu_file=$(bash scripts/download_udtreebank.sh -l ja -o /tmp)
コーパスを準備する: bash scripts/corpus_udtreebank.sh "$conllu_file" corpus.txt
特徴量を抽出する: litsea extract -l japanese corpus.txt features.txt
モデルを学習する: litsea train -t 0.005 -i 1000 features.txt model.model
テキストを分割する: echo "text" | litsea segment -l japanese model.model

POS ワークフロー（品詞推定付き単語分割）

flowchart LR
    A["1. scripts/download_udtreebank.sh"] --> B["2. scripts/corpus_udtreebank.sh -p"]
    B --> C["3. litsea extract --pos"]
    C --> D["4. litsea train --pos"]
    D --> E["5. litsea segment --pos"]

UD Treebank をダウンロードする: conllu_file=$(bash scripts/download_udtreebank.sh -l ja -o /tmp)
品詞付きコーパスを準備する: bash scripts/corpus_udtreebank.sh -p "$conllu_file" pos_corpus.txt
品詞付き特徴量を抽出する: litsea extract --pos -l japanese pos_corpus.txt features_pos.txt
POS モデルを学習する: litsea train --pos --num-epochs 10 features_pos.txt model_pos.model
品詞推定付き分割: echo "text" | litsea segment --pos -l japanese model_pos.model

Keyboard shortcuts

Litsea ドキュメント

CLIリファレンス概要

使い方

コマンド一覧

グローバルオプション

一般的なワークフロー

AdaBoost ワークフロー（単語分割のみ）

POS ワークフロー（品詞推定付き単語分割）