Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

トレーニングガイド

このガイドでは、Litsea で独自の単語分割モデルと品詞推定モデルを学習する手順を説明します。

両方のワークフローとも、データソースとして Universal Dependencies (UD) Treebanks を使用します。

単語分割(AdaBoost)

  1. UD Treebank をダウンロードしてコーパスを準備: conllu_file=$(bash scripts/download_udtreebank.sh -l ja -o /tmp) && bash scripts/corpus_udtreebank.sh "$conllu_file" corpus.txt
  2. コーパスから特徴量を抽出する
  3. AdaBoost でモデルを訓練する

品詞推定(Averaged Perceptron)

  1. UD Treebank をダウンロードして品詞付きコーパスを準備: conllu_file=$(bash scripts/download_udtreebank.sh -l ja -o /tmp) && bash scripts/corpus_udtreebank.sh -p "$conllu_file" pos_corpus.txt
  2. 品詞付き特徴量を抽出: litsea extract --pos -l japanese corpus.txt features.txt
  3. POS モデルを訓練: litsea train --pos --num-epochs 10 features.txt model.txt

その他のトピック