モデルの再学習
既存のモデルに新しいデータで学習を再開することで、モデルを改善できます。
コマンド
litsea train -t 0.005 -i 1000 -m <EXISTING_MODEL> <NEW_FEATURES_FILE> <OUTPUT_MODEL>
使用例
# 新しいコーパスから特徴量を抽出
litsea extract -l japanese ./new_corpus.txt ./new_features.txt
# 既存モデルから再学習
litsea train -t 0.005 -i 1000 \
-m ./models/japanese.model \
./new_features.txt \
./models/japanese_v2.model
仕組み
flowchart LR
A["Existing model<br/>(weights)"] --> C["Trainer"]
B["New features"] --> C
C --> D["Retrained model<br/>(updated weights)"]
- Trainer が新しい特徴量ファイルから特徴量とインスタンスを初期化する
-mオプションで既存のモデルの重みを読み込む- 読み込まれた重みを出発点として学習を継続する
- 新しいモデルは、学習済みのパターンをすべて引き継ぎつつ、新しいデータで改良される
ユースケース
- ドメイン適応 – 汎用モデルをドメイン固有のテキスト(医療、法律など)でファインチューニングする
- 段階的な改善 – ゼロから再学習せずに、より多くの学習データを追加する
- エラー修正 – 現在のモデルが誤りを犯す例を使って学習する
注意事項
- 出力モデルのパスは入力モデルと同じパスを指定できます(上書き)
-mフラグはファイルパス、file://、http://、https://URI に対応しています- 再学習は既存の重みから開始するため、必要な反復回数が少なくなる場合があります