Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

モデルの評価

モデルの品質を理解することは、良好な分割結果を得るために不可欠です。

メトリクス

train コマンドは学習後に3つの主要なメトリクスを出力します:

Accuracy(正解率)

Accuracy = (TP + TN) / Total Instances

すべての文字位置のうち、正しく分類された割合(境界と非境界の両方を含む)です。モデル品質の最も広範な指標です。

Precision(適合率)

Precision = TP / (TP + FP)

モデルが予測した境界のうち、正しかった割合です。高い適合率は、誤った境界(過分割)が少ないことを意味します。

Recall(再現率)

Recall = TP / (TP + FN)

実際の境界のうち、モデルが検出した割合です。高い再現率は、見逃された境界(不足分割)が少ないことを意味します。

混同行列

境界と予測 (+1)非境界と予測 (-1)
実際の境界True Positive (TP)False Negative (FN)
実際の非境界False Positive (FP)True Negative (TN)

事前学習済みモデルのベンチマーク

モデル正解率適合率再現率学習コーパス
japanese.model94.15%95.57%94.36%UD Japanese-GSD
korean.model85.08%UD Korean-GSD
chinese.model80.72%UD Chinese-GSD

モデル品質の改善

精度が不十分な場合は、以下を検討してください:

  1. より多くの学習データ – より大規模で多様なコーパスを用意する
  2. 閾値を下げる-t 0.001 を試して、より多くのブースティング反復を許可する
  3. 反復回数を増やす-i 5000 以上を試す
  4. コーパスの品質向上 – 一貫したトークン化とクリーンなテキストを確保する
  5. 再学習 – 既存のモデルから開始し、追加データで学習する(モデルの再学習を参照)