openai/privacy-filter — Taiwan PII Bench

Token-classification benchmark on 310 Taiwan PII items · Dataset: huggingface.co/datasets/lianghsun/tw-PII-bench · Model: openai/privacy-filter
Eval 採用模型 原生 Viterbi decoder(非 HF pipeline)。In-schema F1 以 effective gold 計算(OOD 標籤映射至 expected_model_label 作為 in-schema 的對照;無對應者僅作輔助 metadata、不算進 F1)。
Gold span Pred 正確 Gold 與 Pred 重疊但不完全相同 Pred 錯誤 (FP)