openai/privacy-filter — Taiwan PII Bench
Token-classification benchmark on 310 Taiwan PII items · Dataset:
huggingface.co/datasets/lianghsun/tw-PII-bench
· Model:
openai/privacy-filter
Eval 採用模型
原生 Viterbi decoder
(非 HF pipeline)。In-schema F1 以
effective gold
計算(OOD 標籤映射至
expected_model_label
作為 in-schema 的對照;無對應者僅作輔助 metadata、不算進 F1)。
Gold span
Pred 正確
Gold 與 Pred 重疊但不完全相同
Pred 錯誤 (FP)
Split
All
short (15-120字)
mid (200-1000字)
long (1500-5000字)
Block
All
A — In-schema
B — OOD
C — Negative
M — Mixed (mid)
L — Mixed (long)
Category
All
Status
All
✅ 全對
🟡 部分
❌ 全錯
搜尋