3. LLM Evaluation

介绍大规模语言模型（LLM）的评估方法与实践经验

参考资料
- HuggingFace 评估手册：Evaluation Guidebook - a Hugging Face Space by OpenEvals
- 越狱攻击：Jailbreaking LLMs: A Comprehensive Guide (With Examples) | Promptfoo
- 安全十大基准：Top 10 Open Datasets for LLM Safety, Toxicity & Bias Evaluation | Promptfoo

什么是 LLM 评估

LLM 评估的基础知识

现有基准 Benchmarks

创建新的评估基准

评估的主要挑战

评估中易被忽视的要点

越狱攻击

Previous2. 训练流程 Next4. Scaling Law

Last updated 46 minutes ago

Was this helpful?