Precision-Tier Evaluation

Placeholder. This page will describe an evaluation protocol that compares reasoning performance across precision tiers (e.g., int8 vs int4) while holding tasks and decoding parameters constant.