Heretic removes safety alignment from transformer-based language models — automatically, without expensive post-training. 指向性アブレーション meets Optuna-powered parameter optimization.
アブリタレーション(Arditi et al. 2024、Lai 2025)の高度な実装により、モデルの言語理解を損なわずに残差ストリーム活性化から拒否方向を外科的に除去します。
Tree-structured Parzen Estimator via Optuna searches the ablation parameter space intelligently — minimizing refusals while co-minimizing KL divergence from the original モデルを。
トランスフォーマー内部の理解は不要です。コマンドラインプログラムを実行できれば、Hereticを使えます。オプティマイザがすべてのハイパーパラメータ選択を処理します。
KL発散の共最小化により、検閲解除されたモデルが元のモデルの知識、推論能力、パフォーマンスを最大限維持します。
Hereticはモデルの残差ストリームを調査し、トランスフォーマー層全体で拒否動作に関連する主要方向を特定します。
アブレーション係数の探索空間を定義します。どの層を、どの方向に、どの程度アブレーションするかを決定します。
Optuna's TPE sampler runs N trials, evaluating each candidate against refusal rate and KL divergence from the base モデルを。
パレート最適解が適用され、検閲解除されたウェイトが標準HuggingFace形式で保存されます。
Traditional decensoring approaches require deep familiarity with model internals, careful manual tuning, and often expensive GPU time for re-training. Heretic automates the entire process.
By framing ablation as a black-box optimization problem and delegating parameter search to a state-of-the-art TPE optimizer, Heretic produces high-quality results reproducibly — across model architectures and scales.
Built on the research of Arditi et al. (2024) and Lai (2025), Heretic extends the abliteration literature with automated, quantitative evaluation objectives.
Hereticはオープンソースです。数分でどのトランスフォーマーベース言語モデルにも実行できます。