Score: 0

Mitigating Memorization in LLMs using Activation Steering

Published: March 8, 2025 | arXiv ID: 2503.06040v1

By: Manan Suri, Nishit Anand, Amisha Bhaskar

Potential Business Impact:

Stops AI from remembering and sharing private info.

Business Areas:

Natural Language Processing Artificial Intelligence, Data and Analytics, Software

The memorization of training data by Large Language Models (LLMs) poses significant risks, including privacy leaks and the regurgitation of copyrighted content. Activation steering, a technique that directly intervenes in model activations, has emerged as a promising approach for manipulating LLMs. In this work, we explore the effectiveness of activation steering in reducing memorization while preserving generalization capabilities. We conduct empirical evaluations using a controlled memorization benchmark of literary material and demonstrate that our method successfully suppresses memorized content with minimal degradation in model performance in Gemma. Additionally, we analyze the trade-offs between suppression effectiveness and linguistic fluency, highlighting the advantages and limitations of activation-based interventions. Our findings contribute to ongoing efforts in developing safer and more privacy-preserving LLMs by providing a practical and efficient mechanism to mitigate unintended memorization.

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Artificial Intelligence

Makes AI think more logically, less based on guesses.

18 May 2025 0

90%

Activation Steering for Bias Mitigation: An Interpretable Approach to Safer LLMs

Artificial Intelligence

Fixes AI to stop saying unfair or wrong things.

12 Aug 2025 0

90%

Steerable Chatbots: Personalizing LLMs with Preference-Based Activation Steering

Human-Computer Interaction

Lets AI understand your hidden feelings better.

7 May 2025 4

View PDF Login to Bookmark

Country of Origin

🇺🇸 United States

Page Count

16 pages

Mitigating Memorization in LLMs using Activation Steering

Stops AI from remembering and sharing private info.

Technical Abstract

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Activation Steering for Bias Mitigation: An Interpretable Approach to Safer LLMs

Steerable Chatbots: Personalizing LLMs with Preference-Based Activation Steering