반응형
Paper
- https://arxiv.org/pdf/2507.21509 (Persona Vectors)
- https://arxiv.org/pdf/2603.13249 (Style Modulation Heads)
Persona Vectors
- Persona Vectors는 페르소나의 특징을 표현하는 벡터.
- 해당 Vector를 residual stream에 더해주면 프롬프트로 제어하지 않고도 원하는 페르소나 묘사 효과를 얻을 수 있음.
- Persona Vector를 더할때 h ← h + α·v로써 α를 조절하는 방식으로 steering 강도를 조정할 수 있음. 이것으로 스윗스팟을 찾으면 됨.
- 하지만, Persona Vectors는 residual stream 전체를 건드림으로써 의도하지 않은 coherency degradation (동어반복, 출력이상)와 같은 Side effect가 일어날 수 있음.
Style Modulation Heads
- 이를 보완한 것이 이번에 나온 Style Modulation Heads 기법.
- Style Modulation Heads를 찾아 해당 Heads에 대해서만 steering을 실시하여 페르소나를 강화함과 동시에 coherency degradation을 최소화 할 수 있음.
- 일단, 먼저 레이어별 코사인 유사도 분석으로 페르소나가 형성되는 레이어를 파악. (페이퍼에 해당 방법도 제시되어 있음)
- 이 역시 제안된 Head Contribution Score 산출 방법으로 해당 Layer에 대한 Head를 특정.
- 특정한 Head에만 Persona Vector를 더하면 끝.
반응형