Personalized Daily ArXiv Papers 2025-07-10

[gpt-4o]	Prompt	Completion	Total
Token	51590	3057	54647
Cost	$0.13	$0.03	$0.16

Total arXiv papers: 449

Total scanned papers: 259

Total relevant papers: 21

Table of contents with paper titles:

Exploring Task Performance with Interpretable Models via Sparse Auto-Encoders Authors: Shun Wang, Tyler Loakman, Youbo Lei, Yi Liu, Bohao Yang, Yuting Zhao, Dong Yang, Chenghua Lin
SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability Authors: Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini
A Principled Framework for Multi-View Contrastive Learning Authors: Panagiotis Koromilas, Efthymios Georgiou, Giorgos Bouritsas, Theodoros Giannakopoulos, Mihalis A. Nicolaou, Yannis Panagakis
Instance-Wise Monotonic Calibration by Constrained Transformation Authors: Yunrui Zhang, Gustavo Batista, Salil S. Kanhere
Denoising Multi-Beta VAE: Representation Learning for Disentanglement and Generation Authors: Anshuk Uppal, Yuhta Takida, Chieh-Hsin Lai, Yuki Mitsufuji
The Primacy of Magnitude in Low-Rank Adaptation Authors: Zicheng Zhang, Haoran Li, Yifeng Zhang, Guoqiang Gong, Jiaxing Wang, Pengzhang Liu, Qixia Jiang, Junxing Hu
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation Authors: Liliang Ren, Congcong Chen, Haoran Xu, Young Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, Yelong Shen
KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks Authors: James Hazelden, Laura Driscoll, Eli Shlizerman, Eric Shea-Brown
PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning Authors: Zeming Chen, Angelika Romanou, Gail Weiss, Antoine Bosselut
On the Effect of Uncertainty on Layer-wise Inference Dynamics Authors: Sunwoo Kim, Haneul Yoo, Alice Oh
The Riemannian Geometry associated to Gradient Flows of Linear Convolutional Networks Authors: El Mehdi Achour, Kathl\'en Kohn, Holger Rauhut
MoFE-Time: Mixture of Frequency Domain Experts for Time-Series Forecasting Models Authors: Yiwen Liu, Chenyu Zhang, Junjie Song, Siqi Chen, Sun Yin, Zihan Wang, Lingming Zeng, Yuji Cao, Junming Jiao
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models Authors: Keyon Vafa, Peter G. Chang, Ashesh Rambachan, Sendhil Mullainathan
FlexOlmo: Open Language Models for Flexible Data Use Authors: Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min
Foundation Model Self-Play: Open-Ended Strategy Innovation via Foundation Models Authors: Aaron Dharna, Cong Lu, Jeff Clune
Mutual Information Free Topological Generalization Bounds via Stability Authors: Mario Tuci, Lennart Bastian, Benjamin Dupuis, Nassir Navab, Tolga Birdal, Umut \c{S}im\c{s}ekli
Mathematical artificial data for operator learning Authors: Heng Wu, Benzhuo Lu
On the Hardness of Unsupervised Domain Adaptation: Optimal Learners and Information-Theoretic Perspective Authors: Zhiyi Dong, Zixuan Liu, Yongyi Mao
Does Data Scaling Lead to Visual Compositional Generalization? Authors: Arnas Uselis, Andrea Dittadi, Seong Joon Oh
Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful Authors: Martin Marek, Sanae Lotfi, Aditya Somasundaram, Andrew Gordon Wilson, Micah Goldblum
Can Interpretation Predict Behavior on Unseen Data? Authors: Victoria R. Li, Jenny Kaufmann, Martin Wattenberg, David Alvarez-Melis, Naomi Saphra

1. Exploring Task Performance with Interpretable Models via Sparse Auto-Encoders

ArXiv ID: 2507.06427

Authors: Shun Wang, Tyler Loakman, Youbo Lei, Yi Liu, Bohao Yang, Yuting Zhao, Dong Yang, Chenghua Lin

Abstract: Large Language Models (LLMs) are traditionally viewed as black-box algorithms, therefore reducing trustworthiness and obscuring potential approaches to increasing performance on downstream tasks. In this work, we apply an effective LLM decomposition method using a dictionary-learning approach with sparse autoencoders. This helps extract monosemantic features from polysemantic LLM neurons. Remarkably, our work identifies model-internal misunderstanding, allowing the automatic reformulation of the prompts with additional annotations to improve the interpretation by LLMs. Moreover, this approach demonstrates a significant performance improvement in downstream tasks, such as mathematical reasoning and metaphor detection.

Comment: The paper explores representation learning through sparse autoencoders, focusing on extracting monosemantic features from LLM neurons, which aligns with insights into how deep networks encode information.