Score: 0

Oh That Looks Familiar: A Novel Similarity Measure for Spreadsheet Template Discovery

Published: November 10, 2025 | arXiv ID: 2511.06973v1

By: Ananad Krishnakumar, Vengadesh Ravikumaran

Potential Business Impact:

Finds similar spreadsheets automatically.

Business Areas:

Text Analytics Data and Analytics, Software

Traditional methods for identifying structurally similar spreadsheets fail to capture the spatial layouts and type patterns defining templates. To quantify spreadsheet similarity, we introduce a hybrid distance metric that combines semantic embeddings, data type information, and spatial positioning. In order to calculate spreadsheet similarity, our method converts spreadsheets into cell-level embeddings and then uses aggregation techniques like Chamfer and Hausdorff distances. Experiments across template families demonstrate superior unsupervised clustering performance compared to the graph-based Mondrian baseline, achieving perfect template reconstruction (Adjusted Rand Index of 1.00 versus 0.90) on the FUSTE dataset. Our approach facilitates large-scale automated template discovery, which in turn enables downstream applications such as retrieval-augmented generation over tabular collections, model training, and bulk data cleaning.

Statistical Inference for Manifold Similarity and Alignability across Noisy High-Dimensional Datasets

Statistics Theory

Compares complex data by looking at its hidden shapes.

26 Nov 2025 0

85%

Efficient Identification of High Similarity Clusters in Polygon Datasets

Machine Learning (CS)

Finds similar places faster in huge maps.

28 Sep 2025 0

85%

Metric Matters: A Formal Evaluation of Similarity Measures in Active Learning for Cyber Threat Intelligence

Machine Learning (CS)

Finds hidden computer spies faster by learning what's normal.

26 Aug 2025 0

View PDF Login to Bookmark

Page Count

7 pages

Oh That Looks Familiar: A Novel Similarity Measure for Spreadsheet Template Discovery

Finds similar spreadsheets automatically.

Technical Abstract

Statistical Inference for Manifold Similarity and Alignability across Noisy High-Dimensional Datasets

Efficient Identification of High Similarity Clusters in Polygon Datasets

Metric Matters: A Formal Evaluation of Similarity Measures in Active Learning for Cyber Threat Intelligence