Score: 0

Efficient Identification of High Similarity Clusters in Polygon Datasets

Published: September 28, 2025 | arXiv ID: 2509.23942v1

By: John N. Daras

Potential Business Impact:

Finds similar places faster in huge maps.

Business Areas:

Geospatial Data and Analytics, Navigation and Mapping

Advancements in tools like Shapely 2.0 and Triton can significantly improve the efficiency of spatial similarity computations by enabling faster and more scalable geometric operations. However, for extremely large datasets, these optimizations may face challenges due to the sheer volume of computations required. To address this, we propose a framework that reduces the number of clusters requiring verification, thereby decreasing the computational load on these systems. The framework integrates dynamic similarity index thresholding, supervised scheduling, and recall-constrained optimization to efficiently identify clusters with the highest spatial similarity while meeting user-defined precision and recall requirements. By leveraging Kernel Density Estimation (KDE) to dynamically determine similarity thresholds and machine learning models to prioritize clusters, our approach achieves substantial reductions in computational cost without sacrificing accuracy. Experimental results demonstrate the scalability and effectiveness of the method, offering a practical solution for large-scale geospatial analysis.

Intraoperative 2D/3D Registration via Spherical Similarity Learning and Inference-Time Differentiable Levenberg-Marquardt Optimization

CV and Pattern Recognition

Helps surgeons see inside patients better during operations.

8 Sep 2025 0

85%

Oh That Looks Familiar: A Novel Similarity Measure for Spreadsheet Template Discovery

Machine Learning (CS)

Finds similar spreadsheets automatically.

10 Nov 2025 0

85%

Statistical Inference for Manifold Similarity and Alignability across Noisy High-Dimensional Datasets

Statistics Theory

Compares complex data by looking at its hidden shapes.

26 Nov 2025 0

View PDF Login to Bookmark

Country of Origin

🇺🇸 United States

Page Count

11 pages

Efficient Identification of High Similarity Clusters in Polygon Datasets

Finds similar places faster in huge maps.

Technical Abstract

Intraoperative 2D/3D Registration via Spherical Similarity Learning and Inference-Time Differentiable Levenberg-Marquardt Optimization

Oh That Looks Familiar: A Novel Similarity Measure for Spreadsheet Template Discovery

Statistical Inference for Manifold Similarity and Alignability across Noisy High-Dimensional Datasets