Hypothesis

Entity resolution (ER) aims at matching records that refer to the same real-world entity. Although widely studied for the last 50 years,ER still represents a challenging data management problem, and several recent works have started to investigate the opportunityof applying deep learning (DL) techniques to solve this problem. In this paper, we study the fundamental problem of explainabilityof the DL solution for ER. Understanding the matching predictions of an ER solution is indeed crucial to assess the trustworthinessof the DL model and to discover its biases. We treat the DL model as a black box classifier and – while previous approaches toprovide explanations for DL predictions are agnostic to the classification task – we propose the certa approach that is aware ofthe semantics of the ER problem. Our approach produces both saliency explanations, which associate each attribute with a saliencyscore, and counterfactual explanations, which provide examples of values that can flip the prediction. certa builds on a probabilisticframework that aims at computing the explanations evaluating the outcomes produced by using perturbed copies of the input records.We experimentally evaluate certa’s explanations of state-of-the-art ER solutions based on DL models using publicly available datasets,and demonstrate the effectiveness of certa over recently proposed methods for this problem

A resolução de entidades (RE) visa corresponder registros que se referem à mesma entidade do mundo real. Embora amplamente estudada nos últimos 50 anos, a RE ainda representa um problema desafiador de gerenciamento de dados, e diversos trabalhos recentes começaram a investigar a oportunidade de aplicar técnicas de aprendizado profundo (ADL) para resolver esse problema. Neste artigo, estudamos o problema fundamental da explicabilidade da solução de ADL para RE. Compreender as previsões correspondentes de uma solução de RE é de fato crucial para avaliar a confiabilidade do modelo de ADL e descobrir seus vieses. Tratamos o modelo de ADL como um classificador de caixa-preta e – embora abordagens anteriores para fornecer explicações para previsões de ADL sejam agnósticas à tarefa de classificação – propomos a abordagem certa, que considera a semântica do problema de RE. Nossa abordagem produz explicações de saliência, que associam cada atributo a uma pontuação de saliência, e explicações contrafactuais, que fornecem exemplos de valores que podem inverter a previsão. A abordagem certa baseia-se em uma estrutura probabilística que visa computar as explicações avaliando os resultados produzidos usando cópias perturbadas dos registros de entrada. Avaliamos experimentalmente certas explicações sobre soluções de ER de última geração com base em modelos DL usando conjuntos de dados disponíveis publicamente e demonstramos a eficácia de certos métodos propostos recentemente para esse problema.

Annotators

URL

Annotators

URL

Annotators

URL