休眠线程安全幂等的升级插入没有约束异常处理?

2022-09-04 23:07:22

我有一些执行UPSERT的代码,也称为合并。我想清理这段代码,具体来说,我想摆脱异常处理,并减少代码的整体冗长性和复杂性,以实现如此简单的操作。要求是插入每个项目,除非它已经存在:

public void batchInsert(IncomingItem[] items) {
    try(Session session = sessionFactory.openSession()) {
        batchInsert(session, items);
    }
    catch(PersistenceException e) {
        if(e.getCause() instanceof ConstraintViolationException) {
            logger.warn("attempting to recover from constraint violation");
            DateTimeFormatter dbFormat = DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss.SSS");
            items = Arrays.stream(items).filter(item -> {
                int n = db.queryForObject("select count(*) from rets where source = ? and systemid = ? and updtdate = ?::timestamp",
                        Integer.class,
                        item.getSource().name(), item.getSystemID(), 
                        dbFormat.format(item.getUpdtDateObj()));
                if(n != 0) {
                    logger.warn("REMOVED DUPLICATE: " +
                            item.getSource() + " " + item.getSystemID() + " " + item.getUpdtDate());
                    return false;
                }
                else {
                    return true; // keep
                }
            }).toArray(IncomingItem[]::new);
            try(Session session = sessionFactory.openSession()) {
                batchInsert(session, items);
            }
        }
    }
}

SO 的初始搜索不令人满意:

在被标记为重复的Spring Data JPA中如何进行重复密钥更新的问题中,我注意到了这个有趣的评论:enter image description here

这是一个死胡同,因为我真的不理解这个评论,尽管它听起来像是一个聪明的解决方案,并提到了“实际相同的SQL语句”。

另一个有前途的方法是:Hibernate和Spring在提交到DB之前修改查询

冲突时不执行任何操作/重复密钥更新时

这两个主要的开源数据库都支持将幂等性向下推送到数据库的机制。下面的示例使用 PostgreSQL 语法,但可以很容易地适应 MySQL。

通过遵循Hibernate和Spring修改查询在提交到DB之前的想法,Hooking into Hibernate的查询生成以及如何在Hibernate中配置DementInspector?,我实现了:

import org.hibernate.resource.jdbc.spi.StatementInspector;

@SuppressWarnings("serial")
public class IdempotentInspector implements StatementInspector {

    @Override
    public String inspect(String sql) {
        if(sql.startsWith("insert into rets")) {
            sql += " ON CONFLICT DO NOTHING";
        }
        return sql;
    }

}

与属性

        <prop key="hibernate.session_factory.statement_inspector">com.myapp.IdempotentInspector</prop>

不幸的是,当遇到重复项时,这会导致以下错误:

由以下原因引起: org.springframework.orm.hibernate5.HibernateOptimisticLockingFailureException: Batch update 从 update [0] 返回了意外的行计数;实际行数: 0;预期: 1;嵌套异常是 org.hibernate.StaleStateException: Batch update 从 update [0] 返回意外的行计数;实际行数: 0;预期: 1

这是有道理的,如果你考虑一下幕后发生的事情:导致插入零行,但需要一个插入。ON CONFLICT DO NOTHING

是否有一种解决方案可以启用线程安全的无异常并发幂等插入,并且不需要手动定义要由Hibernate执行的整个SQL插入语句?

就其价值而言,我认为将dupcheck向下推到数据库的方法是通往正确解决方案的途径。

澄清该方法使用的对象源自记录不可变的系统。在此特殊条件下,其行为与 UPSERT 相同,尽管可能会丢失第 N 次更新IncomingItembatchInsertON CONFLICT DO NOTHING


答案 1

简短的回答 - Hibernate不支持它开箱即用(正如Hibernate大师在这篇博客文章中所证实的那样)。也许你可以使用你已经描述的机制使它在某些场景中在某种程度上起作用,但是为此目的,直接使用本机查询对我来说是最直接的方法。

更长的答案是,考虑到我猜Hibernate的所有方面,很难支持它,例如:

  • 如何处理发现重复项的实例,因为它们应该在持久化后得到管理?将它们合并到持久性上下文中?
  • 如何处理已经持久化的关联,要对其应用哪些级联操作(持久化/合并/something_new;或者此时做出该决定为时已晚)?
  • 数据库是否从 upsert 操作中返回足够的信息以涵盖所有用例(跳过的行;在批处理插入模式下未跳过的生成键等)。
  • 关于-ed实体,它们是否创建或更新,如果更新了,则更改了什么?@Audit
  • 还是版本控制和乐观锁定(根据定义,在这种情况下您实际上想要异常)?

即使Hibernate以某种方式支持它,如果有太多的警告需要注意和考虑,我不确定我是否会使用该功能。

因此,我遵循的经验法则是:

  • 对于简单方案(大多数情况下):保留 + 重试。如果出现特定错误(按异常类型或类似错误),可以使用类似 AOP 的方法(注释、自定义拦截器和类似方法)进行全局配置,具体取决于您在项目中使用的框架,无论如何,这是一种很好的做法,尤其是在分布式环境中。
  • 对于复杂方案和性能密集型操作(尤其是在批处理、非常复杂的查询等方面):本机查询,以最大限度地提高特定数据库功能的利用率。

答案 2

请注意,“幂等”与“冲突忽略”不同。后者可能会导致对数据库的第二次写入被忽略,即使它实际上应该在插入失败时执行更新

是否有解决方案支持线程安全无异常的并发幂等插入

我想说的是,如果没有RDBMS的特定支持,这在理论上甚至是不可能的,尤其是“并发”部分。原因是数据不会实际写入,在提交事务之前甚至可能不“可见”。那么,如果在事务 A 中确定记录不存在并且 a 已完成,会发生什么情况。即使这对其他事务是立即和原子可见的,并发事务 B 也会确定它应该执行 .现在,如果以后的事务 A 遇到导致其回滚的问题,该怎么办?事务 A 中的数据将消失,事务 B 的数据将找不到任何要更新的记录。INSERTINSERTUPDATEINSERTEDUPDATE

这就是为什么“并发”部分在一般情况下不起作用的原因之一,因为并非所有RDBMS都支持某种原子(或“冲突忽略”)。UPSERT

但是,您似乎不介意丢失对同一记录的第二次写入(更新),因为您正在谈论幂等性,这意味着如果记录已经存在,则实际上不会修改记录的数据。在这种情况下,“忽略冲突”确实等同于幂等性。UPDATE

一个(显而易见?“解决方案”是使用一些显式锁(在数据库中)进行互斥,即事务A获取锁,做它的事情,然后再次释放它。事务 B 尝试获取锁,但在事务 A 完成之前将被阻止。但是,这将减少或阻止并发性,尤其是在一个事务中处理大量记录时。此外,由于 RDBMS 不知道锁与其保护的记录之间的关系,因此该锁仅供参考,每个客户端都必须使用相同的锁定方案。

你说你想“将幂等性向下推到数据库”。如果这不是一个严格的要求,你可以只控制Java代码中的并发性;例如,通过使用一些支持并发的集合,其中您的代码以原子方式检查并插入它将要写入RDBMS的每个数据项的ID。如果 ID 已在集合中,请跳过该项,否则插入到 DB 中。


推荐