Debezium系列之：记录一次数据库某张表部分数据未同步到hive表的原因

Debezium系列之：记录一次数据库某张表部分数据未同步到hive表的原因

article2024/10/6 11:05:36/文章来源:https://blog.csdn.net/zhengzaifeidelushang/article/details/140204960

Debezium系列之：记录一次数据库某张表部分数据未同步到hive表的原因

一、背景
二、查找数据丢失流程
三、数据丢失原因
四、解决方法

一、背景

反馈mysql数据库中某张表的数据没有同步到hive中，现在需要排查定位下原因

数据丢失一般常见需求排查的方向：

数据是否采集到hdfs上
采集到hdfs的话，进一步去确认数据是否是因为Spark任务资源不够导致没有加载到hive表中
数据没有采集到的话，进一步定位分析没有采集到的原因，目前比较常见的是数据库原因导致、业务场景导致

二、查找数据丢失流程

首先拿一条丢失数据的id，去确认这条数据是否采集到hdfs上，发现成功采集到了hdfs上
观察hdfs文件生成时间，发现这张表的数据文件生成时间比较晚
- 初步判断出现了数据库主从延迟或者采集延迟，但是spark任务会等到主从延迟或者采集延迟结束才会执行，这样应该能确保不会遗漏数据，进一步确认任务执行情况
- 发现spark任务并没有出现延迟执行的情况，因此就出现了特殊情况
再去查看数据库中其他表的采集情况，发现其他表的hdfs数据文件生成并没有延迟，这就说明只有这张数据丢失的表产生了采集延迟，进一步排查分析这张表
发现丢失数据这张表近一天的hdfs文件生成时间是在同一时间点生成的，这表明近一天的数据是在同一时间采集到了hdfs
查看这张数据丢失表数据情况，发现这张表在不同小时的数据工用了相同的gtid，这表明这些数据来自同一个事件
进一步查看数据库其他表在不同小时gtid的情况，通过比较gtid，发现丢失数据这张表使用的gtid符合递增情况
至此，基本找到数据没有加载到hive的原因

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/773750.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

代码随想录算法训练营第74天：路径总结[1]

代码随想录算法训练营第74天：路径总结[1]

代码随想录算法训练营第74天：路径总结 ‍ A * 算法精讲 （A star算法） 卡码网：126. 骑士的攻击(opens new window) 题目描述在象棋中，马和象的移动规则分别是“马走日”和“象走田”。现给定骑士的起始坐标和目标…

阅读更多...

细说MCU的ADC模块单通道连续采样的实现方法

细说MCU的ADC模块单通道连续采样的实现方法

目录一、工程依赖的硬件及背景二、设计目的三、建立工程 1、配置GPIO 2、选择时钟源和Debug 3、配置ADC 4、配置系统时钟和ADC时钟 5、配置TIM3 6、配置串口四、代码修改 1、重定义TIM3中断回调函数 2、启动ADC及重写其回调函数 3、定义用于存储转换结果的数…

阅读更多...

【深度学习练习】心脏病预测

【深度学习练习】心脏病预测

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者：K同学啊一、什么是RNN RNN与传统神经网络最大的区别在于，每次都会将前一次的输出结果，带到下一隐藏层中一起训练。如下图所示： …

阅读更多...

macOS版ChatGPT更新：修复AI对话纯文本存储问题

macOS版ChatGPT更新：修复AI对话纯文本存储问题

猫头虎 🐯 建联猫头虎，商务合作，产品评测，产品推广，个人自媒体创作，超级个体，涨粉秘籍，一起探索编程世界的无限可能！ macOS版ChatGPT更新：修复AI对话纯文本…

阅读更多...

C++ 空间和时间高效的二项式系数（Space and time efficient Binomial Coefficient）

C++ 空间和时间高效的二项式系数（Space and time efficient Binomial Coefficient）

这里函数采用两个参数n和k，并返回二项式系数 C(n, k) 的值。例子： 输入： n 4 和 k 2 输出： 6 解释： 4 C 2 等于 4!/(2!*2!) 6 输入： n 5 和 k 2 输出： 10 解释： 5 C …

阅读更多...

maven项目、idea抽风问题解决

maven项目、idea抽风问题解决

开发的时候遇到奇奇怪怪的非技术问题，解决起来会费时间，做无用功。这里记录常见的情况和解决方法 1.未识别maven项目文件的图标变成了这种橙色的，而且有主启动函数也不能run 右键pom文件，点击Add as Maven Project 如果…

阅读更多...

揭开梵蒂冈秘密档案馆的神秘面纱

揭开梵蒂冈秘密档案馆的神秘面纱

关注我们 - 数字罗塞塔计划 - PART 01 深邃的历史梵蒂冈秘密档案馆起源于公元8世纪，负责保存官方文书和教皇书信。9世纪开始在圣彼得大教堂设立档案库，负责保管外交和法律文件，在帕拉蒂诺山塔内保存经济和行政方面的档案。11至13世纪&…

阅读更多...

SpringBoot AOP面向切面编程基础

SpringBoot AOP面向切面编程基础

介绍在 Spring Boot 中，AOP（面向切面编程）是一种强大的技术，它允许你在应用程序中横切关注点，比如日志记录、事务管理、性能监控等，从而避免重复代码和混乱可以记录操作日志权限控制。依赖 <dep…

阅读更多...

HTMLCSS（入门）

HTMLCSS（入门）

HTML <html> <head><title>第一个页面</title></head><body>键盘敲烂，工资过万</body> </html> <!DOCTYPE>文档类型声明，告诉浏览器使用哪种HTML版本显示网页 <!DOCTYPE html>当前页面采取…

阅读更多...

go语言day08 泛型自定义错误处理 go关键字:协程

go语言day08 泛型自定义错误处理 go关键字:协程

泛型： 抛错误异常实现error接口类型用java语言解释的话，实现类需要重写error类型的抽象方法Error().这样就可以自定义异常处理。回到go语言，在Error()方法中用*argError 这样一个指针类来充当error接口的实现类。在f2()方法中定义返回值…

阅读更多...

本地部署秘塔开源搜索引擎

本地部署秘塔开源搜索引擎

秘塔AI搜索是由秘塔科技于2024年初推出的一款新型搜索引擎，被业界誉为“中国版的Perplexity”。秘塔科技成立于2018年4月，其核心团队包括CEO闵可锐、技术专家唐悦和首席运营官王益为等。秘塔AI搜索以其高效简洁的特点受到关注，其搜索结果直接…

阅读更多...

累积分布函数的一些性质证明

累积分布函数的一些性质证明

性质1： E [ X ] ∫ 0 ∞ ( 1 − F ( x ) ) d x − ∫ − ∞ 0 F ( x ) d x ( 1 ) E[X]\int_0^{\infty}(1-F(x))dx - \int_{-\infty}^0F(x)dx\quad (1) E[X]∫0∞(1−F(x))dx−∫−∞0F(x)dx(1) 证明： E [ X ] ∫ − ∞ ∞ x p ( x ) d x E[X] …

阅读更多...

ETCD 基本介绍与常见命令的使用

ETCD 基本介绍与常见命令的使用

转载请标明出处：https://blog.csdn.net/donkor_/article/details/140171610 文章目录一、基本介绍1.1 参考1.2 什么是ETCD1.3 ETCD的特点1.4 ETCD的主要功能1.5 ETCD的整体架构1.6 什么时候用ETCD，什么时候用redis 二、安装三、使用3.1 etcdctl3.2 常用…

阅读更多...

审核平台前端新老仓库迁移

审核平台前端新老仓库迁移

背景审核平台接入50业务，提供在线审核及离线质检、新人培训等核心能力，同时提供数据报表、资源追踪、知识库等工具。随着平台的飞速发展，越来越多的新业务正在或即将接入审核平台，日均页面浏览量为百万级别。如今审核平台已是公司…

阅读更多...

[Redis]哨兵机制

[Redis]哨兵机制

哨兵机制概念在传统主从复制机制中，会存在一些问题： 1. 主节点发生故障时，进行主备切换的过程是复杂的，需要人工参与，导致故障恢复时间无法保障。 2. 主节点可以将读压力分散出去，但写压力/存储压力是无法…

阅读更多...

直击园区消防管理现状，智慧消防相比传统消防管理的优势是什么

直击园区消防管理现状，智慧消防相比传统消防管理的优势是什么

一、工业园区消防管理现状 1、消防信息智能化程度低信息化手段落后，现场的数据信息无法即时传送至指挥中心，突发事件发生时，无法扁平化指挥到基层现场，应急处置能力不足。 2、防控体系不健全存在监测盲点，火灾报警…

阅读更多...

Mybatis实现RBAC权限模型查询

Mybatis实现RBAC权限模型查询

RBAC权限模型 Role-Based Access Control，中文意思是：基于角色（Role）的访问控制。这是一种广泛应用于计算机系统和网络安全领域的访问控制模型。简单来说，就是通过将权限分配给➡角色，再将角色分配给➡用…

阅读更多...

ABB机器人坐标系偏移指令

ABB机器人坐标系偏移指令

ABB机器人在坐标系中偏移用到的指令有：Offs和RelTool。Offs用在工件坐标系中偏移，而RelTool是在工具坐标系中偏移。一、Offs用于在一个机械臂位置的工件坐标系中添加一个偏移量。 Offs (Point ，XOffset， YOffset ，Z…

阅读更多...

【UE5.1】Chaos物理系统基础——05 蓝图绑定Chaos破裂或碰撞事件

【UE5.1】Chaos物理系统基础——05 蓝图绑定Chaos破裂或碰撞事件

步骤 1. 新建一个父类为Actor的蓝图，这里命名为“BP_ChaosExplosionEvent” 打开“BP_ChaosExplosionEvent”，添加一个变量，这里命名为“GC”，变量类型为“几何体集actor”，设置为可编辑实例在事件图表中添加如下节点…

阅读更多...

Unity休闲手机游戏开发课程

Unity休闲手机游戏开发课程

课程介绍 Unity休闲手机游戏开发课程将教您如何利用Unity游戏引擎创建令人愉快的休闲手机游戏。从基础的游戏开发知识到高级的游戏制作技巧，您将学习到创建各种类型的休闲游戏所需的关键技能和工具。无论您是初学者还是有一定经验的开发者，本课程都能帮助…

阅读更多...

最新文章