万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践

文章贡献者 Authors 技术指导: 泰康人寿 数据架构资深专家工程师 王可 文章作者: 泰康人寿 数据研发工程师 田昕峣 摘要 Abstract 本文详细介绍了泰康人寿基于 Apache Hudi 构建湖仓一体分布式数据处理平台的技术选型方法、整体架构设计与实施、以及针对大健康领域的领域特征和公

一种对数据库友好的GUID的变种使用方法

.NET生成的GUID唯一性很好,用之方便,但是,缺少像雪花算法那样的有序性。虽然分布式系统中做不到绝对的有序,但是,相对的有序对于目前数据库而言,索引效率等方面的提升还是有明显效果的(当然,我认为,这是数据库的问题,而非编程的问题,数据库应该处理好任何类型数据作为主键索引时的性能,除非在SQL标准...

MapReduce和Spark读取HBase快照表

1.概述 随着大数据技术的不断发展,处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型,为处理大规模数据提供了有效的解决方案。在这篇博客中,我们将探讨如何使用MapReduce框架读取快照表(Snapshot Table)的数据。快照表是一种记录某一时刻系统状态的表格,通过Ma

Merkle Tree 简介

Merkle 树(Merkle Tree)是一种树状数据结构,通常用于验证大规模数据集的完整性和一致性。它的名字来源于其发明者 Ralph Merkle。Merkle 树在密码学、分布式系统和区块链等领域得到广泛应用,尤其在区块链中,它用于验证交易和区块的完整性,确保数据不被篡改。 下面是 Merk

何时使用Elasticsearch而不是MySql

MySQL 和 Elasticsearch 是两种不同的数据管理系统,它们各有优劣,适用于不同的场景。本文将从以下几个方面对它们进行比较和分析: - 数据模型 - 查询语言 - 索引和搜索 - 分布式和高可用 - 性能和扩展性 - 使用场景 ## 数据模型 MySQL 是一个关系型数据库管理系统(R

MemArts :高效解决存算分离架构中数据访问的组件

摘要:计算侧需要一个高速的缓存层来消除计算集群和OBS之间的数据访问鸿沟。为了解决这个问题,提出MemArts CC分布式客户端缓存。 本文分享自华为云社区《华为云全新缓存生态组件MemArts》,作者: MichaelYun。 公有云的基础设施都是基于存算分离的架构,即计算任务运行在计算集群的虚拟

KAFKA EAGLE 监控MRS kafka之操作实践

本文分享自华为云社区《KAFKA EAGLE 监控MRS kafka之操作实践》,作者: 啊喔YeYe 。 1.Kafka Eagle简介 Kafka eagle 是一款分布式、高可用的kafka监控软件,提供丰富的kafka监控指标,例如:Kafka集群的Broker数、Topic数、Consum

云图说|云数据库GaussDB如何做到卓越性能

摘要:对于数据库来说,性能一直被视为最关键的部分。GaussDB作为华为自主创新研发的分布式关系型数据库,那么华为云数据库GaussDB在提升数据库性能方面都有哪些黑科技呢? 本文分享自华为云社区《【云图说】第275期 云数据库GaussDB如何做到卓越性能》,作者:阅识风云。 对于数据库来说,性能

Kurator v0.3.0版本发布

摘要:2023年4月8日,Kurator正式发布v0.3.0版本。 本文分享自华为云社区《华为云 Kurator v0.3.0 版本发布!集群舰队助力分布式云统一管理》,作者:云容器大未来 。 2023年4月8日,Kurator正式发布v0.3.0版本。 Kurator 是华为云推出的分布式云原生开

再获殊荣!华为云GaussDB喜提“科技进步一等奖”

摘要:近日,中国电子学会科学技术奖励大会颁发了2021-2022年度中国电子学会科学技术奖获奖项目,华为云主导的“GaussDB智能云原生分布式数据库”项目荣获“科技进步一等奖”。 本文分享自华为云社区《再获殊荣!华为云GaussDB喜提“科技进步一等奖”》,作者:GaussDB 数据库 。 近日,

服务端应用多级缓存架构方案

## 一:场景 20w的QPS的场景下,服务端架构应如何设计? ## 二:常规解决方案 可使用分布式缓存来抗,比如redis集群,6主6从,主提供读写,从作为备,不提供读写服务。1台平均抗3w并发,还可以抗住,如果QPS达到100w,通过增加redis集群中的机器数量,可以扩展缓存的容量和并发读写能

深入探讨安全验证:OAuth2.0、Cookie与Session、JWT令牌、SSO与开放授权平台设计

这篇文章讨论了认证和授权的概念,并探讨了设计权限认证框架的原则。它还比较了Cookie和Session的区别,并探讨了处理分布式部署时的Session保存问题。此外,文章还介绍了CSRF攻击及其防范方法,以及OAuth2.0、JWT令牌和SSO的概念。最后,文章提出了设计开放授权平台时需要考虑的因素。

SparkCore

SparkCore RDD基础 定义 ​ 在 Spark 的编程接口中,每一个数据集都被表示为一个对象,称为 RDD。RDD 是 Resillient Distributed Dataset(弹性分布式数据集)的简称,是一个只读的(不可变的)、分区的(分布式的)、容错的、延迟计算的、类型推断的和可缓

.NET性能优化-是时候换个序列化协议了

计算机单机性能一直受到摩尔定律的约束,随着移动互联网的兴趣,单机性能不足的瓶颈越来越明显,制约着整个行业的发展。不过我们虽然不能无止境的纵向扩容系统,但是我们可以分布式、横向的扩容系统,这听起来非常的美好,不过也带来了今天要说明的问题,分布式的节点越多,通信产生的成本就越大。 网络传输带宽变得越来越

算法金 | 线性回归:不能忽视的五个问题

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 线性回归的理论依据是什么? 多重共线性是什么,它如何影响线性回归模型? 什么是自相关性,自相关性对线性回归有什么影响? 什么是异方差性,如何检测和处理异方差性? 训练数据与测试数据分布不

博客园众包平台:游戏开发者找人长期合作建设自己的网站

园子的众包平台目前已经召集了1500多合作开发者,这些合作开发者不仅能接单,还能带来单子,今天分享的这个单子就是来自其中一位合作开发者自己的需求。 这位合作开发者是资深游戏开发者,可以独立开发完整游戏产品,17年工作经验,擅长 .NET 与 Unity。通过近10年时间,目前已积累一套 DEF 分布

带团队后的日常思考(十五)

一、日常问题 1)CDN 异常 5 月中旬,发现图像异常的上报量比平时多了 10 多倍,日常 300 多,现在 4000 多。 但是看不到异常的错误码,不能确定是域名问题还是服务问题。还特地查看了错误分布的时间段,但并没有看出说明规律。 本来以为是证书的问题,因为正好那几天证书到期了,但是证书更新后

算法金 | 一个强大的算法模型,GP !!

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 高斯过程算法是一种强大的非参数机器学习方法,广泛应用于回归、分类和优化等任务中。其核心思想是利用高斯分布来描述数据的分布,通过核函数来度量数据之间的相似性。与传统的机器学习方法相比,高斯

NumPy 数组排序、过滤与随机数生成详解

本文介绍了NumPy中的数组排序和过滤功能。`np.sort()`函数用于对数组进行升序排序,对二维数组则按行排序。示例展示了如何对一维和二维数组排序。此外,还讲解了使用布尔索引来过滤数组,以及直接在条件中操作数组以创建过滤后的数组。最后,介绍了NumPy的随机数生成,包括整数、浮点数及特定分布的随...

[转帖]高并发系统中的尾延迟Tail Latency

开发和运维高并发系统的工程师可能都有过类似经验,明明系统已经调优完毕,该异步的异步,该减少互斥的地方引入无锁,该减少IO的地方更换引擎或者硬件,该调节内核的调节相应参数,然而,如果在系统中引入实时监控,总会有少量响应的延迟高于均值,我们把这些响应称为尾延迟(Tail Latency)。对于大规模分布