【numpy基础】--数组过滤

在`numpy`中,数组可以看作是一系列数值的有序集合,可以通过下标访问其中的元素。处理数组的过程中,经常需要用到数组过滤功能。 过滤功能可以在处理数据时非常有用,因为它可以使数据更加干净和可读性更强。例如,在进行数据分析时,通常需要去除异常值,过滤掉不必要的元素可以使数据更加易于分析和处理。 `n

【pandas小技巧】--按类型选择列

本篇介绍的是`pandas`选择列数据的一个小技巧。之前已经介绍了很多选择列数据的方式,比如`loc`,`iloc`函数,按列名称选择,按条件选择等等。 这次介绍的是按照列的**数据类型**来选择列,按类型选择列可以帮助你快速选择正确的数据类型,提高数据分析的效率。 # 1. 类型种类 `panda

【matplotlib基础】--动画

matplotlib的动画一直是一个强大但使用频率不高的功能,究其原因,一方面展示动画需要一定的媒介,没有图形和文字展示方便;二来大家更关心的是分析结果的最终图表,图表的动态展示则没有那么重要。 不过,随着短视频的兴起,在短视频平台上展示动画变得非常容易,所以,我们发现有越来越多的数据分析动画(比如

有限覆盖定理与实数理论

《数学分析 I》第四次研讨课第三部分讲稿

NumPy 随机数据分布与 Seaborn 可视化详解

本文介绍了数据分布的概念,它是统计学和数据科学的基础,描述了数据可能出现的频率。NumPy的`random`模块支持生成不同分布的随机数,如`choice`用于离散分布,`randn`和`rand`等用于连续分布。此外,还介绍了数组的随机洗牌和排列。通过Seaborn库,可以创建统计图表,如`dis...

详解神经网络基础部件BN层

摘要:在深度神经网络训练的过程中,由于网络中参数变化而引起网络中间层数据分布发生变化的这一过程被称为内部协变量偏移(Internal Covariate Shift),而 BN 可以解决这个问题。 本文分享自华为云社区《神经网络基础部件-BN层详解》,作者:嵌入式视觉 。 一,数学基础 1.1,概率

分布式任务调度内的 MySQL 分页查询优化

本文主要通过图示介绍了用主键进行分片查询的过程,介绍了主键分页查询存在SQL性能问题,如何去创建高效的索引去优化主键分页查询的SQL性能问题。对于数据分布不均如何发现,提供了一些SQL查询案例来进行参考,对MySQL Index Condition Pushdown优化算法做了一些简单介绍。

关于泰勒展开拉格朗日余项中值点的渐进性

之前学拉格朗日中值定理的时候做到一道涉及到特定函数中值渐进性的题,感觉似乎有一般的结论,推广了一下就是这样了。 感谢刘导拯救 $n=1$ 都不会证的我,感谢王佬指出这是中科大《数学分析教程》第三版问题 4.3.1。 设函数 $f(x)$ 在区间 $I$ 上有 $n+1$ 阶导数,$x_0 \in I

关于数据库分库分表的一点想法

日常开发中,实现数据库的分库分表,在经常使用工具方面,常用的有像 sharding-sphere、TDDL、Mycat等,然后,根据主键key做数据分布

基于间隔密度的概念漂移检测算法mdm-DDM

概念漂移 ​ 概念漂移是数据流挖掘领域中一个重要的研究点。传统的机器学习算法在操作时通常假设数据是静态的,其数据分布不会随着时间发生变化。然而对于真实的数据流来说,由于数据流天生的时间性,到达的数据的分布可能会随着时间的推移不断改变。这使得传统的批处理模型不适合对数据流的进行挖掘分析,模型更是需要有

【matplotlib基础】--3D图形

matplotlib 在1.0版本之前其实是不支持3D图形绘制的。 后来的版本中,matplotlib加入了3D图形的支持,不仅仅是为了使数据的展示更加生动和有趣。更重要的是,由于多了一个维度,扩展了其展示数据分布和关系的能力,可以一次从三个维度来比较数据。 下面介绍在matplotlib中绘制各类

联邦学习:联邦场景下的域泛化

然而,目前大多数域泛化方法需要将不同领域的数据进行集中收集。然而在现实场景下,由于隐私性的考虑,数据常常是分布式收集的。因此我们需要考虑联邦域泛化(federated domain generalization, FedDG)方法。这里需要注意的是,传统的域泛化方法常常要求直接对齐表征或操作数据,这在联邦场景下是违反数据隐私性的。此外对于跨域的联邦学习,由于客户端异构的数据分布/领域漂移(如不同的

【数据集】Maple-IDS——网络安全恶意流量检测数据集

一、数据集介绍 Maple-IDS数据集是一个网络入侵检测评估数据集,旨在增强异常基础入侵检测系统(IDS)和入侵预防系统(IPS)的性能和可靠性。随着网络空间安全领域攻击的日益复杂化,拥有一个可靠和最新的数据集对于测试和验证IDS和IPS解决方案至关重要。 数据集由东北林业大学网络安全实验室发布,

数据血缘系列(3)—— 数据血缘可视化之美

大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。 本文我们详细探讨下数据血缘可视化是什么,该如何实现。并顺便对比一下Apache Atlas 、Datahub、Openmetadata、Marquez、SQLLineage、A

数据特征采样在 MySQL 同步一致性校验中的实践

作者:vivo 互联网存储研发团队 - Shang Yongxing 本文介绍了当前DTS应用中,MySQL数据同步使用到的数据一致性校验工具,并对它的实现思路进行分享。 一、背景 在 MySQL 的使用过程中,经常会因为如集群拆分、数据传输、数据聚合等原因产生流动和数据复制。而在通常的数据复制过程

(数据科学学习手札162)Python GIS神器geopandas 1.0版本发布

本文完整代码及附件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,就在昨天,Python生态中著名的GIS分析库geopandas发布了其1.0.0正式版本。 历经10年迭代升级,geopa

数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)

目录安装数据准备创建项目创建抽取式任务上传定义标签构建抽取式任务标签任务标注命名实体识别导出数据查看数据 命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体。在开放域信息抽取中,抽取的类别没有限制,用户可以自己定义。 安装 详见:数据标注工

数据标注工具 doccano | 文本分类(Text Classification)

目录安装运行 doccano打开 doccanno创建项目上传数据定义标签添加成员开始标注导出数据查看数据统计 数据标注工具 Label-Studio 安装 打开命令行(cmd、terminal)执行安装命令 # Python 3.8+ pip install doccano -i https://

数据库实验五:数据库编程

2、设计一个小型的数据库应用程序  可利用现有的数据库,也可重新设计数据库。  要求实现数据的增加、删除、修改、查询的功能。  在报告中描述清楚使用的数据库、数据表及实现的功能(要求截图,并附 代码) 设计一个小型的数据库应用程序 数据库名:student 表名:infor 字段: Sno:学

数据平台:企业数字化转型的加速器

企业数字化转型的基本路径 数字化转型是一个逐步发展的进程,它遵循着从计算机化到连接、透明化、预测和自适应的路径。在这一进程中,企业从传统工厂向透明工厂、智能工厂转变,实现工业4.0的目标。这一转变涉及人机环境料法的各个方面,包括现场管理、制造管理、运营管理等,旨在通过数据透明可视化和管理精益化,实现