[转帖]010 Linux 文本统计与去重 (wc 和 uniq)

https://my.oschina.net/u/3113381/blog/5427461 wc 命令一般是作为组合命令的一员与其他命令一同起到统计的作用。而一般情况下使用 wc -l 命令较多。 uniq 可检查文本文件中重复出现的行,一般与 sort 命令结合使用。一起组合搭配使用完成统计、排序

【转帖】【奇技淫巧】Linux | 统计网络-netstat

theme: condensed-night-purple 小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。 在构建生产服务器时,我们有的时候需要统计网络接口状况,比如TCP、UDP端口开放的情况,这时我们需要用到netstat。 一、命令介绍 netstat命令最主要的功能是对网络信息进

[转帖]TiDB 数据库统计表的大小方法

简介:TiDB统计表的大小,列出了一些方法: 1、第一种的统计方式: 基于统计表 METRICS_SCHEMA.store_size_amplification 要预估 TiDB 中一张表的大小,你可以参考使用以下查询语句: SELECT db_name, table_name, ROUND(SUM

chatGPT初体验

chatGPT NLP技术,通过统计的手段模拟出更正确的答案。 他与以前的NLP不一样,他有上下文语义,他能够模拟场景,能够总结很多文章信息。 因此对于谷歌等搜索引擎就很有攻击性了,因为chatGPT能够自己做总结,有上下文语义等。再也不用看csdn哪些破文章抄来抄去浪费时间。还有就是对于问题的总结

探究Presto SQL引擎(4)-统计计数

本篇文章介绍了统计计数的基本原理以及Presto的实现思路,精确统计和近似统计的细节及各种优缺点,并给出了统计计数在具体业务使用的建议。

【pandas小技巧】--统计值作为新列

这次介绍的小技巧不是统计,而是把统计结果作为**新列**和原来的数据放在一起。`pandas`的各种统计功能之前已经介绍了不少,但是每次都是统计结果归统计结果,原始数据归原始数据,没有把它们合并在一个数据集中来观察。 下面通过两个场景示例来演示如果把统计值作为新列的数据。 # 1. 成绩统计的场景

prometheus Histogram 统计原理

大家好,我是蓝胖子,书接上文,我在[prometheus描点原理](https://mp.weixin.qq.com/s/5Y_pCPIJcRpIlqhdtb3XBw)那一篇文章里,留了一个思考题: 我们通常会用到histogram_quantile去计算服务接口时间的耗时情况。 ```shell

使用Java统计gitlab代码行数

一、背景: 需要对当前公司所有的项目进行代码行数的统计 二、 可实现方式 1.脚本:通过git脚本将所有的项目拉下来并然后通过进行代码行数的统计 样例: echo 创建项目对应的文件夹 mkdir 项目名称echo 切到创建的文件夹中 cd 项目名称echo 进行git初始化 git init ec

【pandas基础】--数据统计

在进行统计分析时,`pandas`提供了多种工具来帮助我们理解数据。 `pandas`提供了多个聚合函数,其中包括均值、标准差、最大值、最小值等等。 此外,`pandas`还可以进行基于列的统计分析,例如通过`groupby()`函数对数据进行聚合,并计算每组的统计分析结果。 除了基本的统计分析之外

DTSE Tech Talk 第18期丨统计信息大揭秘,数仓SQL执行优化之密钥

摘要:华为云EI DTSE技术布道师王跃,针对统计信息对于查询优化器的重要性,GaussDB(DWS)最新版本的analyze当前能力,与开发者和伙伴朋友们展开交流互动,帮助开发者快速上手使用统计信息的自动收集功能。 在本期《统计信息大揭秘——SQL执行优化之密钥》的主题直播中,我们邀请到华为云EI

算法金 | 统计学的回归和机器学习中的回归有什么差别?

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 统计学中的回归 目标: 主要用于解释和推断自变量(independent variables)和因变量(dependent variables)之间的关系。 强调模型的解释性,了解各个自

卡方分布和 Zipf 分布模拟及 Seaborn 可视化教程

卡方分布是统计学中的一种连续概率分布,用于假设检验,形状由自由度(df)决定。自由度越大,分布越平缓。NumPy的`random.chisquare()`可生成卡方分布随机数。Seaborn能可视化卡方分布。练习包括模拟不同自由度的卡方分布、进行卡方检验。瑞利分布描述信号处理中幅度分布,参数为尺度(...

【matplotlib 实战】--平行坐标系

平行坐标系是一种统计图表,它包含多个垂直平行的坐标轴,每个轴表示一个字段,并用刻度标明范围。通过在每个轴上找到数据点的落点,并将它们连接起来形成折线,可以很容易地展示多维数据。随着数据增多,折线会堆叠,分析者可以从中发现数据的特性和规律,比如发现数据之间的聚类关系。 尽管平行坐标系与折线图表面上看起

复杂度分析:如何分析、统计算法的执行效率和资源消耗

我们都知道,数据结构和算法本身解决的是“快”和“省”的问题,即如何让代码运行得更快,如何让代码更省存储空间。所以,执行效率是算法一个非常重要的考量指标。那如何来衡量你编写的算法代码的执行效率呢?这里就要用到我们今天要讲的内容:时间、空间复杂度分析。

【Clickhouse】ReplaceingMergeTree引擎final实现合并去重探索

为了保证统计数据的准确性,比如订单金额,一个常用的方法是在查询时增加final关键字。那final关键字是如何合并数据的,以及合并的数据范围是怎样的,本文就对此做一个简单的探索。

如何利用窗口函数实现精确排名计算?

前言 SQL语句中,聚合函数在统计业务数据结果时起到了重要作用,比如计算每个业务地区的业务总数、每个班级的学生平均分以及每个分类的最大值等。然而,今天小编将为大家介绍窗口函数,与聚合函数相比,它们也是一组函数,但在使用方法和适用场景上有所不同。在本章节中,我将重点介绍窗口函数中的RANK和DENSE

Elasticsearch如何聚合查询多个统计值,如何嵌套聚合?并相互引用,统计索引中某一个字段的空值率?语法是怎么样的?

Elasticsearch聚合查询是一种强大的工具,允许我们对索引中的数据进行复杂的统计分析和计算。本文将详细解释一个聚合查询示例,该查询用于统计满足特定条件的文档数量,并计算其占总文档数量的百分比。这里回会分享如何统计某个字段的空值率,然后扩展介绍ES的一些基础知识。

Python求取文件夹内的文件数量、子文件夹内的文件数量

本文介绍基于Python语言,统计文件夹中文件数量;若其含有子文件夹,还将对各子文件夹中的文件数量一并进行统计的方法~

[转帖]带宽与流量基本概念

一 带宽与流量基本概念 带宽:统计单位是比特/秒(bps),通常运营商提供的承诺(up to)一般为512Kbps,1Mbps,2Mbps等。 流量:客户上网发送和接收的数据量总和,常用统计单位为字节(Byte)。 二 换算关系 1Byte=8bits(1字节为8比特)因此: 1Byte/sec=8

[转帖]Linux 命令 —— ss 网络 Socket 统计工具

Linux 命令 —— ss 网络 Socket 统计工具 https://shockerli.net/post/linux-tool-ss/ 文章目录 命令格式 命令参数 应用实例 显示 socket 概况 列出所有监听的网络端口 显示 TCP 连接信息 ss 和 netstat 效率对比 参考资