与#图像处理#相关的内容第5页 - PmDaddy

全部分类数据库前端云计算

碉堡！“万物皆可分”标记模型上线「GitHub 热点速览」

这周有个让人眼前一亮的图像识别模型 segment-anything，它能精细地框出所有可见物体，它标记出的物体边界线清晰可见。如此出色的模型，自然获得了不

OctConv：八度卷积复现

摘要：不同于传统的卷积，八度卷积主要针对图像的高频信号与低频信号。本文分享自华为云社区《OctConv：八度卷积复现》，作者：李长安。论文解读八度卷积于2019年在论文《Drop an Octave: Reducing Spatial Redundancy in Convolutional

Stable Diffusion AIGC：3步成为P图大师

摘要：instructPix2Pix文字编辑图片是一种纯文本编辑图像的方法，用户提供一张图片和文本编辑指令，告诉模型要做什么，模型根据编辑指令编辑输入的图像，最终输出用户想要的图像。本文分享自华为云社区《【云驻共创】Stable Diffusion AIGC限时0元！3步成为P图大师》，作者：香菜

ComfyUI进阶篇：ControlNet核心节点

前言： ControlNet_aux库包含大量的图片预处理节点，功能丰富，适用于图像分割、边缘检测、姿势检测、深度图处理等多种预处理方式。掌握这些节点的使用是利用ControlNet的关键，本篇文章将帮助您理解和学会使用这些节点。目录一、安装方法二、模型下载三、Segmentor节点四、L

R语言求取大量遥感影像的平均值、标准差：raster库

本文介绍基于R语言中的raster包，批量读取多张栅格图像，对多个栅格图像计算平均值、标准差，并将所得新的栅格结果图像保存的方法~

原来Stable Diffusion是这样工作的

stable diffusion是一种潜在扩散模型，可以从文本生成人工智能图像。为什么叫做潜在扩散模型呢？这是因为与在高维图像空间中操作不同，它首先将图像压缩到潜在空间中，然后再进行操作。在这篇文章中，我们将深入了解它到底是如何工作的,还能够知道文生图的工作方式与图生图的的工作方式有何不同？CFG

T2T-ViT：更多的局部结构信息，更高效的主干网络 | ICCV 2021

论文提出了T2T-ViT模型，引入tokens-to-token（T2T）模块有效地融合图像的结构信息，同时借鉴CNN结果设计了deep-narrow的ViT主干网络，增强特征的丰富性。在ImageNet上从零训练时，T2T-ViT取得了优于ResNets的性能MobileNets性能相当来源：晓

PaliGemma 正式发布 — Google 最新发布的前沿开放视觉语言模型

PaliGemma 是 Google 推出的新一代视觉语言模型家族，能够接收图像与文本输入并生成文本输出。 Google 团队已推出三种类型的模型：预训练（PT）模型、混合模型和微调（FT）模型，这些模型分辨率各异，提供多种精度以便使用。所有模型均在 Hugging Face Hub 的模型库中发

Python批量读取HDF多波段栅格数据并绘制像元直方图

本文介绍基于Python语言gdal模块，实现多波段HDF栅格图像文件的读取、处理与像元值可视化（直方图绘制）等操作~

HDF格式遥感影像批量转为TIFF格式：ArcPy实现

本文介绍基于Python中ArcPy模块，实现大量HDF格式栅格图像文件批量转换为TIFF格式的方法~

PreSTU：一个专门为场景文本理解而设计的简单预训练模型

摘要：在视觉与语言（V&L）模型中，阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解（STU）的V&L模型呢？本文分享自华为云社区《场景文本理解预训练PreSTU》，作者： Hint 。【论文摘要】在视觉与语言（V&L）模型中，阅读和推理图像中的文本的能力往往是缺

GPUImage框架使用

GPUImage框架简介 GPUImage框架是一个基于OpenGL ES 2.0的iOS图像和视频处理框架。它充分利用GPU并行计算能力可以实时处理图像和视频，可以让开发者轻松地实现各种滤镜效果。提供了GPUImageMovie、GPUImageCamera等实时视频输入处理类，方便开发者对实时

【译】使 Visual Studio 更加可视化

任何 Web、桌面或移动开发人员都经常使用图像。你可以从 C#、HTML、XAML、CSS、C++、VB、TypeScript 甚至代码注释中引用它们。有些图像是本地的，有些存在于线上或网络共享中，而其他图像可能仅以 base64 编码字符串的形式存在。我们在代码中以多种方式引用它们，但总是作为字符

Android无障碍自动化结合opencv实现支付宝能量自动收集

Android无障碍服务可以操作元素，手势模拟，实现基本的控制。opencv可以进行图像识别。两者结合在一起即可实现支付宝能量自动收集。opencv用于识别能量，无障碍服务用于模拟手势，即点击能量。当然这两者结合不单单只能实现这些，还能做很多自动化的程序，如芭芭农场自动施肥、蚂蚁庄园等等的自动化，

带团队后的日常思考（十五）

一、日常问题 1）CDN 异常 5 月中旬，发现图像异常的上报量比平时多了 10 多倍，日常 300 多，现在 4000 多。但是看不到异常的错误码，不能确定是域名问题还是服务问题。还特地查看了错误分布的时间段，但并没有看出说明规律。本来以为是证书的问题，因为正好那几天证书到期了，但是证书更新后

Chapter1 p2 vec

在上一小节中，我们完成了对BMPImage类的构建，成功实现了我们这个小小引擎的图像输出功能。你已经完成了图像输出了，接着就开始路径追踪吧。。。开个玩笑XD 对于曾经学习过一些图形学经典教材的人来说，下一步应当开始着手于画线算法了，但对于本文来说，肯定是要走一些不走寻常路的。所谓万事开头难，我

Idefics2 简介: 为社区而生的强大 8B 视觉语言模型

我们很高兴在此发布 Idefics2，这是一个通用的多模态模型，接受任意文本序列和图像序列作为输入，并据此生成文本。它可用于回答图像相关的问题、描述视觉内容、基于多幅图像创作故事、从文档中提取信息以及执行基本的算术运算。 Idefics2 由 Idefics1 改进而得，其参数量为 8B，具有开放许

计算机视觉五大核心研究任务全解：分类识别、检测分割、人体分析、三维视觉、视频分析

> 本篇文章深入探讨了计算视觉的定义和主要任务。内容涵盖了图像分类与识别、物体检测与分割、人体分析、三维计算机视觉、视频理解与分析等技术，最后展示了无监督学习与自监督学习在计算机视觉中的应用。 > 作者 TechLead，拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦

Python修改柱状图边缘柱子与图边界的距离

本文介绍基于Python中matplotlib.pyplot模块，修改柱状图、条形图最两侧的柱子与图像边缘之间距离的方法~

ArcMap镶嵌数据集的创建、数据导入与数据范围修改方法

本文介绍基于ArcMap软件，建立镶嵌数据集（Mosaic Datasets）、导入栅格图像数据，并调整像元数值范围的方法~

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化