与#文本处理#相关的内容第3页 - PmDaddy

全部分类数据库前端云计算

潦草手写体也能轻松识别，快速提取文字不用愁

基于文本识别（OCR）技术的成熟与应用，日常生活中的大部分“印刷体识别”需求都能被满足，替代了人工信息录入与检测等操作，大大降低输入成本。而对于复杂的手写体识别需求，业界识别质量却参差不齐。大部分手写体存在字迹潦草，排版不固定，背景复杂，且不同的字体风格各异等问题，给手写体识别带来极大的挑战，不过

在线文本翻译能力新增14个直译模型，打造以中文为轴心语言的翻译系统

经济全球化的今天，人们在工作和生活中经常会与外语打交道。相较传播性较广的英语而言，其他语种的识别和阅读对大多数人来说是一件难事，此时就需要借助语言翻译软件来帮助理解。华为 HMS Core 机器学习服务（ML Kit）翻译功能提供了多种翻译模式，不仅可以满足应用出行购物、网络社交等日常场景，还提供

【matplotlib基础】--文本标注

Matplotlib 文本和标注可以为数据和图形之间提供额外的信息，帮助观察者更好地理解数据和图形的含义。文本用于在图形中添加注释或提供更详细的信息，以帮助观察者理解图形的含义。标注则是一种更加细粒度的文本信息，可以被用来为特定的数据点或区域提供更详细的信息。本篇通过示例依次介绍文本和标注的常用

OCR -- 文本检测

[TOC] [百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统预测部署简介与总览](https://www.cnblogs.com/vipsoft/p/17439619.html) [百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 Padd

OCR -- 文本检测 - 训练DB文字检测模型

PaddleOCR提供DB文本检测算法，支持MobileNetV3、ResNet50_vd两种骨干网络，可以根据需要选择相应的配置文件，启动训练。本节以icdar15数据集、MobileNetV3作为骨干网络的DB检测模型（即超轻量模型使用的配置）为例，介绍如何完成PaddleOCR中文字检测模型的训练、评估与测试。

OCR -- 文本识别 -- 实践篇

[OCR -- 文本识别 -- 理论篇](https://www.cnblogs.com/vipsoft/p/17445583.html) 本章将详细介绍如何基于PaddleOCR完成CRNN文本识别模型的搭建、训练、评估和预测。数据集采用 icdar 2015，其中训练集有4468张，测试集有20

多行文本转成一行的实现方法

哈喽大家好，我是咸鱼不知道你们有没有遇到过下面的情况，以我为例有时候我会收到批量操作服务器的需求，且我会拿到一个服务器 ip 列表，它是一个多行的形式，如下所示 ```bash # ip 列表 192.168.0.1 192.168.0.2 192.168.0.3 192.168.0.4 192

CSS文本，字体设置与元素边框，阴影，显示模式

什么是元素的显示模式网页中的标签很多，在不同的地方使用不同类型的标签。元素显示模式就是标签以什么方式进行显示。如：div自己占一行，span一行可以放多个。 HTML元素一般分为块元素和行内元素两种类型。块元素常见的块元素有： ~, , , ,

一周万星的文本转语音开源项目「GitHub 热点速览」

上周的热门开源项目让我想起了「图灵测试」，测试者在不知道对面是机器还是人类的前提下随意提问，最后根据对方回复的内容，判断与他们交谈的是人还是计算机。如果无法分辨出回答者是机器还是人类，则说明机器已通过测试，具有人类的智力水平。虽然现在大模型的回答还充满 AI “味”，可以一眼识破，但 GitHu

初探富文本之基于虚拟滚动的大型文档性能优化方案

初探富文本之基于虚拟滚动的大型文档性能优化方案虚拟滚动是一种优化长列表性能的技术，其通过按需渲染列表项来提高浏览器运行效率。具体来说，虚拟滚动只渲染用户浏览器视口部分的文档数据，而不是整个文档结构，其核心实现根据可见区域高度和容器的滚动位置计算出需要渲染的列表项，同时不渲染额外的视图内容。虚拟滚动

Python提取文本文件（.txt）数据的方法

本文介绍基于Python语言，遍历文件夹并从中找到文件名称符合我们需求的多个.txt格式文本文件，并从上述每一个文本文件中，找到我们需要的指定数据，最后得到所有文本文件中我们需要的数据的合集的方法~

Stable Diffusion中的embedding

嵌入，也称为文本反转，是在 Stable Diffusion 中控制图像样式的另一种方法。在这篇文章中，我们将学习什么是嵌入，在哪里可以找到它们，以及如何使用它们。

OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken

经过 Tokenize 之后，一串文本就变成了一串整数组成的向量。OpenAI 的 Tiktoken 是更高级的 Tokenizer ，编码效率更高、支持更大的词汇表、计算性能也更高。 OpenAI在其官方GitHub上公开了一个开源Python库：tiktoken，这个库主要是用力做字节编码对

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识（Automatic Speech Recognition，ASR）模型是被训练来运行语音辨识与

物以类聚人以群分,通过GensimLda文本聚类构建人工智能个性化推荐系统(Python3.10)

众所周知，个性化推荐系统能够根据用户的兴趣、偏好等信息向用户推荐相关内容，使得用户更感兴趣，从而提升用户体验，提高用户粘度，之前我们曾经使用协同过滤算法构建过个性化推荐系统，但基于显式反馈的算法就会有一定的局限性，本次我们使用无监督的Lda文本聚类方式来构建文本的个性化推荐系统。推荐算法:协同过滤

[转帖]19.awk报告生成器，文本解释器

在本博客中，AWK是一个系列文章，本人会尽量以通俗易懂的方式递进的总结awk命令的相关知识点。 awk系列博文直达链接：AWK命令总结之从放弃到入门我们先来用专业的术语描述一下awk是什么，如果你看不懂，没关系，我们会再用”大白话”解释一遍。 awk是一个报告生成器，它拥有强大的文本格式化的能力，

[转帖]Linux脚本-sed命令在文本首行和尾行插入空行

@Linux脚本-sed命令在文本首行和尾行插入空行 Linux脚本-sed命令在文本首行和尾行插入空行演示如下：首先创建需要操作的文本文件 //create a file containing string on ubuntu 20.04 terminal touch shell gedit

[转帖] jq实现json文本对比

原创：打码日记（微信公众号ID：codelogs），欢迎分享，转载请保留出处。简介# 近期，为了给一个核心系统减负，组内决定将一些调用量大的查询接口迁移到另一个系统，由于接口逻辑比较复杂，为了保证接口逻辑一致，我们决定将一周内的请求参数在两个接口重放，并用脚本校验两边接口的响应结果。接口返回数据是

[转帖] q命令-用SQL分析文本文件

https://www.cnblogs.com/codelogs/p/16060830.html 原创：打码日记（微信公众号ID：codelogs），欢迎分享，转载请保留出处。简介# 在Linux上分析文本文件时，一般会使用到grep、sed、awk、sort、uniq等命令，但这些命令都有一定的

[转帖]Linux系统awk命令详解

AWK 是一种处理文本文件的语言，是一个强大的文本分析工具。之所以叫 AWK 是因为其取了三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。实际上 AWK 的确拥有自己的语言： AWK程序设计语言，三位

# 热门排行

微软 New Bing AI 申请与使用保姆级教程（免魔法） ChatGPT API使用介绍 ChatGPT开发实战一篇带你了解如何使用纯前端类Excel表格构建现金流量表手把手教你玩转 Excel 数据透视表为什么 C# 可能是最好的第一编程语言 .NET 入门到高级路线提高工作效率的神器：基于前端表格实现Chrome Excel扩展插件 React + Springboot + Quartz，从0实现Excel报表自动化用Echarts实现前端表格引用从属关系可视化