Saltar navegación

Activa JavaScript para disfrutar de los vídeos de la Mediateca.

MAX 11.5: Extraer texto de imágenes y PDF con OCRfeeder

Ajuste de pantalla

El ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:

Subido el 21 de diciembre de 2022 por EducaMadrid

173 visualizaciones

Descargar la transcripción

vamos a aprender a extraer texto de una imagen o de un pdf con max podemos encontrarnos con dos tipos 00:00:00
de pdf el de la derecha es una imagen que se ha convertido a pdf y en ella no podemos seleccionar 00:00:13
zonas en cambio el de la izquierda ha sido un texto que ha sido convertido a pdf y en él sí 00:00:20
podemos seleccionar zonas vamos a aprender primero a cómo extraer el texto del pdf de la izquierda 00:00:27
como se pueden seleccionar zonas vamos a editar seleccionar todo editar copiar abrimos libre 00:00:34
office writer botón derecho pegado especial texto sin formato y allá tenemos el pdf pasado a texto 00:00:44
donde ya nosotros podemos darle la forma que queramos una vez modificado ya podemos ir archivo 00:00:53
y guardar como queramos como punto dt como pdf como queramos pero qué pasa en el segundo caso 00:00:59
en ese caso en el que el pdf es como una imagen es más vamos a traer una imagen también que es 00:01:07
una captura de pantalla en formato png de la web de en la en esta imagen se incluye un texto que 00:01:14
tampoco podemos copiar ni pegar en estos casos tenemos que utilizar un programa de reconocimiento 00:01:21
óptico de caracteres más conocido como ocr por defecto en max no viene instalado así que vamos 00:01:27
a tener que instalarlo para el inicio sistema administración gestor de paquetes sinaptic 00:01:33
escribimos la contraseña de administrador en la parte superior derecha pulsamos en 00:01:41
buscar y vamos a buscar tres paquetes ocr feeder que es el programa y tseract-ocr y tseract-ocr-spa 00:01:47
que son los diccionarios por decirlo así escribimos ocr-fi 00:01:57
y ya nos aparece ahí ocr feeder yo ya lo tengo instalado vosotros tendréis que dar al botón 00:02:04
derecho y marcar para instalar una vez marcado vais otra vez a buscar y vamos a buscar el 00:02:10
siguiente paquete que es tseract-ocr 00:02:20
buscamos y ahí nos aparece tseract-ocr yo ya lo tengo marcado vosotros tendréis que dar al 00:02:25
botón derecho marcar para instalar y ya sólo nos queda el tercer paquete pulsamos en buscar y 00:02:32
este tercer paquete era tseract-ocr-spa buscamos en buscar y ahí lo tenemos yo también lo tengo 00:02:39
marcado vosotros os ponéis encima del paquete pulsáis el botón derecho del ratón y marcáis 00:02:47
para instalar ahora hay que marcar en aplicar y aceptar todos los cambios en unos minutos ya 00:02:53
tenemos instalado el programa por defecto este programa se instala en oficina y se llama ocr 00:02:58
feeder lo abrimos vamos a ir a editar las preferencias y en herramientas vamos a indicarle 00:03:06
que nuestro motor favorito tiene que ser tseract y aceptamos si no os aparece ahí tseract sólo 00:03:15
os aparecen estos dos motores lo que tendréis que hacer primero será ir a herramientas motores 00:03:22
ocr pulsar en detectar os detectará todos los motores que tenéis instalados en el sistema 00:03:29
aparecerá tseract lo marcáis pulséis en añadir y se os añade mirar si yo lo dejo pulsado y le 00:03:35
voy a añadir se me añade una segunda vez yo lo voy a eliminar una vez instalado vamos a editar 00:03:43
preferencias como antes vamos a herramientas y comprobamos que el motor favorito es tseract y 00:03:51
si no lo es lo marcamos y pulsamos en aceptar ya tenemos configurado el programa vamos a extraer 00:03:56
primero el texto del documento pdf que estaba basado en una imagen tenemos que ir a archivo 00:04:02
importar pdf lo buscamos en nuestro equipo y aceptamos ahí lo tenemos cargado ahora sólo 00:04:08
tenemos que ir a documento identificar documento y ahí tenemos todas las partes que ha identificado 00:04:17
a nosotros no nos interesa esta parte de la derecha ni el encabezado así que lo que vamos a hacer va 00:04:25
a ser seleccionar una zona del documento vamos a ir a documento vamos a eliminar las áreas 00:04:30
seleccionadas las eliminamos todas y ahora lo que vamos a hacer va a ser seleccionar el área que 00:04:38
queremos que nos pase a texto sólo queremos esa zona a continuación comprobamos que el motor ocr 00:04:45
que tenemos activado es el tseract si no lo fuera lo seleccionamos pulsamos en ocr y esperamos 00:04:54
transcurridos unos segundos nos aparece ya el texto aquí abajo y podremos exportarlo vamos a ir al 00:05:03
archivo y vamos a exportarlo nos ofrece diferentes formatos odt html pdf o texto plano vamos a probar 00:05:10
cómo funciona con odt pulsamos en aceptar nos pide que le demos un nombre y guardamos vamos a ver cómo 00:05:21
ha quedado lo abrimos ahí tenemos el texto que podemos ya modificar y editar o formatear como 00:05:31
queramos y si en vez de un pdf fuera directamente una imagen formato png que hemos capturado de alguna 00:05:43
página web pues exactamente igual vamos a archivo añadir imagen ahí tenemos la imagen que ha sido 00:05:51
extraída de la página en bla directamente podemos marcar la zona que queramos reconocer 00:05:59
activar el motor tseract y pinchar en ocr 00:06:12
directamente en este cuadro de texto podríamos modificar la tipografía el tamaño de letra la 00:06:18
alineación copiarlo directamente y pegarlo en algún sitio como hemos visto podemos ir a archivo 00:06:23
exportar y en este caso vamos a exportar como pdf nos ofrece estas dos opciones en la segunda 00:06:31
nos va a permitir que podamos buscar palabras dentro del pdf con el lector de pdfs que usemos 00:06:41
y en la primera no nos va a dejar elegimos la que más nos convenga pulsamos en aceptar y se 00:06:47
guarda un nombre y ahí lo tenemos grabado como prueba ocr en un pdf en realidad lo que más nos 00:06:53
va a interesar es guardarlo como odt o texto plano para poder luego editarlo incluso podemos ir a 00:07:00
archivo importar página desde el escáner y si tenemos conectado un escáner a nuestro equipo 00:07:06
directamente escanea la página nos aparece en este programa y podremos extraer el texto 00:07:11
una manera sencilla de extraer textos de imágenes o de pdfs 00:07:16
Idioma/s:
es
Autor/es:
Daniel Esteban Roque
Subido por:
EducaMadrid
Licencia:
Reconocimiento - No comercial - Sin obra derivada
Visualizaciones:
173
Fecha:
21 de diciembre de 2022 - 19:24
Visibilidad:
Público
Duración:
07′ 37″
Relación de aspecto:
1.78:1
Resolución:
1920x1080 píxeles
Tamaño:
122.87 MBytes

Del mismo autor…

Ver más del mismo autor


EducaMadrid, Plataforma Educativa de la Comunidad de Madrid

Plataforma Educativa EducaMadrid