Activa JavaScript para disfrutar de los vídeos de la Mediateca.

MAX 11.5: Extraer texto de imágenes y PDF con OCRfeeder

Ajuste de pantalla

El ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:

Subido el 21 de diciembre de 2022 por EducaMadrid

184 visualizaciones

Más información Transcripción

Descargar la transcripción

vamos a aprender a extraer texto de una imagen o de un pdf con max podemos encontrarnos con dos tipos 00:00:00

de pdf el de la derecha es una imagen que se ha convertido a pdf y en ella no podemos seleccionar 00:00:13

zonas en cambio el de la izquierda ha sido un texto que ha sido convertido a pdf y en él sí 00:00:20

podemos seleccionar zonas vamos a aprender primero a cómo extraer el texto del pdf de la izquierda 00:00:27

como se pueden seleccionar zonas vamos a editar seleccionar todo editar copiar abrimos libre 00:00:34

office writer botón derecho pegado especial texto sin formato y allá tenemos el pdf pasado a texto 00:00:44

donde ya nosotros podemos darle la forma que queramos una vez modificado ya podemos ir archivo 00:00:53

y guardar como queramos como punto dt como pdf como queramos pero qué pasa en el segundo caso 00:00:59

en ese caso en el que el pdf es como una imagen es más vamos a traer una imagen también que es 00:01:07

una captura de pantalla en formato png de la web de en la en esta imagen se incluye un texto que 00:01:14

tampoco podemos copiar ni pegar en estos casos tenemos que utilizar un programa de reconocimiento 00:01:21

óptico de caracteres más conocido como ocr por defecto en max no viene instalado así que vamos 00:01:27

a tener que instalarlo para el inicio sistema administración gestor de paquetes sinaptic 00:01:33

escribimos la contraseña de administrador en la parte superior derecha pulsamos en 00:01:41

buscar y vamos a buscar tres paquetes ocr feeder que es el programa y tseract-ocr y tseract-ocr-spa 00:01:47

que son los diccionarios por decirlo así escribimos ocr-fi 00:01:57

y ya nos aparece ahí ocr feeder yo ya lo tengo instalado vosotros tendréis que dar al botón 00:02:04

derecho y marcar para instalar una vez marcado vais otra vez a buscar y vamos a buscar el 00:02:10

siguiente paquete que es tseract-ocr 00:02:20

buscamos y ahí nos aparece tseract-ocr yo ya lo tengo marcado vosotros tendréis que dar al 00:02:25

botón derecho marcar para instalar y ya sólo nos queda el tercer paquete pulsamos en buscar y 00:02:32

este tercer paquete era tseract-ocr-spa buscamos en buscar y ahí lo tenemos yo también lo tengo 00:02:39

marcado vosotros os ponéis encima del paquete pulsáis el botón derecho del ratón y marcáis 00:02:47

para instalar ahora hay que marcar en aplicar y aceptar todos los cambios en unos minutos ya 00:02:53

tenemos instalado el programa por defecto este programa se instala en oficina y se llama ocr 00:02:58

feeder lo abrimos vamos a ir a editar las preferencias y en herramientas vamos a indicarle 00:03:06

que nuestro motor favorito tiene que ser tseract y aceptamos si no os aparece ahí tseract sólo 00:03:15

os aparecen estos dos motores lo que tendréis que hacer primero será ir a herramientas motores 00:03:22

ocr pulsar en detectar os detectará todos los motores que tenéis instalados en el sistema 00:03:29

aparecerá tseract lo marcáis pulséis en añadir y se os añade mirar si yo lo dejo pulsado y le 00:03:35

voy a añadir se me añade una segunda vez yo lo voy a eliminar una vez instalado vamos a editar 00:03:43

preferencias como antes vamos a herramientas y comprobamos que el motor favorito es tseract y 00:03:51

si no lo es lo marcamos y pulsamos en aceptar ya tenemos configurado el programa vamos a extraer 00:03:56

primero el texto del documento pdf que estaba basado en una imagen tenemos que ir a archivo 00:04:02

importar pdf lo buscamos en nuestro equipo y aceptamos ahí lo tenemos cargado ahora sólo 00:04:08

tenemos que ir a documento identificar documento y ahí tenemos todas las partes que ha identificado 00:04:17

a nosotros no nos interesa esta parte de la derecha ni el encabezado así que lo que vamos a hacer va 00:04:25

a ser seleccionar una zona del documento vamos a ir a documento vamos a eliminar las áreas 00:04:30

seleccionadas las eliminamos todas y ahora lo que vamos a hacer va a ser seleccionar el área que 00:04:38

queremos que nos pase a texto sólo queremos esa zona a continuación comprobamos que el motor ocr 00:04:45

que tenemos activado es el tseract si no lo fuera lo seleccionamos pulsamos en ocr y esperamos 00:04:54

transcurridos unos segundos nos aparece ya el texto aquí abajo y podremos exportarlo vamos a ir al 00:05:03

archivo y vamos a exportarlo nos ofrece diferentes formatos odt html pdf o texto plano vamos a probar 00:05:10

cómo funciona con odt pulsamos en aceptar nos pide que le demos un nombre y guardamos vamos a ver cómo 00:05:21

ha quedado lo abrimos ahí tenemos el texto que podemos ya modificar y editar o formatear como 00:05:31

queramos y si en vez de un pdf fuera directamente una imagen formato png que hemos capturado de alguna 00:05:43

página web pues exactamente igual vamos a archivo añadir imagen ahí tenemos la imagen que ha sido 00:05:51

extraída de la página en bla directamente podemos marcar la zona que queramos reconocer 00:05:59

activar el motor tseract y pinchar en ocr 00:06:12

directamente en este cuadro de texto podríamos modificar la tipografía el tamaño de letra la 00:06:18

alineación copiarlo directamente y pegarlo en algún sitio como hemos visto podemos ir a archivo 00:06:23

exportar y en este caso vamos a exportar como pdf nos ofrece estas dos opciones en la segunda 00:06:31

nos va a permitir que podamos buscar palabras dentro del pdf con el lector de pdfs que usemos 00:06:41

y en la primera no nos va a dejar elegimos la que más nos convenga pulsamos en aceptar y se 00:06:47

guarda un nombre y ahí lo tenemos grabado como prueba ocr en un pdf en realidad lo que más nos 00:06:53

va a interesar es guardarlo como odt o texto plano para poder luego editarlo incluso podemos ir a 00:07:00

archivo importar página desde el escáner y si tenemos conectado un escáner a nuestro equipo 00:07:06

directamente escanea la página nos aparece en este programa y podremos extraer el texto 00:07:11

una manera sencilla de extraer textos de imágenes o de pdfs 00:07:16

Idioma/s:
Autor/es:: Daniel Esteban Roque
Subido por:: EducaMadrid
Licencia:: Reconocimiento - No comercial - Sin obra derivada
Visualizaciones:: 184
Fecha:: 21 de diciembre de 2022 - 19:24
Visibilidad:: Público
Duración:: 07′ 37″
Relación de aspecto:: 1.78:1
Resolución:: 1920x1080 píxeles
Tamaño:: 122.87 MBytes

Del mismo autor…

CiberJueves: Elisa Alises "Dos años, mil retos: una historia real de crecimiento en Ciberseguridad
subido por EducaMadrid 1h 29′ 26″ - hace 8 meses - 113 visualizaciones
Ciberconsejos de EducaMadrid: fuga de datos
subido por EducaMadrid 02′ 42″ - hace 9 meses - 677 visualizaciones
Ciberconsejos de EducaMadrid: ransomware
subido por EducaMadrid 01′ 36″ - hace 9 meses - 380 visualizaciones
Comparti2 para profesores
subido por EducaMadrid 05′ 37″ - hace 12 meses - 122 visualizaciones
Comparti2 para alumnos
subido por EducaMadrid 04′ 44″ - hace 12 meses - 132 visualizaciones
EMPieza: modificar la composición de un grupo
subido por EducaMadrid 02′ 17″ - hace 12 meses - 43 visualizaciones
Gestión de usuarios en EducaMadrid
subido por EducaMadrid 01′ 33″ - hace 12 meses - 611 visualizaciones

Ver más del mismo autor

MAX 11.5: Extraer texto de imágenes y PDF con OCRfeeder

Del mismo autor…

CiberJueves: Elisa Alises "Dos años, mil retos: una historia real de crecimiento en Ciberseguridad

Ciberconsejos de EducaMadrid: fuga de datos

Ciberconsejos de EducaMadrid: ransomware

Comparti2 para profesores

Comparti2 para alumnos

EMPieza: modificar la composición de un grupo

Gestión de usuarios en EducaMadrid