Activa JavaScript para disfrutar de los vídeos de la Mediateca.
MAX 11.5: Extraer texto de imágenes y PDF con OCRfeeder
Ajuste de pantallaEl ajuste de pantalla se aprecia al ver el vídeo en pantalla completa. Elige la presentación que más te guste:
vamos a aprender a extraer texto de una imagen o de un pdf con max podemos encontrarnos con dos tipos
00:00:00
de pdf el de la derecha es una imagen que se ha convertido a pdf y en ella no podemos seleccionar
00:00:13
zonas en cambio el de la izquierda ha sido un texto que ha sido convertido a pdf y en él sí
00:00:20
podemos seleccionar zonas vamos a aprender primero a cómo extraer el texto del pdf de la izquierda
00:00:27
como se pueden seleccionar zonas vamos a editar seleccionar todo editar copiar abrimos libre
00:00:34
office writer botón derecho pegado especial texto sin formato y allá tenemos el pdf pasado a texto
00:00:44
donde ya nosotros podemos darle la forma que queramos una vez modificado ya podemos ir archivo
00:00:53
y guardar como queramos como punto dt como pdf como queramos pero qué pasa en el segundo caso
00:00:59
en ese caso en el que el pdf es como una imagen es más vamos a traer una imagen también que es
00:01:07
una captura de pantalla en formato png de la web de en la en esta imagen se incluye un texto que
00:01:14
tampoco podemos copiar ni pegar en estos casos tenemos que utilizar un programa de reconocimiento
00:01:21
óptico de caracteres más conocido como ocr por defecto en max no viene instalado así que vamos
00:01:27
a tener que instalarlo para el inicio sistema administración gestor de paquetes sinaptic
00:01:33
escribimos la contraseña de administrador en la parte superior derecha pulsamos en
00:01:41
buscar y vamos a buscar tres paquetes ocr feeder que es el programa y tseract-ocr y tseract-ocr-spa
00:01:47
que son los diccionarios por decirlo así escribimos ocr-fi
00:01:57
y ya nos aparece ahí ocr feeder yo ya lo tengo instalado vosotros tendréis que dar al botón
00:02:04
derecho y marcar para instalar una vez marcado vais otra vez a buscar y vamos a buscar el
00:02:10
siguiente paquete que es tseract-ocr
00:02:20
buscamos y ahí nos aparece tseract-ocr yo ya lo tengo marcado vosotros tendréis que dar al
00:02:25
botón derecho marcar para instalar y ya sólo nos queda el tercer paquete pulsamos en buscar y
00:02:32
este tercer paquete era tseract-ocr-spa buscamos en buscar y ahí lo tenemos yo también lo tengo
00:02:39
marcado vosotros os ponéis encima del paquete pulsáis el botón derecho del ratón y marcáis
00:02:47
para instalar ahora hay que marcar en aplicar y aceptar todos los cambios en unos minutos ya
00:02:53
tenemos instalado el programa por defecto este programa se instala en oficina y se llama ocr
00:02:58
feeder lo abrimos vamos a ir a editar las preferencias y en herramientas vamos a indicarle
00:03:06
que nuestro motor favorito tiene que ser tseract y aceptamos si no os aparece ahí tseract sólo
00:03:15
os aparecen estos dos motores lo que tendréis que hacer primero será ir a herramientas motores
00:03:22
ocr pulsar en detectar os detectará todos los motores que tenéis instalados en el sistema
00:03:29
aparecerá tseract lo marcáis pulséis en añadir y se os añade mirar si yo lo dejo pulsado y le
00:03:35
voy a añadir se me añade una segunda vez yo lo voy a eliminar una vez instalado vamos a editar
00:03:43
preferencias como antes vamos a herramientas y comprobamos que el motor favorito es tseract y
00:03:51
si no lo es lo marcamos y pulsamos en aceptar ya tenemos configurado el programa vamos a extraer
00:03:56
primero el texto del documento pdf que estaba basado en una imagen tenemos que ir a archivo
00:04:02
importar pdf lo buscamos en nuestro equipo y aceptamos ahí lo tenemos cargado ahora sólo
00:04:08
tenemos que ir a documento identificar documento y ahí tenemos todas las partes que ha identificado
00:04:17
a nosotros no nos interesa esta parte de la derecha ni el encabezado así que lo que vamos a hacer va
00:04:25
a ser seleccionar una zona del documento vamos a ir a documento vamos a eliminar las áreas
00:04:30
seleccionadas las eliminamos todas y ahora lo que vamos a hacer va a ser seleccionar el área que
00:04:38
queremos que nos pase a texto sólo queremos esa zona a continuación comprobamos que el motor ocr
00:04:45
que tenemos activado es el tseract si no lo fuera lo seleccionamos pulsamos en ocr y esperamos
00:04:54
transcurridos unos segundos nos aparece ya el texto aquí abajo y podremos exportarlo vamos a ir al
00:05:03
archivo y vamos a exportarlo nos ofrece diferentes formatos odt html pdf o texto plano vamos a probar
00:05:10
cómo funciona con odt pulsamos en aceptar nos pide que le demos un nombre y guardamos vamos a ver cómo
00:05:21
ha quedado lo abrimos ahí tenemos el texto que podemos ya modificar y editar o formatear como
00:05:31
queramos y si en vez de un pdf fuera directamente una imagen formato png que hemos capturado de alguna
00:05:43
página web pues exactamente igual vamos a archivo añadir imagen ahí tenemos la imagen que ha sido
00:05:51
extraída de la página en bla directamente podemos marcar la zona que queramos reconocer
00:05:59
activar el motor tseract y pinchar en ocr
00:06:12
directamente en este cuadro de texto podríamos modificar la tipografía el tamaño de letra la
00:06:18
alineación copiarlo directamente y pegarlo en algún sitio como hemos visto podemos ir a archivo
00:06:23
exportar y en este caso vamos a exportar como pdf nos ofrece estas dos opciones en la segunda
00:06:31
nos va a permitir que podamos buscar palabras dentro del pdf con el lector de pdfs que usemos
00:06:41
y en la primera no nos va a dejar elegimos la que más nos convenga pulsamos en aceptar y se
00:06:47
guarda un nombre y ahí lo tenemos grabado como prueba ocr en un pdf en realidad lo que más nos
00:06:53
va a interesar es guardarlo como odt o texto plano para poder luego editarlo incluso podemos ir a
00:07:00
archivo importar página desde el escáner y si tenemos conectado un escáner a nuestro equipo
00:07:06
directamente escanea la página nos aparece en este programa y podremos extraer el texto
00:07:11
una manera sencilla de extraer textos de imágenes o de pdfs
00:07:16
- Idioma/s:
- Autor/es:
- Daniel Esteban Roque
- Subido por:
- EducaMadrid
- Licencia:
- Reconocimiento - No comercial - Sin obra derivada
- Visualizaciones:
- 173
- Fecha:
- 21 de diciembre de 2022 - 19:24
- Visibilidad:
- Público
- Duración:
- 07′ 37″
- Relación de aspecto:
- 1.78:1
- Resolución:
- 1920x1080 píxeles
- Tamaño:
- 122.87 MBytes