1 00:00:00,000 --> 00:00:13,560 vamos a aprender a extraer texto de una imagen o de un pdf con max podemos encontrarnos con dos tipos 2 00:00:13,560 --> 00:00:20,760 de pdf el de la derecha es una imagen que se ha convertido a pdf y en ella no podemos seleccionar 3 00:00:20,760 --> 00:00:27,600 zonas en cambio el de la izquierda ha sido un texto que ha sido convertido a pdf y en él sí 4 00:00:27,600 --> 00:00:34,280 podemos seleccionar zonas vamos a aprender primero a cómo extraer el texto del pdf de la izquierda 5 00:00:34,280 --> 00:00:44,720 como se pueden seleccionar zonas vamos a editar seleccionar todo editar copiar abrimos libre 6 00:00:44,720 --> 00:00:53,640 office writer botón derecho pegado especial texto sin formato y allá tenemos el pdf pasado a texto 7 00:00:53,640 --> 00:00:59,480 donde ya nosotros podemos darle la forma que queramos una vez modificado ya podemos ir archivo 8 00:00:59,480 --> 00:01:07,680 y guardar como queramos como punto dt como pdf como queramos pero qué pasa en el segundo caso 9 00:01:07,680 --> 00:01:14,200 en ese caso en el que el pdf es como una imagen es más vamos a traer una imagen también que es 10 00:01:14,200 --> 00:01:21,120 una captura de pantalla en formato png de la web de en la en esta imagen se incluye un texto que 11 00:01:21,120 --> 00:01:27,280 tampoco podemos copiar ni pegar en estos casos tenemos que utilizar un programa de reconocimiento 12 00:01:27,280 --> 00:01:33,400 óptico de caracteres más conocido como ocr por defecto en max no viene instalado así que vamos 13 00:01:33,400 --> 00:01:40,400 a tener que instalarlo para el inicio sistema administración gestor de paquetes sinaptic 14 00:01:41,560 --> 00:01:47,240 escribimos la contraseña de administrador en la parte superior derecha pulsamos en 15 00:01:47,240 --> 00:01:57,760 buscar y vamos a buscar tres paquetes ocr feeder que es el programa y tseract-ocr y tseract-ocr-spa 16 00:01:57,760 --> 00:02:02,840 que son los diccionarios por decirlo así escribimos ocr-fi 17 00:02:04,960 --> 00:02:10,560 y ya nos aparece ahí ocr feeder yo ya lo tengo instalado vosotros tendréis que dar al botón 18 00:02:10,560 --> 00:02:20,040 derecho y marcar para instalar una vez marcado vais otra vez a buscar y vamos a buscar el 19 00:02:20,040 --> 00:02:22,880 siguiente paquete que es tseract-ocr 20 00:02:25,360 --> 00:02:32,440 buscamos y ahí nos aparece tseract-ocr yo ya lo tengo marcado vosotros tendréis que dar al 21 00:02:32,440 --> 00:02:39,760 botón derecho marcar para instalar y ya sólo nos queda el tercer paquete pulsamos en buscar y 22 00:02:39,760 --> 00:02:47,880 este tercer paquete era tseract-ocr-spa buscamos en buscar y ahí lo tenemos yo también lo tengo 23 00:02:47,880 --> 00:02:53,920 marcado vosotros os ponéis encima del paquete pulsáis el botón derecho del ratón y marcáis 24 00:02:53,920 --> 00:02:58,840 para instalar ahora hay que marcar en aplicar y aceptar todos los cambios en unos minutos ya 25 00:02:58,840 --> 00:03:06,400 tenemos instalado el programa por defecto este programa se instala en oficina y se llama ocr 26 00:03:06,400 --> 00:03:15,480 feeder lo abrimos vamos a ir a editar las preferencias y en herramientas vamos a indicarle 27 00:03:15,480 --> 00:03:22,160 que nuestro motor favorito tiene que ser tseract y aceptamos si no os aparece ahí tseract sólo 28 00:03:22,160 --> 00:03:29,680 os aparecen estos dos motores lo que tendréis que hacer primero será ir a herramientas motores 29 00:03:29,680 --> 00:03:35,960 ocr pulsar en detectar os detectará todos los motores que tenéis instalados en el sistema 30 00:03:35,960 --> 00:03:43,120 aparecerá tseract lo marcáis pulséis en añadir y se os añade mirar si yo lo dejo pulsado y le 31 00:03:43,120 --> 00:03:51,840 voy a añadir se me añade una segunda vez yo lo voy a eliminar una vez instalado vamos a editar 32 00:03:51,840 --> 00:03:56,440 preferencias como antes vamos a herramientas y comprobamos que el motor favorito es tseract y 33 00:03:56,440 --> 00:04:02,800 si no lo es lo marcamos y pulsamos en aceptar ya tenemos configurado el programa vamos a extraer 34 00:04:02,800 --> 00:04:08,440 primero el texto del documento pdf que estaba basado en una imagen tenemos que ir a archivo 35 00:04:08,440 --> 00:04:17,360 importar pdf lo buscamos en nuestro equipo y aceptamos ahí lo tenemos cargado ahora sólo 36 00:04:17,360 --> 00:04:25,520 tenemos que ir a documento identificar documento y ahí tenemos todas las partes que ha identificado 37 00:04:25,720 --> 00:04:30,800 a nosotros no nos interesa esta parte de la derecha ni el encabezado así que lo que vamos a hacer va 38 00:04:30,800 --> 00:04:38,520 a ser seleccionar una zona del documento vamos a ir a documento vamos a eliminar las áreas 39 00:04:38,520 --> 00:04:45,520 seleccionadas las eliminamos todas y ahora lo que vamos a hacer va a ser seleccionar el área que 40 00:04:45,520 --> 00:04:54,640 queremos que nos pase a texto sólo queremos esa zona a continuación comprobamos que el motor ocr 41 00:04:54,800 --> 00:05:02,360 que tenemos activado es el tseract si no lo fuera lo seleccionamos pulsamos en ocr y esperamos 42 00:05:03,920 --> 00:05:10,720 transcurridos unos segundos nos aparece ya el texto aquí abajo y podremos exportarlo vamos a ir al 43 00:05:10,720 --> 00:05:21,560 archivo y vamos a exportarlo nos ofrece diferentes formatos odt html pdf o texto plano vamos a probar 44 00:05:21,560 --> 00:05:31,160 cómo funciona con odt pulsamos en aceptar nos pide que le demos un nombre y guardamos vamos a ver cómo 45 00:05:31,160 --> 00:05:43,240 ha quedado lo abrimos ahí tenemos el texto que podemos ya modificar y editar o formatear como 46 00:05:43,240 --> 00:05:51,440 queramos y si en vez de un pdf fuera directamente una imagen formato png que hemos capturado de alguna 47 00:05:51,440 --> 00:05:59,400 página web pues exactamente igual vamos a archivo añadir imagen ahí tenemos la imagen que ha sido 48 00:05:59,400 --> 00:06:07,280 extraída de la página en bla directamente podemos marcar la zona que queramos reconocer 49 00:06:12,720 --> 00:06:17,000 activar el motor tseract y pinchar en ocr 50 00:06:18,000 --> 00:06:23,640 directamente en este cuadro de texto podríamos modificar la tipografía el tamaño de letra la 51 00:06:23,640 --> 00:06:31,000 alineación copiarlo directamente y pegarlo en algún sitio como hemos visto podemos ir a archivo 52 00:06:31,000 --> 00:06:41,320 exportar y en este caso vamos a exportar como pdf nos ofrece estas dos opciones en la segunda 53 00:06:41,320 --> 00:06:47,160 nos va a permitir que podamos buscar palabras dentro del pdf con el lector de pdfs que usemos 54 00:06:47,160 --> 00:06:53,320 y en la primera no nos va a dejar elegimos la que más nos convenga pulsamos en aceptar y se 55 00:06:53,320 --> 00:07:00,400 guarda un nombre y ahí lo tenemos grabado como prueba ocr en un pdf en realidad lo que más nos 56 00:07:00,400 --> 00:07:06,000 va a interesar es guardarlo como odt o texto plano para poder luego editarlo incluso podemos ir a 57 00:07:06,000 --> 00:07:11,040 archivo importar página desde el escáner y si tenemos conectado un escáner a nuestro equipo 58 00:07:11,040 --> 00:07:16,520 directamente escanea la página nos aparece en este programa y podremos extraer el texto 59 00:07:16,520 --> 00:07:21,640 una manera sencilla de extraer textos de imágenes o de pdfs