1
00:00:00,000 --> 00:00:13,560
vamos a aprender a extraer texto de una imagen o de un pdf con max podemos encontrarnos con dos tipos

2
00:00:13,560 --> 00:00:20,760
de pdf el de la derecha es una imagen que se ha convertido a pdf y en ella no podemos seleccionar

3
00:00:20,760 --> 00:00:27,600
zonas en cambio el de la izquierda ha sido un texto que ha sido convertido a pdf y en él sí

4
00:00:27,600 --> 00:00:34,280
podemos seleccionar zonas vamos a aprender primero a cómo extraer el texto del pdf de la izquierda

5
00:00:34,280 --> 00:00:44,720
como se pueden seleccionar zonas vamos a editar seleccionar todo editar copiar abrimos libre

6
00:00:44,720 --> 00:00:53,640
office writer botón derecho pegado especial texto sin formato y allá tenemos el pdf pasado a texto

7
00:00:53,640 --> 00:00:59,480
donde ya nosotros podemos darle la forma que queramos una vez modificado ya podemos ir archivo

8
00:00:59,480 --> 00:01:07,680
y guardar como queramos como punto dt como pdf como queramos pero qué pasa en el segundo caso

9
00:01:07,680 --> 00:01:14,200
en ese caso en el que el pdf es como una imagen es más vamos a traer una imagen también que es

10
00:01:14,200 --> 00:01:21,120
una captura de pantalla en formato png de la web de en la en esta imagen se incluye un texto que

11
00:01:21,120 --> 00:01:27,280
tampoco podemos copiar ni pegar en estos casos tenemos que utilizar un programa de reconocimiento

12
00:01:27,280 --> 00:01:33,400
óptico de caracteres más conocido como ocr por defecto en max no viene instalado así que vamos

13
00:01:33,400 --> 00:01:40,400
a tener que instalarlo para el inicio sistema administración gestor de paquetes sinaptic

14
00:01:41,560 --> 00:01:47,240
escribimos la contraseña de administrador en la parte superior derecha pulsamos en

15
00:01:47,240 --> 00:01:57,760
buscar y vamos a buscar tres paquetes ocr feeder que es el programa y tseract-ocr y tseract-ocr-spa

16
00:01:57,760 --> 00:02:02,840
que son los diccionarios por decirlo así escribimos ocr-fi

17
00:02:04,960 --> 00:02:10,560
y ya nos aparece ahí ocr feeder yo ya lo tengo instalado vosotros tendréis que dar al botón

18
00:02:10,560 --> 00:02:20,040
derecho y marcar para instalar una vez marcado vais otra vez a buscar y vamos a buscar el

19
00:02:20,040 --> 00:02:22,880
siguiente paquete que es tseract-ocr

20
00:02:25,360 --> 00:02:32,440
buscamos y ahí nos aparece tseract-ocr yo ya lo tengo marcado vosotros tendréis que dar al

21
00:02:32,440 --> 00:02:39,760
botón derecho marcar para instalar y ya sólo nos queda el tercer paquete pulsamos en buscar y

22
00:02:39,760 --> 00:02:47,880
este tercer paquete era tseract-ocr-spa buscamos en buscar y ahí lo tenemos yo también lo tengo

23
00:02:47,880 --> 00:02:53,920
marcado vosotros os ponéis encima del paquete pulsáis el botón derecho del ratón y marcáis

24
00:02:53,920 --> 00:02:58,840
para instalar ahora hay que marcar en aplicar y aceptar todos los cambios en unos minutos ya

25
00:02:58,840 --> 00:03:06,400
tenemos instalado el programa por defecto este programa se instala en oficina y se llama ocr

26
00:03:06,400 --> 00:03:15,480
feeder lo abrimos vamos a ir a editar las preferencias y en herramientas vamos a indicarle

27
00:03:15,480 --> 00:03:22,160
que nuestro motor favorito tiene que ser tseract y aceptamos si no os aparece ahí tseract sólo

28
00:03:22,160 --> 00:03:29,680
os aparecen estos dos motores lo que tendréis que hacer primero será ir a herramientas motores

29
00:03:29,680 --> 00:03:35,960
ocr pulsar en detectar os detectará todos los motores que tenéis instalados en el sistema

30
00:03:35,960 --> 00:03:43,120
aparecerá tseract lo marcáis pulséis en añadir y se os añade mirar si yo lo dejo pulsado y le

31
00:03:43,120 --> 00:03:51,840
voy a añadir se me añade una segunda vez yo lo voy a eliminar una vez instalado vamos a editar

32
00:03:51,840 --> 00:03:56,440
preferencias como antes vamos a herramientas y comprobamos que el motor favorito es tseract y

33
00:03:56,440 --> 00:04:02,800
si no lo es lo marcamos y pulsamos en aceptar ya tenemos configurado el programa vamos a extraer

34
00:04:02,800 --> 00:04:08,440
primero el texto del documento pdf que estaba basado en una imagen tenemos que ir a archivo

35
00:04:08,440 --> 00:04:17,360
importar pdf lo buscamos en nuestro equipo y aceptamos ahí lo tenemos cargado ahora sólo

36
00:04:17,360 --> 00:04:25,520
tenemos que ir a documento identificar documento y ahí tenemos todas las partes que ha identificado

37
00:04:25,720 --> 00:04:30,800
a nosotros no nos interesa esta parte de la derecha ni el encabezado así que lo que vamos a hacer va

38
00:04:30,800 --> 00:04:38,520
a ser seleccionar una zona del documento vamos a ir a documento vamos a eliminar las áreas

39
00:04:38,520 --> 00:04:45,520
seleccionadas las eliminamos todas y ahora lo que vamos a hacer va a ser seleccionar el área que

40
00:04:45,520 --> 00:04:54,640
queremos que nos pase a texto sólo queremos esa zona a continuación comprobamos que el motor ocr

41
00:04:54,800 --> 00:05:02,360
que tenemos activado es el tseract si no lo fuera lo seleccionamos pulsamos en ocr y esperamos

42
00:05:03,920 --> 00:05:10,720
transcurridos unos segundos nos aparece ya el texto aquí abajo y podremos exportarlo vamos a ir al

43
00:05:10,720 --> 00:05:21,560
archivo y vamos a exportarlo nos ofrece diferentes formatos odt html pdf o texto plano vamos a probar

44
00:05:21,560 --> 00:05:31,160
cómo funciona con odt pulsamos en aceptar nos pide que le demos un nombre y guardamos vamos a ver cómo

45
00:05:31,160 --> 00:05:43,240
ha quedado lo abrimos ahí tenemos el texto que podemos ya modificar y editar o formatear como

46
00:05:43,240 --> 00:05:51,440
queramos y si en vez de un pdf fuera directamente una imagen formato png que hemos capturado de alguna

47
00:05:51,440 --> 00:05:59,400
página web pues exactamente igual vamos a archivo añadir imagen ahí tenemos la imagen que ha sido

48
00:05:59,400 --> 00:06:07,280
extraída de la página en bla directamente podemos marcar la zona que queramos reconocer

49
00:06:12,720 --> 00:06:17,000
activar el motor tseract y pinchar en ocr

50
00:06:18,000 --> 00:06:23,640
directamente en este cuadro de texto podríamos modificar la tipografía el tamaño de letra la

51
00:06:23,640 --> 00:06:31,000
alineación copiarlo directamente y pegarlo en algún sitio como hemos visto podemos ir a archivo

52
00:06:31,000 --> 00:06:41,320
exportar y en este caso vamos a exportar como pdf nos ofrece estas dos opciones en la segunda

53
00:06:41,320 --> 00:06:47,160
nos va a permitir que podamos buscar palabras dentro del pdf con el lector de pdfs que usemos

54
00:06:47,160 --> 00:06:53,320
y en la primera no nos va a dejar elegimos la que más nos convenga pulsamos en aceptar y se

55
00:06:53,320 --> 00:07:00,400
guarda un nombre y ahí lo tenemos grabado como prueba ocr en un pdf en realidad lo que más nos

56
00:07:00,400 --> 00:07:06,000
va a interesar es guardarlo como odt o texto plano para poder luego editarlo incluso podemos ir a

57
00:07:06,000 --> 00:07:11,040
archivo importar página desde el escáner y si tenemos conectado un escáner a nuestro equipo

58
00:07:11,040 --> 00:07:16,520
directamente escanea la página nos aparece en este programa y podremos extraer el texto

59
00:07:16,520 --> 00:07:21,640
una manera sencilla de extraer textos de imágenes o de pdfs