Un pequeño script para descargar documentos de issuu.com y convertilos a pdf.
Para utilizarlo solo hay que navegar hasta el documento que queramos descargar, copiar la URL y pasarsela como argumento al script.
http://kurtsik.org/biltegia/issuudownload.zip
hola
podrias explicar los pasos para los q no tenemos ni idea de scrip´s.
para q sistema operativo?
gracias de antemano
Aupa Victor.
Es un script de bash, yo lo utilizo en linux desconozco si es posible usarlo en otros sistemas.
Hola:
“copiar la URL y pasarsela como argumento al script”
Ni p… idea tío. Puedes decirme exactamente dónde introduzco el documentID?
Gracias
Excelente, me funcionó; que bueno que me cambié a linux, por un momento pensé que era un script falso y que solo me la iba mal gastar con una broma.
Saludos.
Bueno, para JO.
la forma de ejecutarlo es asi, en una terminal escribes (sin comillas)
“./issuudownload.sh URLDEISSUUCONDOCUMENTOADESCARGAR”
por ejemplo
./issuudownload.sh http://issuu.com/franciscojaviercofre/docs/aplicaciones_de_bond_en_la_selecci_n_de_molinos
y con eso lo descarga y lo CONVIERTE a pdf, lo unico que podria ser malo es que convierte todo a imagen, pero al menos es una gran ayuda, es gratis y de buena voluntad.
eso si: debes instalar el paquete imagemagick desde los repositorios, para que convierta los archivos a pdf.
Bueno, y MUCHAS GRACIAS a kurtsik, me ha sacado de un gran problema
saludos a todos
Construye las paginas del PDF en desorden, pasa de la pagina 9 a la 100 y continua 101, 102, 103, … Después de la 109 pasa a la 10 y después 111, 112, 113, …
Intento bajar este archivo: http://issuu.com/dg2010/docs/no_solo_jpg
El problema de las paginas de PDF en desorden ocurre porque el comando que convierte y reúne las imágenes de extensión JPG en el archivo PDF, osea el comando “convert” lee las imágenes JPG en orden de nombre alfabético y no en orden de nombre numérico, igual ocurre con el comando de listado ls. Si se suma el número 10000 a la variable de nombre de los archivos de imágenes descargados, el orden alfabético de los nombres de archivo de imágenes JPG, corresponde también a el orden numérico.
Para solucionar el problema del orden de las paginas se eliminan, o se vuelven comentario las lineas 39,40,41,42,43, del script, o sea estas:
if [ "$KONT" -lt 10 ]; then
FILENAME=”0″$KONT
else
FILENAME=$KONT
fi
Después se añade en la línea a continuación de las líneas eliminadas anteriormente, la siguiente linea:
let “FILENAME=$KONT+10000″
Se guarda el archivo, se revisa que tenga permisos de ejecución y se ejecuta en una terminal estando en la ruta adecuada del archivo, ejemplo:
…$ ./issuudownload.sh http://issuu.com/dg2010/docs/no_solo_jpg
y voila!
El archivo queda así, bye:
#! /bin/bash
# Script para descargar los documentos de issuu.com como imagenes JPG
# y convertirlos a PDF.
# kurtsik-2011
#
TMP_DIR=”/tmp/issud/”
TMP_FILE=”issuufile”
KONT=1
I_MAGICK=0
TITLE=”"
if [ -z "$1" ]; then
echo “Script para descargar documentos de ISSUU”
echo “Usage: `basename $0` URL”
echo “”
exit 1
fi
if [ -z `which convert` ]; then
echo “”
echo “No esta disponible el comando convert.”
echo “El script puede continuar su ejecucion”
echo “pero no se creara el PDF.”
read -p “Continuar? (s/n)” RESPUESTA
if [ "$RESPUESTA" = "s" ]; then
I_MAGICK=1
else
exit 1
fi
fi
[ -e $TMP_DIR ] || mkdir $TMP_DIR
wget -q –output-document=$TMP_DIR$TMP_FILE $1
DOCID=`grep documentId $TMP_DIR$TMP_FILE | sed -e ‘s/.*documentId=//g’ | sed -e ‘s/”>//g’ | sed -e ‘s/ //g’`
TITLE=`grep “” $TMP_DIR$TMP_FILE | sed -e ‘s/.*//g’ | sed -e ‘s///g’ | sed -e ‘s/ //g’`
while [ 1 ]; do
# if [ "$KONT" -lt 10 ]; then
# FILENAME=”0″$KONT
# else
# FILENAME=$KONT
# fi
let “FILENAME=$KONT+10000″
wget -t 18 –wait=7 –random-wait –output-document=$TMP_DIR$FILENAME.jpg http://image.issuu.com/$DOCID/jpg/page_$KONT.jpg
if [ ! `file -b --mime-type $TMP_DIR$FILENAME.jpg` = "image/jpeg" ]; then
rm -f $TMP_DIR$FILENAME.jpg
let “KONT=$KONT-1″
break
fi
let “KONT=$KONT+1″
done
if [ "$KONT" = 0 ]; then
echo “No he podido descargar ningun fichero de imagen.”
echo “Verifica la URL que has introducido.”
exit 1
fi
echo “”
echo “Resumen:”
echo ” Descargados $KONT ficheros de imagen.”
if [ $I_MAGICK ]; then
convert $TMP_DIR*.jpg $TITLE.pdf
echo ” Creado el fichero: $TITLE.pdf”
rm -rf $TMP_DIR
else
rm -f $TMP_DIR$TMP_FILE
mv $TMP_DIR ./$TITLE
echo ” Creado el directorio $TITLE con los ficheros de imagen”
fi
echo ” Done”
exit 0
Muchas gracias Mr Rol
corrijo el script y lo vuelvo a subir
Hola,
Muchas gracias por el script. Me funcionó hace unos meses, pero parece que ahora falla. Me da “ERROR 403: Forbidden”. He intentado acceder con el navegador a image.issuu.com y también me da “AccessDenied”. ¿Puede ser que hayan cambiado algo en origen? ¿Se puede adaptar el script?
Muchas gracias,
Salu3
Kaixo,
Eskerrik asko por el script!
Parece que ISSUU ha realizado algún pequeño cambio en su código y ahora repiten el documentId dos veces. Eso es lo que provoca el error mencionado por superTro.
Para solucionarlo, lo más rápido es lo siguiente:
Ir a la línea 35 y añadir al ‘grep’ un “-m 1″. Lo cual hará que solamente se quede con la primera coincidencia encontrada…
DOCID=`grep -m 1 documentId $TMP_DIR$TMP_FILE | sed -e ‘s/.*documentId=//g’ | sed -e ‘s/”>//g’ | sed -e ‘s/ //g’`
Aupa Xabi.
Eskerrik asko!!!
Moldaketa gehitu dut eta primeran dabil.
Eskripta aldatuta eta igota.
——
He subido el script con la modificacion de Xabi y va perfectamente
Primeran kurtsik, hobekuntza gehiago egiten badizkiogu aipatuko