henry_flower: A melancholy wolf (Default)
henry_flower ([personal profile] henry_flower) wrote2017-08-11 11:29 pm

Redacting a pdf

Тато спитав як йому "замазати" кілька рядків у 12 pdf'ах, які він з гріхом навпіл зробив через сканування Важливих Документів. Тобто кожен pdf там є набір зображень, без OCR'у.

Я сказав йому відправити мені 1 pdf по email та кинув трубку.

Самостійно редагувати 12 pdf я бажання не мав, тому проста порада зробити:

$ pdfimages -j input.pdf hello

(gimp)

$ convert hello-*.jpg output.pdf

була непридатною, бо ніяким лайнуксом або сігвеном тато користуватися не вміє. Тоді я згадав про foxit pdf editor і навіть знайшов у себе якусь його замшілу версію 2010 року.

Коротке ревью: єто піздєц.

Т.я. єдині доступні об'єкти у тих pdf--зображення, ніякі стандартні інструменти не працюють, але є опція edit image. Олрайт. Інтерфейс у тієї версії foxit'а--класичний 1990s style MDI. Опція edit image відкриває новий "документ", з'являються нові тулбари, тощо. Ніякої підказки типу "Гей придурок! Дивись на меню з назвою Windows!" щоб перемикнути назад до основного pdf'у нема. То я знаю що таке MDI, бо колись у школі грався з MS Visial Studio C++, а як про це здогадуються звичайні користувачі?

Гаразд, редагую зображення, клацаю Save, переключаюся на основний документ--змін у pdf'і нема. Huh? Виявляється, кнопка Save ніхуя не робить. Щоб зробити сейв, треба акуратно закрити image document (не pdf!), тоді foxit спитає "зберегти?".

Поліз на сайт foxit за новою версією, гадаючи що напевно з 2010 року якісь баги були виправлені. Виявляється, вони повність переписали отой едітор і назвали його phantompdf. Той ідішн, що мені потрібен (який, якщо вірити сайту, вміє редагувати images) коштує $139, але є a trial версія! (Щоб її скачати питають email, але підходить me@example.com.) Олрайт.

Коротке ревью: єто піздєц.

Замість MDI--TDI та пиздуватий ribbon інтерфейс "драстуй новий 2007й рік".

На 1й погляд схема така ж сама: edit image, але в "оновленій" версії нема cut та delete. Copy--є. Тобто у foxit pdf editor можна було виділити прямокутник, нажати delete і область зафарбовувалась у поточний bg color, але наполягати на такій складній функції за $139, це теж саме як мріяти про 4x4 в an urban car.

Тоді я поліз на https://en.wikipedia.org/wiki/List_of_PDF_software, і згадав про OpenOffce.

Коротке ревью: єто піздєц.

Pdf (після встановлення спеціяльного плагіну) воно відкриває indeed, але можливості відредагувати зображення там нема, якщо не рахувати змін кольору та форми.

Скачав останню версію Scribus.

Коротке ревью: єто піздєц.

Редагування зображень воно делегує gimp'у (записує png у tmp file, який тоді відкриває гімп), що звучить вкрай логічно, але зрадів я марно, тому що коли у гімпі клацаєш overwrite, скрайбас (скріб'юс?) лякається і каже що tmp файла нема, коли він є. Колупання вручну у декількох діалогах, щоб знайти той tmp file (після кожної його зміни) можливе, але дуже нудне і довге.

Скачав trial версію якоїсь PDF Studio.

Коротке ревью: єто піздєц.

Можливості редагувань зображень нема, але є функція "redacting"! Олрайт. Інтерфейс цієї фічі зроблено так, що якщо забути зробити apply після нанесення прямокутників, PDF Studio тихесенько збереже зміни і створить векторні об'єкти поверх зображення. Тобто будь-який вася відкриє pdf у будь якому pdf-редакторі і видалить ті об'єкти, таким чином анулюючи всі операції з redacting.

Хотів ще спробувати nitropdf, але їх пиздуватий сайт не дає мені скачати a trial версію.

Так, мені відомо що є Adobe Acrobat. У мене є ропуха платити $179.88/yr для запуску його 1 разу на 5 років. Цікаво, що акробат неможливо взагалі купити як раніше, а можна лише оновлювати ліценцію кожен місяць або рік. A brave new world.

juan_gandhi: (Default)

[personal profile] juan_gandhi 2017-08-11 10:10 pm (UTC)(link)
Да блин. Такой маразм с этим делом...
bytebuster: (ITCrowd-Moss)

[personal profile] bytebuster 2017-08-11 10:42 pm (UTC)(link)
Так, тойво.
ПДФ — це layout format. Ідеологічно, його редагування — це як редагувати binary dump, який printer driver вивалює на фізичний принтер.
Ну, або як редагувати binary executable, скомпільований із сорців якоїсь мови програмування.

Друга проблема. Якщо там усі пейджі містять одну картинку, то так і треба робити — виколупати картинку, відредагувати і запилити назад у PDF. Запилювати, наприклад, за допомогою XSL-FO (тулза = Apache FOP).

І ще, я не пойняв, чому ви один документ взяли, а не усі. Ви хотіли заскриптувати процес редагування? А область для зафарбовування знаходиться в однакових xy координатах сторінок? Бо якщо ні, то навряд ви що там заскриптуєте.
bytebuster: (ITCrowd-Moss)

[personal profile] bytebuster 2017-08-12 12:02 am (UTC)(link)
> > виколупати картинку, відредагувати і запилити назад у PDF.
> якщо би то було потрібно тільки мені, я би вдовольнився pdfimages -> gimp -> convert.

Боюся, що у тім-то й справа, що на такий софт відсутній public demand.
PDF створюється один раз і потім не змінюється (PDF Forms і in-document scripting не враховуємо).
straktor: benders (Default)

[personal profile] straktor 2017-08-12 08:20 am (UTC)(link)
потрепбность не широкая, но есть
адобе продаёт по этому поводу акробат, который не ридер, а стандарт
вполне возможно, что они патентами затаптывают конкурентов
да и сама спека на пдф в начале 2000-х, пока не спёрли, ими продавалась по полторы штуки баксов
bytebuster: (ITCrowd-Moss)

[personal profile] bytebuster 2017-08-14 09:16 pm (UTC)(link)
Запитав у ґуру.
— Ну, вот пока что вариант тупой: (1) GhostScript PDF→JPG; (2) GIMP редактировать; (3) обратно в PDF — много тулзов простых есть
— а редактировать картинку прямо внутри PDF нельзя никак — верно?
— насколько я знаю - да

bytebuster: (ITCrowd-Moss)

[personal profile] bytebuster 2017-08-11 10:49 pm (UTC)(link)
ЗІ. Запитав у наших ґуру по ПДФам.