Чем отличается формат PDF от PDF/A, и какой формат лучше использовать для сохранения отсканированных образов документов?
PDF (“portable document format”) — это универсальный формат электронных документов, которому, кстати, скоро исполнится 20 лет. Он создан по инициативе компании Adobe, и исходное его предназначение — электронное представление печатных материалов. Отсюда следует задача данного формата, связанная с хранением информации о цветовой схеме и расположении элементов, обеспечить идентичный вывод на разных мониторах и принтерах.
За время своего существования формат PDF значительно прибавил в возможностях. В первой же редакции формата появилась возможность вставлять в текст документа гиперссылки, шифровать документ с паролем и тем самым защищать его от модификации. В версии PDF 1.4 появилась возможность поверх изображения наносить текстовый слой, в том числе невидимый, давая пользователю возможность, видя “картинку”, тем не менее, копировать с неё текст. Кроме того, в этой же версии появилась возможность вставлять метаданные в виде пар “ключ-значение”, каждая из которых может быть связана с какой-то частью документа (например, отдельным изображением) или со всем документом целиком. Это важные нововведения, с точки зрения архивного хранения, и они поддерживаются форматом по сей день.
PDF/A — это подмножество формата PDF, содержащее ограниченный набор возможностей представления данных. Данный формат является стандартом ISO и предназначен для долгосрочного хранения электронных документов. Обеспечение длительного срока хранения достигается посредством внедрения в содержимое электронного документа в формате PDF/A всей информации, необходимой для его отображения. Такой информацией, в частности, являются шрифты — те из них, которые использованы в документе, включены в него. К слову, это влияет на его размер: документ в формате PDF/A не меньше, а вероятно даже больше по размеру, чем документ с аналогичным содержимым, сохранённый в формате PDF.
Считается, что документ, хранимый в формате PDF/A, ввиду полного отсутствия связи с такими изменчивыми вещами как гиперссылки и мультимедийный контент, можно будет открыть в любой операционной системе через какое угодно длительное время с помощью приложения, поддерживающего соответствующий формат. Поскольку PDF/A обеспечен статусом международного стандарта, его поддержка со стороны разработчиков ПО в долгосрочной перспективе оправдана, а использование целесообразно по сравнению с другими доступными форматами хранения, которые могут измениться в любой момент времени (вспомним недавнюю историю с отказом от поддержки документов Word старого образца до версии 2003 в Google Drive — старт умерщвлению формата Word 97–2003 дан).
При этом целостность и неизменность неподписанного документа в формате PDF/A не может быть гарантирована и не заявляется как особенность формата. Другими словами, несмотря на то, что данный формат позиционируется как обеспечивающий долгосрочное хранение, изменение содержимого документа возможно и не является отклонением от нормы, если оно не зашифровано. Однако есть ещё один нюанс: для каждого конкретного документа, формат которого заявлен как PDF/A, невозможно заведомо утверждать, что это действительно так. Необходима верификация на соответствие требованиям формата для каждого конкретного документа, и если на этапе размещения в архиве или после очередного изменения она не будет проведена, можно считать миссию обеспечения долгосрочного хранения потенциально проваленной (с некоторыми оговорками, но всё же).
Исходя из описанных выше различий между форматами PDF и его потомком PDF/A, вполне можно предположить, что первый больше пригоден для оперативного обмена и краткосрочного хранения электронных документов, тогда как PDF/A, несмотря на потенциально большой размер единичного документа (в него внедрены все использованные шрифты, а это для краткосрочного использования избыточный и ощутимый балласт), имея статус международного стандарта, гарантирует, что даже через продолжительное время, вне зависимости от окружения и операционной системы, любой пользователь сможет открыть документ в данном формате, располагая приложением-просмотрщиком. Этот факт укладывается в концепцию архива электронных документов и должен учитываться при сохранении каждого документа в нём.
Теперь необходимо определиться с тем, что такое отсканированный образ документов. В подавляющем большинстве случаев это растровое изображение. Предполагается, что текста поверх него нет, то есть в документе хранится исключительно отсканированный растр — изображение, текст на котором непонятен компьютеру, а понятен только человеку. В исключительных случаях поверх растрового изображения может быть расположен текстовый слой, частично или целиком наполненный либо вручную человеком, либо с помощью системы распознавания текста. Можно предположить, что документ содержит метаданные, так или иначе связанные с видом документа и его содержимым (например, если это счёт-фактура, метаданные могут содержать информацию о поставщике, дате выставления, сумме и т.д.).
Очевидно, что отсканированный образ документа допускает, но не подразумевает долгосрочного хранения. Но всё-таки в большинстве случаев образ должен храниться не меньше бумажного оригинала, а зачастую значительно дольше, поскольку значимость и важность его в контексте организации-владельца всегда держится выше нулевой отметки. Кроме того, образ снят с бумажного документа, а это значит, что его изменение не подразумевается, хотя и возможно.
На основании перечисленных особенностей, которыми обладает отсканированный образ документа, можно смело заявлять, что одинаково пригодны оба формата, поскольку для каждого конкретного документа не будут использованы возможности формата такие, которые не поддерживаются стандартом PDF/A. Последний допускает и метаданные, и текстовый слой поверх изображения, и даже подписание документа с целью защитить его от модификации. А необходимостью внедрения шрифтов в каждый документ можно пренебречь: поскольку речь идёт об образах, и текста нет, соответственно, нет и шрифтов, и добавочный вес в этом отношении будет мал.
ecm-journal.ru
Типы PDF-документов
ABBYY- Contacts
- Store
- Select Region
Global
Global Web Site EnglishNorth America
Canada English Mexico Español United States EnglishSouth America
Brazil Português South America EspañolEurope
France Français Germany Deutsch Italy Italiano United Kingdom English Spain Español Western Europe English Central and Eastern Europe English Croatia Hrvatski Czech Republic Čeština Hungary Magyar Poland Polski Romania Română Russia Русский Slovakia Slovenčina Ukraine УкраїнськаAfrica and Asia
China 中文 India and SEA Countries English Israel עברית Japan 日本語 Middle East English South Korea 한국어 Turkey TürkçeAustralia
Australia English
help.abbyy.com
Portable Document Format — Википедия
Материал из Википедии — свободной энциклопедии
Portable Document Format (PDF) — межплатформенный открытый формат электронных документов, изначально разработанный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления полиграфической продукции в электронном виде. Для просмотра существует множество программ, а также официальная бесплатная программа Adobe Reader. Значительное количество современного профессионального печатного оборудования имеет аппаратную поддержку формата PDF, что позволяет производить печать документов в данном формате без использования какого-либо программного обеспечения. Традиционным способом создания PDF-документов является виртуальный принтер, то есть документ как таковой готовится в своей специализированной программе — графической программе или текстовом редакторе, САПР и т. д., а затем экспортируется в формат
PDF с 1 июля 2008 года является открытым стандартом ISO 32000[1][2].
Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1a, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. В этом формате распространяется большое количество сопутствующей документации.
Общие сведения
Чаще всего PDF-файл является комбинацией текста с растровой и векторной графикой, реже — текста с формами, сценариями на языке JavaScript, 3D-графикой и другими типами элементов.
Информационные объёмы двух одинаково выглядящих на экране PDF-документов могут значительно отличаться в зависимости от:
- внедрения или связывания шрифтов и мультимедиа;
- разрешения растровых изображений;
- использования встроенного механизма сжатия всего документа;
- используемых алгоритмов сжатия растровых изображений.
Для создания документа минимального объёма необходимо использовать векторную графику и «безопасные» шрифты. Всего имеется 14 таких шрифтов:
- Times (v3) (обычный, курсив, полужирный и полужирный курсив)
- Courier (обычный, наклонный, полужирный и полужирный наклонный)
- Helvetica (v3) (обычный, наклонный, полужирный и полужирный наклонный)
- Symbol[en]
- Zapf Dingbats[en]
Эти шрифты можно использовать без внедрения в документ, так как их должны правильно отображать все программы. Любые другие шрифты, которые не были внедрены в документ и отсутствуют в системе, будут заменены одним из имеющихся, что может стать причиной неправильного отображения страниц, количества символов в строке и других ошибок отображения, связанных с метрикой шрифта.
Существует технология MRC (Mixed Raster Content), которая приближает возможности PDF к возможностям формата DjVu по хранению сканированных изображений с текстом.[3]
Редактирование PDF
Существуют специальные программы, позволяющие редактировать PDF-файлы, однако их выбор значительно меньше, чем программ для создания или просмотра PDF документов. Inkscape, начиная с версии 0.46, позволяет редактировать PDF[4] благодаря использованию на промежуточном этапе программы Poppler.
История
В первое время существования данный формат был крайне непопулярен:
- программное обеспечение компании Adobe для чтения и создания PDF было платным;
- в PDF отсутствовала поддержка внешних ссылок, что делало его практически бесполезным во всемирной паутине;
- PDF-документы были большего размера по сравнению с обычным текстом, что означало более длительную загрузку на медленных модемах, широко использовавшихся в те времена;
- на слабых машинах отображение PDF-документов осуществлялось с заметными задержками;
- существовало несколько конкурирующих форматов, таких, как Envoy, Common Ground Digital Paper, Farallon Replica; даже собственный PostScript являлся конкурентом.
После того как Adobe выпустила бесплатную версию Acrobat Reader (позднее переименованную в Adobe Reader) для чтения PDF-документов, популярность этого формата стала возрастать. Формат PDF-файлов несколько раз изменялся и продолжает эволюционировать. Существует несколько спецификаций формата, последовательно расширяющих друг друга. Для каждой новой спецификации создаются новые версии программного обеспечения из пакета Adobe Acrobat. Ниже показана таблица соответствий версий документов и версий программ, в которых впервые была введена поддержка этих документов. Версию любого PDF-документа можно узнать по первым восьми байтам, открыв этот документ в текстовом режиме, например в блокноте.
Версии Adobe PDF
год | версия документа | новые возможности | версия ПО |
---|---|---|---|
1993 | PDF 1.0 | Acrobat 1.0 | |
1994 | PDF 1.1 | пароли, ссылки, потоки, независимая от устройства цветопередача | Acrobat 2.0 |
1996 | PDF 1.2 | интерактивные элементы, обработка событий мыши, мультимедийные типы, Юникод, улучшенное представление цвета и графики | Acrobat 3.0 |
1999 | PDF 1.3 | цифровые подписи, цветовые пространства ICC и DeviceN, JavaScript | Acrobat 4.0 |
2001 | PDF 1.4 | JBIG2, прозрачность, текстовый слой OCR | Acrobat 5.0 |
2003 | PDF 1.5 | JPEG 2000, связанное мультимедиа, объектные потоки, перекрестные потоки, слои | Acrobat 6.0 |
2005 | PDF 1.6 | внедренное мультимедиа, 3D, XML-формы, AES-шифрование | Acrobat 7.0 |
2006 | PDF 1.7 | Acrobat 8.0 | |
2008 | PDF 1.7, AEL3 | AES-шифрование 256-битным ключом | Acrobat 9.0 |
2009 | PDF 1.7, AEL5 | XFA 3.0 | Acrobat 9.1 |
2011 | PDF 1.7, AEL8 | Acrobat X (10) |
Программы для работы с PDF
Чтение
Свободные:
Проприетарные:
Редактирование
Свободные:
Проприетарные:
C
Свободные:
Проприетарные:
C++
Свободные:
Java
Свободные:
- Apache PDFBox[en] — создание документов, слияние или разделение документа(ов), извлечения текста или другого контента из документа, печать, электронная подпись.
- ICEpdf — просмотр и печать документов, преобразование в изображение, извлечения контента, поиск в документе.
Проприетарные:
- jPedal[en] — просмотр и обработка документов, извлечения контента.
PHP
Свободные:
- pdfparser — PHP library to parse PDF files and extract elements like text
Примечания
Ссылки
wikipedia.green
Сохранение в PDF/A
ABBYY- Contacts
- Store
- Select Region
Global
Global Web Site EnglishNorth America
Canada English Mexico Español United States EnglishSouth America
Brazil Português South America EspañolEurope
France Français Germany Deutsch Italy Italiano United Kingdom English Spain Español Western Europe English Central and Eastern Europe English Croatia Hrvatski Czech Republic Čeština Hungary Magyar Poland Polski Romania Română Russia Русский Slovakia Slovenčina Ukraine УкраїнськаAfrica and Asia
China 中文 India and SEA Countries English Israel עברית Japan 日本語 Middle East English South Korea 한국어 Turkey TürkçeAustralia
Australia English
help.abbyy.com
Подготовка к печати. PDF/X — PDF, который вам нужен
Формат и его подмножества
Формат PDF известен практически всем, чья работа связана с обменом электронной документацией. Не мудрено, ведь для этого и был разработан Portable Document Format. Особенно он был оценен корпоративным рынком, который использует массу всевозможных офисных и специализированных программ подготовки документации на различных платформах, и совместимость всего этого разнообразия не могла не вызвать проблем. Создание фирмой Adobe Systems формата PDF в начале 90-х гг прошлого столетия и было попыткой внести свой вклад в решение проблемы. И попыткой довольно успешной.
Обратите внимание, изначально PDF был совершенно не предназначен для использования в полиграфии. Его нельзя было гарантированно обработать на RIP`е. Он мог содержать элементы, нераспознаваемые или распознаваемые некорректно растровыми процессорами, да и просто совершенно лишние для такой работы — аннотации, закладки, ключевые слова для поиска и индексации файла, звук, видео, активные формы, гипертекстовые ссылки, изображения в RGB или с низким разрешением, не внедренные в файл шрифты.
И тем не менее, PDF начинал проникать в область допечатных процессов. В начале его использовали в основном для вывода изданий, не требующих особо высокого качества, например, черно-белых газет, но удобство формата (его переносимость, кроссплатформенность) и скромные объемы файлов вызывали острое желание расширить сферу применения.
В итоге была разработана новая спецификация формата — PDF/X *, предназначенная для допечатной подготовки **.
Строго говоря, PDF/X сегодня — это подмножество формата, основанного на адобовской спецификации PDF. Существует сегодня в виде нескольких стандартов: PDF/X-1, PDF/X-2, PDF/X-3. Первый из них пережил три редакции (версии):
* версия PDF/X-1:1999 — созданная на основе PDF 1.2 — запрещала использование RGB, аннотаций, форм, комментариев и не поддерживала duotone.
* версия PDF/X-1:2001 была принята для соответствия новому формату PDF 1.3, но в остальном не отличалась от предыдущей.
* наконец, версия PDF/X-1a:2003 — на основе PDF 1.4 *** — исключила использование OPI и шифрование документов.
PDF/X-1a принят в издательской области в качестве стандарта. Если файл сертифицирован как PDF/X-1a, это означает, в частности, что
o все шрифты внедрены в файл,
o все цвета определены как CMYK или спот,
o файл четко идентифицируется как либо содержащий треппинг, либо не содержащий треппинг.
Необходимо уточнить, что PDF/X-1a запрещает использование прозрачности. Прозрачность может быть использована при создании контента/дизайна, но должна быть «слита» (flattened) для конвертации файла в PDF данного стандарта. Кроме того, не поддерживаются: управление цветом (сolor management), передаточные кривые (transfer functions) и задание линиатуры (halftone screen frequencies).
Как выяснилось позднее, слишком жесткие ограничения PDF/X-1a не всегда удобны. Например, использование только CMYK-изображений не позволяет гибко подходить к цветоделению файлов, когда приходится готовить печать с учетом типа бумаги, красок, растискивания и др. Возникла потребность несколько ослабить требования спецификации. Для этого была начата разработка стандарта PDF/X-2. PDF/X-2:2003 поддерживает Lab, управление цветоделением через ICC-профили, снова разрешает использование OPI, даже допускает отсутствие внедренных шрифтов (например, в случае, когда внедрение шрифта запрещено по условиям лицензирования). Одним словом, эта спецификация явно рассчитана на более профессионального пользователя, но, вместе с тем, увеличивает вероятность ошибки для массового пользователя ****.
Чтобы разрешить конфликт, был создан «компромиссный» вариант — PDF/X-3. PDF/X-3:2003 учитывает спецификацию PDF 1.4. По требованию к файлам он ближе к PDF/X-1, но поддерживает не только CMYK и spot-цвета, но и Lab с профилями, — иными словами, рассчитан на рабочий поток, использующий управление цветом. По-прежнему не включена поддержка transfer functions; поддержка halftone screen frequencies ограничена.
Создание и соответствие спецификации
Развитие PDF чрезвычайно перспективно. Файлы, прошедшие проверку на соответствие спецификации, могут быть приняты типографиями без дополнительной, зачастую отнимающей немало времени и сил проверки и даже переработки.
И тут возникает закономерный вопрос: а как, собственно, убедиться в том, что созданный вами PDF соответствует той или иной спецификации. Ведь если это очень сложная процедура, то выходит, что типография просто переложила на вас всю ответственность за правильность файла!
Самый очевидный способ получить документ, соответствующий одной из спецификаций PDF/X — это использовать для его создания Adobe Acrobat 6.0 Professional. Нужная версия — PDF/X-1а или PDF/X-3 — просто выбирается из предустановок Acrobat Distiller. В процессе обработки PostScript-файла программа проверяет его — и либо создает PDF, в котором прописывает информацию о соответствии файла требованиям, либо останавливает работу и создает файл-отчет (текстовый log-файл), в котором указывает обнаруженные проблемы. Просмотреть «сертификат» PDF-файла можно в Acrobat 6.0 по команде меню Document > Preflight > Validate. (При использовании утилиты PitStop от Enfocus в Acrobat v.5 та же информация обнаруживается в меню Certified PDF.)
Другой способ получить PDF/X — это прямое сохранение из Adobe InDesign CS, где также присутствуют уже знакомый по Acrobat выбор между PDF/X-1а и PDF/X-3.
Если вы создали PDF другой программой и не уверены в его корректности, то в Acrobat 6.0 Pro можно произвести его проверку. Выберите требуемый профиль в меню Document > Preflight и просмотрите результаты проверки. Проблемные элементы обозначены красным символом. По двойному клику на этих элементах вы можете перейти на содержащую их страницу, где они будут обведены красной пунктирной линией. Если проблемы не обнаружены, вы сможете сохранить файл в версии PDF/X, а затем сертифицировать его, чтобы в типографии могли просмотреть результат вашей проверки и соответствие выбранному профилю.
Примечания:
* «Х» в названии подразумевает англ. «blind eXchange», т.е. «слепой обмен» — надежда разработчиков на то, что файлы, чье соответствие данному стандарту установлено, могут не подвергаться дополнительной проверке перед печатью, когда они переданы в сервисное бюро или типографию.
** Разработка Комитета по стандартизации графических технологий (CGATS) при Американском институте национальных стандартов (ANSI).
*** PDF/X-1:2001 основывался на PDF 1.3.
**** По одним данным, PDF/X-2 до сих пор находится в процессе разработки и пока официально не утвержден в качестве стандарта. Однако на сайте www.iso.org присутствует стандарт ISO 15930-5:2003 со следующим описанием:
Graphic technology — Prepress digital data exchange using PDF — Part 5: Partial exchange of printing data using PDF 1.4 (PDF/X-2).ISO 15930-5:2003 specifies the use of the Portable Document Format (PDF) Version 1.4 for the dissemination of digital data, where all elements necessary for final print reproduction are either included or provision is made for unique identification. Colour-managed, CMYK, and spot colour data are supported in any combination.
Источник
fortress-design.com
Он-лайн PDF конвертер
Ошибка: количество входящих данных превысило лимит в 10.
Чтобы продолжить, вам необходимо обновить свою учетную запись:
Ошибка: общий размер файла превысил лимит в 100 MB.
Чтобы продолжить, вам необходимо обновить свою учетную запись:
Ошибка: общий размер файла превысил абсолютный лимит в 8GB.
Для платных аккаунтов мы предлагаем:
Премиум-пользователь
- Вплоть до 8GB общего размера файла за один сеанс конвертирования
- 200 файлов на одно конвертирование
- Высокий приоритет и скорость конвертирования
- Полное отсутствие рекламы на странице
- Гарантированный возврат денег
Купить сейчас
Бесплатный пользователь
- До 100 Мб общего размера файла за один сеанс конвертирования
- 10 файлов на одно конвертирование
- Обычный приоритет и скорость конвертирования
- Наличие объявлений
Мы не может загружать видео с Youtube.
document.online-convert.com