Что такое PDF и как его сделать?
Что такое Adobe PDF
Как сделать PDF для печати
Формат переносимых документов (PDF) представляет собой универсальный файловый формат, который позволяет сохранить шрифты, изображения и сам макет исходного документа независимо от того, на какой из множества платформ и в каком из множества приложений такой документ создавался. Формат Adobe PDF считается признанным общемировым стандартом в области тиражирования и обмена надежно защищенными электронными документами и бланками. Файлы Adobe PDF имеют небольшой размер, и они самодостаточны; они допускают совместную работу, просмотр и печать с помощью бесплатной программы Adobe Reader®.
Отлично себя оправдывает использование формата Adobe PDF в издательском и печатном деле. Благодаря способности Adobe PDF сохранить совмещенный (композитный) макет, можно создавать компактные и надежные файлы, которые сотрудники типографии могут просматривать, редактировать, сортировать и получать с них пробные оттиски. Также в предусмотренный техпроцессом момент в типографии могут как непосредственно отправить файл на фотонаборное устройство, так и продолжить его завершающую обработку: осуществить предпечатные проверки, провести треппинг, спустить полосы или выполнить цветоделение.
Сохраняя документ в формате PDF, можно создать файл, соответствующий стандарту PDF/X. Формат PDF/X (формат обмена переносимыми документами) является разновидностью Adobe PDF, которая не допускает использования многих вариантов и сочетаний данных о цветности, шрифтов и треппинга, которые могут вызвать осложнения при печати. Документ PDF/X следует создавать в случае, когда PDF-файлы используются как цифровые оригиналы при допечатной подготовке изданий — как на этапе создания макета, так и для целей фотовывода (если программное обеспечение и выводящие устройства способны работать с форматом PDF/X).
О стандартах PDF/X. Стандарты PDF/X утверждены Международной организацией по стандартизации (ISO). Они применяются к обмену графическими данными. При преобразовании PDF-файл проверяется на соответствие заданному стандарту. Если PDF-документ не соответствует выбранному стандарту ISO, отображается сообщение, позволяющее выбрать между отменой преобразования и продолжением преобразования, при котором будет создан несоответствующий стандартам файл. Самое широкое распространение в издательском и печатном деле получили несколько разновидностей PDF/X: PDF/X-1a, PDF/X-3 и PDF/X-4.
Формат PDF/X-1a (2001 и 2003).
PDF/X−1a — это стандартный формат файлов, специально предназначенный для обмена готовыми к печати документами в виде электронных данных, при котором отправителю и получателю не требуется дополнительной договоренности для обработки информации и получения требуемых результатов в тираже. Фактически он является цифровым эквивалентом цветоделенных фотоформ.
Формат PDF/X-1a гарантирует, что:
- все шрифты встроены
- изображения встроены
- цвета представлены в формате CMYK, в формате смесевых цветов или в обоих форматах сразу
- назначение вывода задано посредством описания условий печати или указания ICC профиля.
Примечание: назначение вывода определяет тип печатного процесса, к которому готовится файл, например, тип печатной машины, используемые краски и бумага.
PDF-файлы, соответствующие стандарту PDF/X-1a, могут быть открыты в Acrobat 4.0 и Acrobat Reader 4.0, а также в их более поздних версиях.
Набор PDF/X-1a предусматривает использование формата PDF 1.3, снижение разрешения цветных изображений и изображений в градациях серого до 300 ppi, а монохромных — до 1200 ppi, встраивание всех шрифтов в виде подмножеств символов, отсутствие встроенных цветовых профилей, а также сводит прозрачные области в соответствии с параметром «Высокое разрешение».
При использовании PDF/X−1a совместимых файлов вам больше не придется волноваться, что вас могут попросить предоставить недостающие шрифты или изображения. Вам больше никогда не придется сталкиваться с преобразованием изображения из RGB в CMYK без предварительного просмотра результатов. Решения о том, должен ли при печати файлов использоваться треппинг, будут приниматься на основании надежной информации. И, наконец, в типографии будут знать, что файл правильно подготовлен для печатной машины, на которой он будет печататься.
Размеры (page boxes) в PDFMediaBox, CropBox, BleedBox, TrimBox и ArtBox — что это такое? Тот кто хотя бы раз сталкивался с форматом PDF более плотно, наверняка сталкивался с этими определениями. В то же время, как показал опыт, мало кто знает что это и зачем это нужно.
Формат PDF удобен тем что точно передаёт в одном файле содержание и внешний вид документа, будь то просто текст или сложная комбинированная (векторная и растровая) графика. Среди прочих параметров, в нём хранится и размер документа (страницы). Однако этот размер не так однозначен, как может показаться на первый взгляд, поскольку существует до 5!!! различных вариантов описания этого размера. Эти варианты описания называются page boxes. Переводом «page box» на русский, с максимальным сохранением смысла в контексте допечатной подготовки, будет что-то вроде граница страницы, область документа, граница документа и т.п.
MediaBox — используется для определения ширины и высоты страницы. Media box определяет размер материала (например, бумаги) на котором производится печать, media box это самый большой бокс документа, остальные боксы могут быть такими же или меньше, но ни в коем случае не могут быть больше чем media box.
CropBox — видимая область страницы в Acrobat’е, которая содержит в себе какую-либо информацию. Crop box — прямоугольник минимального размера в который поместились бы все видимые объекты (текст, картинки, линии, номера страниц, колонтитулы и т.п.) документа. Размер crop box может быть таким же или меньше чем media box. Acrobat использует этот размер для отображения и печати документов. Иными словами, когда Вы открываете файл в Acrobat’е, то все, что вы видите в данный момент отображается в виде Crop box.
BleedBox — определяет размер документа вместе с вылетами. Вылеты — часть изображения которая обрезается после печати, нужна для того чтобы компенсировать погрешность процесса порезки. На рисунке до подрезки bleed box — 76х106 мм, а после подрезки в обрезной размер (TrimBox) — 70х100 мм.
TrimBox — определяет размер изделия (так называемый, обрезной размер). Это конечный размер после подрезки. TrimBox так же может сопровождаться метками реза (техническими элементами файла).
ArtBox — используется редко, определяет художественную часть изделия, важную его часть. Если говорить дословно — ту самую часть где по замыслу автора из изделия должен доноситься арт, креатив и т.п.
Перед конвертацией в PDF все изображения должны быть переведены в CMYK. Если есть элементы, которые печатаются отдельными прогонами (пантоны), им должны быть назначены соответствующие цвета по палитрам Pantone Solid Coated/Uncoated. Цветовое пространство CMYK должно быть с профилем ISO Coated v2.
Если Ваш макет содержит прозрачности (или пантон с прозрачностью), которые невозможно доработать растрированием с фоном, то выберайте версию PDF не 1.3, а 1.5 — 1.6, чтобы прозрачности в растровых линках PSD/TIFF не бились и не создавали белых полос по периметру. Главное, чтобы прозрачности и эффекты не лежали поверх текста и векторных объектов.
Если используете PDF версий PDF 1.3, то знайте, что данная версия PDF не поддерживает использование эффектов прозрачности и смешения цветов (blending mode), поэтому при записи PDF 1.3 все эффекты преобразуются в простые объекты.
- Corel Draw (на примере X4, английская версия)
File > Publish to PDF > указать название файла только латинскими символами > Settings > Compability: PDF/x-1a > Закладка Prepress поставить флажок на Bleed Limit и указать значение 5 мм > Закладка Objects поставить флажок на Export all Text as curves > Нажать ОК и сохранить файл.
- Adobe Illustator (на примере CS4, английская версия)
File > Save As > указать название файла только латинскими символами, в выпадающем списке «тип файла» выбрать Adobe PDF. Сохранить > в поле Adobe PDF выбрать пункт PDF/X-1a:2001 (PDF 1.6, если нужно сохранить прозрачности) > в закладке Marks and Bleeds в разделе Bleeds выставить все значения по 5 мм (top, bottom, left, right) > Save PDF
- Adobe Photoshop (на примере CS4, английская версия)
File > Save As > указать название файла только латинскими символами, в выпадающем списке «тип файла» выбрать Photoshop PDF. Сохранить > в поле Adobe PDF Preset выбрать пункт PDF/X-1a:2001 > в закладке Output, в разделе Color, Color Conversion: No Color Conversion, Profile Inclusion Policy: Don’t Include Profile > Save PDF
- Adobe InDesign (на примере CC, английская версия)
File > Export… > указать название файла только латинскими символами, в выпадающем списке «тип файла» выбрать Adobe PDF. Сохранить > в поле Adobe PDF Preset выбрать пункт PDF/X-1a:2001 (PDF 1.6, если нужно сохранить прозрачности) > в закладке General, установить диапазон печати All, флажок Spreads должен быть снят > в закладке Marks and Bleeds, в разделе Bleeds выставить все значения по 5 мм (top, bottom, left, right) > в закладке Output, в разделе Color, Color Conversion: No Color Conversion, Profile Inclusion Policy: Don’t Include Profile > Export
- QuarkXPress (на примере 8.0, английская версия)
File > Export > Layout as PDF > указать название файла только латинскими символами. Options > в поле PDF Style выбрать пункт PDF/X-1a:2001 > в закладке Pages, флажок Spreads должен быть снят > в закладке Bleed: Bleed Type – Symmetric, Amount 5 мм > OК > Сохранить.
- MS Office (на примере 2007).
Приложения MS Office не предназначены для подготовки файлов к высококачественной печати, поэтому даже конвертация макета в PDF не всегда избавляет от проблем. Гарантией того, что в готовом изделии Вы увидите то же, что и на мониторе, является только подписанная цветопроба. Минимизировать ошибки поможет сохранение документа в PDF. Сохранить как > Adobe PDF > Adobe PDF Conversion Options > поставить флажок на Make PDF/A-1а: 2005 compliant file > Ok > указать название файла только латинскими символами > Сохранить файл
Формат PDF: кто и как с ним работает
Как часто вы работаете с документами в формате PDF? Что обычно с ними делаете – просто просматриваете, копируете информацию или вам периодически требуется исправить цифру-другую? Примерно такие вопросы – а также ещё несколько десятков похожих – мы задали этим летом более 500 сотрудникам, работающим в средних и крупных российских компаниях. И узнали много интересного о формате PDF и его роли в современном офисе.
Пара слов о формате
Формат PDF (portable document format, или формат переносимых документов) – это открытый стандарт для обмена электронными документами. Документы, формы, изображения и веб-страницы, преобразованные в PDF, корректно отображаются на любых устройствах, в том числе на смартфонах и планшетах. То есть вы можете быть уверены, что ваш отчёт в формате PDF смогут открыть все коллеги вне зависимости от того, пользуются ли они ПК, Маком или смартфоном с Андроидом.
Подмножество формата PDF – PDF/A – отлично подходит для долгосрочного архивного хранения. Из таких документов исключены некоторые особенности, которые не подходят для хранения, поэтому документ в этом формате и через несколько лет откроется в том же виде, в каком был архивирован.
Всё это делает формат PDF одним из самых удобных в работе.
Популярность PDF преувеличена… или нет?
Нет:)
Выяснилось, что PDF даже популярнее, чем мы ожидали: каждый второй респондент ответил, что регулярно сталкивается с необходимостью что-то сделать с PDF-документом. И чаще всего это не просто просмотр. Вот 5 наиболее популярных сценариев, которые выделили сотрудники:
- Поиск информации в тексте.
- Копирование данных.
- Работа со страницами в документе: например, нужно изменить их порядок, добавить новые или удалить существующие.
- Внесение небольших правок в текст PDF, к примеру, исправление ошибок и опечаток.
- Объединение файлов различных форматов в PDF-документ.
С каждой из этих задач сталкиваются больше половины опрошенных. Некоторые задачи решаются с помощью простейших приложений для просмотра PDF, которые можно свободно скачать в интернете – они помогут вам открыть документ, найти в нём какую-то информацию и скопировать её (правда, не во всех случаях). С остальным сложнее.
Когда бесплатные программы не спасут
Предположим, вы обнаружили, что в важном PDF-отчёте опечатка. Что делать, как исправить? Достаточно просто: современные программы для работы с PDF умеют решать такие проблемы, и внесение правок в текст уже не является волшебством.
То же можно сказать и про объединение разных файлов в PDF – например, если у вас есть два вордовских документа и одна таблица в экселе, и вы очень хотите сформировать из этого отчёт. А если отчёт составил до вас кто-то не очень сведущий в этих делах, и страницы перепутаны местами, поправить это также несложно. Нужна просто специальная программа – и да, скорее всего она окажется платной.
Существует и ещё одна проблема, которую не в силах решить PDF-ридеры: PDF, полученные при сканировании. Предположим, вы попросили у коллеги отчёт в PDF, а он, не найдя его в своём компьютере, не растерялся и отсканировал бумажный экземпляр. Вы получаете документ, открываете его с помощью бесплатного ридера – и не можете скопировать нужный фрагмент. И вы не одиноки – с такой или похожей проблемой сталкивается 81% офисных сотрудников.
Почему эта проблема вообще возникает? Грубо говоря, при сканировании в файл добавляется только изображение документа – как если бы вы его сфотографировали. Для копирования, поиска и прочих операций нужен текстовый слой – а его ни в сканах, ни в фото нет. Что делать? Опять-таки поставить специализированную программу: она не просто откроет документ, но и распознает текст. Так что запомните – если сканируете бумажные документы, вам необходимо что-то сложнее бесплатной программки из интернета.
Кстати, что там с бумагой?
Судьба бумажных документов нам небезразлична: во-первых, мы за экологичность и спасение деревьев, во-вторых, наши программы и решения помогают компаниям переходить на электронный документооборот. Поэтому вопрос «Как за 2 года изменилось количество бумажных документов, с которыми вы работаете?» очень нас интересовал.
Выяснилось, что, несмотря на появление все большего числа электронных документов, поток бумаги в офисе также увеличился. Это отметили 68% сотрудников – число немаленькое и явно свидетельствующее о том, что работы у нас еще много.
Время делать выводы
Выводы просты: офисные сотрудники всё чаще сталкиваются с PDF, причём для работы с ними зачастую требуется специальное программное обеспечение. Это ПО должно уметь работать со всеми типами PDF, в том числе и с отсканированными документами (не забываем о росте бумаги), а также быть простым и удобным.
Честно признаемся, что нас такие выводы радуют – ведь в начале этого года мы выпустили как раз такую программу, ABBYY PDF Transformer+. Она заслуживает отдельного подробного рассказа, так что следите за публикациями в блоге и подписывайтесь, чтобы ничего не пропустить.
Чем отличается формат PDF от PDF/A, и какой формат лучше использовать для сохранения отсканированных образов документов?
Сохранение скана в формате PDF
PDF (“portable document format”) — это универсальный формат электронных документов. Он создан по инициативе компании Adobe, и его исходное предназначение — электронное представление печатных материалов. Отсюда следуют задачи данного формата — хранение информации о цветовой схеме и расположении элементов, а также обеспечение идентичного вывода на разных мониторах и принтерах.
За время своего существования формат PDF значительно прибавил в возможностях. Eщё в первой редакции формата появилась возможность вставлять гиперсылки в текст, шифровать документ с паролем и тем самым защищать его от модификации.
В версии PDF 1.4 поверх изображения можно наносить текстовый слой, в том числе невидимый. То есть пользователь, видя «картинку», тем не менее может копировать с неё текст. Кроме того, в этой же версии появилась возможность вставлять метаданные в виде пар «ключ-значение», каждая из которых может быть связана с какой-то частью документа (например, отдельным изображением) или со всем документом целиком. Это важные нововведения, с точки зрения архивного хранения, и они поддерживаются форматом по сей день.
Сохранение в PDF/A. Когда нужен этот формат?
PDF/A — это подмножество формата PDF, содержащее ограниченный набор возможностей представления данных. Данный формат является стандартом ISO и предназначен для долгосрочного хранения электронных документов.
Обеспечение длительного срока хранения достигается посредством внедрения в содержимое электронного документа в формате PDF/A всей информации, необходимой для его отображения. К ней, в частности, относятся шрифты — те из них, которые использованы в документе, включены в него. К слову, это влияет на его размер: документ в формате PDF/A не меньше, а вероятно даже больше по размеру, чем документ с аналогичным содержимым, сохранённый в формате PDF.
Считается, что документ, хранимый в формате PDF/A, из-за полного отсутствия связи с такими изменчивыми вещами как гиперссылки и мультимедийный контент, можно будет открыть в любой операционной системе через какое угодно время с помощью приложения, поддерживающего соответствующий формат. Поскольку PDF/A обеспечен статусом международного стандарта, его поддержка со стороны разработчиков ПО в долгосрочной перспективе оправдана, а использование целесообразно по сравнению с другими доступными форматами хранения, которые могут измениться в любой момент времени.
При этом целостность и неизменность неподписанного документа в формате PDF/A не может быть гарантирована и не заявляется как особенность формата. Другими словами, несмотря на то, что данный формат позиционируется как обеспечивающий долгосрочное хранение, изменение содержимого документа возможно и не является отклонением от нормы, если оно не зашифровано. Однако есть ещё один нюанс: для каждого конкретного документа, формат которого заявлен как PDF/A, невозможно заведомо утверждать, что это действительно так. Необходима верификация на соответствие требованиям формата для каждого конкретного документа. И если на этапе размещения в архиве или после очередного изменения она не будет проведена, можно считать миссию обеспечения долгосрочного хранения потенциально проваленной (с некоторыми оговорками, но всё же).
Исходя из описанных выше различий между форматами PDF и его потомком PDF/A, вполне можно предположить, что первый больше пригоден для оперативного обмена и краткосрочного хранения электронных документов, тогда как PDF/A, несмотря на потенциально большой размер единичного документа (в него внедрены все использованные шрифты, а это для краткосрочного использования избыточный и ощутимый балласт), имея статус международного стандарта, гарантирует, что даже через продолжительное время, вне зависимости от окружения и операционной системы, любой пользователь сможет открыть документ в данном формате, располагая приложением-просмотрщиком. Этот факт укладывается в концепцию архива электронных документов и должен учитываться при сохранении каждого документа в нём.
Хранение документов в формате PDF/A, подписанных электронной подписью, возможно и на длительный срок – от 5 лет. Чтобы обеспечить их целостность и юридическую значимость, достаточно воспользоваться системами долговременного хранения. |
Сканированный образ документа. Что это такое?
Теперь необходимо определиться с тем, что такое отсканированный образ документов. В подавляющем большинстве случаев это растровое изображение. Предполагается, что текста поверх него нет, то есть в документе хранится исключительно отсканированный растр — изображение, текст на котором непонятен компьютеру, а понятен только человеку. В исключительных случаях поверх растрового изображения может быть расположен текстовый слой, частично или целиком наполненный. Причём делается это либо вручную человеком, либо с помощью системы распознавания текста. Можно предположить, что документ содержит метаданные, так или иначе связанные с видом документа и его содержимым (например, если это счёт-фактура, метаданные могут содержать информацию о поставщике, дате выставления, сумме и т.д.).
Очевидно, что отсканированный образ документа допускает, но не подразумевает долгосрочного хранения. Но всё-таки в большинстве случаев образ должен храниться не меньше бумажного оригинала, а зачастую значительно дольше, поскольку значимость и важность его в контексте организации-владельца всегда есть. Кроме того, образ снят с бумажного документа, а это значит, что его изменение не подразумевается, хотя и возможно.
На основании перечисленных особенностей, которыми обладает отсканированный образ документа, можно смело заявлять, что одинаково пригодны оба формата. Хотя PDF/A допускает и метаданные, и текстовый слой поверх изображения, и даже подписание документа с целью защитить его от модификации.
Что такое формат PDF? | Конвертер PDF в Word
Что такое формат PDF?
Если файл имеет расширение .pdf, скорее всего это файл формата Portable Document Format (PDF), разработанный Adobe Systems, Inc. PDF файл позволяет просматривать и печатать документ под различными платформами, включая Windows, UNIX и Mac.
Просмотр PDF файлов
Для просмотра PDF файлов необходимо скачать программу Adobe® Acrobat® Reader, которая является бесплатной и служит для просмотра и печати файлов формата Adobe Portable Document Format (PDF) в наиболее распространенных операционных системах и платформах.
PDF Navigation Features
Certain features built into the PDF specification allow authors to expand the usefulness of a document. For example, you can add bookmarks, thumbnails of each page, internal and external links, form fields, article threads, buttons for navigation, notes to annotate information, and views to magnify or reduce a page to fit within the user’s computer screen. PDF allows users to magnify up to 800% on screen with no loss of clarity.
PDF Size and Performance
For the Web, smaller files are better since download time depends on file size. PDF files can be optimized to reduce file sizes and can create files up to 80% smaller than their HTML counterparts.
PDF files can be «linearized» to allow the user to start viewing the document before it is fully downloaded, similar to the process used to deliver streaming video over the internet.
PDF can be interwoven seamlessly into most Web sites. This combination of HTML and PDF formats enables authors to serve content in its most appropriate format based on the demands of content versus technology. Also, on most popular Web servers there is no compression, translation, or filtering penalty for serving PDF files.
PDF Security
PDF has a well-established security feature set. Authors of PDF files can prevent users from editing, printing, and/or copying content (text and graphics). Software developers can create their own software to read, create, or modify PDF files without special permission or licensing. The only condition that Adobe insists on is that the document author’s PDF security settings be respected.
Экспорт в Word, PDF или другой формат в Pages на Mac
Чтобы сохранить копию документа Pages в другом формате, требуется экспортировать его, выбрав новый формат. Это удобно, когда Вам нужно отправить документ людям, которые используют другое ПО. Если Вы вносите изменения в экспортированный документ, это не влияет на оригинал.
Пометки и изменения, добавленные с помощью смарт-аннотаций, не отображаются в документах, экспортированных в форматах Word, EPUB или Pages ’09. Можно экспортировать документ в формате PDF со смарт-аннотациями и комментариями либо без них.
Примечание. Если для исходного файла задан пароль, он действует также для копий, экспортированных в форматы PDF, Word и Pages ’09, но его можно изменить или удалить.
Сохранение копии документа Pages в другом формате
Откройте документ, затем выберите «Файл» > «Экспортировать в» > [формат файла] (меню «Файл» расположено у верхнего края экрана).
Укажите настройки экспорта.
PDF. Эти файлы можно открывать и в некоторых случаях редактировать с помощью таких приложений, как «Просмотр» и Adobe Acrobat. Нажмите всплывающее меню «Качество изображения», затем выберите подходящий вариант (чем выше выбранное качество изображений, тем больше будет размер файла). Если Вы добавили текстовое описание к своим изображениям, рисункам, аудио или видео для озвучивания с помощью VoiceOver или других вспомогательных технологий, они экспортируются автоматически. Чтобы включить смарт-аннотации или комментарии, установите соответствующий флажок. Чтобы включить теги универсального доступа для таблиц с большим объемом данных, нажмите «Дополнительные параметры», затем выберите «Вкл.».
Word. Если необходимо, чтобы файл был совместим с более старой версией Microsoft Word (1997–2004), нажмите «Дополнительные параметры», затем выберите «.doc» во всплывающем меню.
EPUB. Используйте этот формат, чтобы сделать документ доступным для чтения в приложениях для чтения электронных книг (например, Apple Books). Введите имя автора и название, затем выберите обложку.
Если Вы работаете с текстовым документом, выберите тип макета. Фиксированный макет позволяет сохранить форматирование Вашего документа. Этот вариант лучше всего подходит для документов с несколькими колонками текста или большим количеством изображений. Макет с плавающей версткой изменяется в зависимости от размеров экрана и ориентации устройства, а также позволяет пользователю менять размер шрифта. Этот вариант лучше всего подходит для документов с большим количеством текста.
Для задания дополнительных параметров нажмите стрелку раскрытия рядом с пунктом «Дополнительные параметры», выберите категорию, укажите язык документа, выберите режим просмотра (одна или две страницы одновременно), а также включите или отключите оглавление и встраивание шрифтов.
Простой текст (TXT). Основной текст экспортируется без форматирования. Текстовые блоки, фигуры, изображения, линии, таблицы и диаграммы не экспортируются. Документы с макетом страницы нельзя экспортировать в формате TXT.
Совет. Чтобы узнать, является документ текстовым или документом с макетом страницы, нажмите в панели инструментов. Если вверху боковой панели есть вкладка «Закладки», это текстовый документ.
Форматированный текст (RTF). Основной текст и таблицы экспортируются как текст и таблицы в расширенном текстовом формате (RTF). Если документ содержит текстовые блоки, фигуры, линии и диаграммы, которые можно экспортировать, они экспортируются как изображения, а сам документ экспортируется в формате RTFD. Файлы RTFD могут не поддерживаться другими приложениями и не открываться в них. Документы с макетом страницы нельзя экспортировать в форматах RTF или RTFD.
Pages ’09. Файлы этого формата можно открывать в Pages версий от 4.0 до 4.3 включительно на компьютере Mac.
Если пароль является доступным параметром, выполните одно из указанных ниже действий.
Установка пароля. Установите флажок «Требовать пароль для открытия», затем введите пароль. Требование пароля применяется только к экспортированной копии.
Сохранение исходного пароля документа. Убедитесь, что флажок «Требовать пароль для открытия» установлен.
Использование другого пароля для экспортированной копии. Установите флажок «Требовать пароль для открытия», нажмите «Сменить пароль», затем задайте новый пароль.
Экспорт копии без защиты паролем. Снимите флажок «Требовать пароль для открытия».
Нажмите «Далее», затем введите имя документа (без расширения файла, например .pdf или .epub, — оно будет добавлено к имени документа автоматически).
Введите один или несколько тегов (необязательно).
Чтобы указать место для сохранения экспортированной копии презентации, нажмите всплывающее меню «Где», выберите место, затем нажмите «Экспортировать».
Экспорт книги или другого документа в формате EPUB
Чтобы документ можно было открывать в приложениях для чтения электронных книг (например, Apple Books), его можно экспортировать в формате EPUB.
Откройте документ, затем выберите «Файл» > «Экспортировать в» > «EPUB» (меню «Файл» расположено в верхней части экрана).
Укажите необходимую информацию.
Заголовок и автор. Введите заголовок и имя автора, которые будут видеть читатели при просмотре Вашей публикации.
Обложка. Используйте первую страницу документа либо выберите файл PDF или файл изображения.
Макет. Для текстового документа можно использовать «Фиксированный макет», чтобы сохранить макет страницы, или «С плавающей версткой», чтобы читатели могли настраивать размер и стиль шрифта (при этом может измениться количество содержимого, видимого на каждой странице). Для документов с макетом страницы можно использовать только фиксированный макет.
Категория и язык. Нажмите «Дополнительные параметры», затем назначьте категорию документу EPUB и укажите язык документа.
Режим просмотра. Нажмите «Дополнительные параметры», затем выберите «Одна страница», чтобы показывать только одну страницу, или «Две страницы», чтобы показывать разворот на две страницы.
Использовать оглавление. Нажмите «Дополнительные параметры», затем выберите «Использовать оглавление», чтобы включить созданное оглавление в документ.
Встроенные шрифты. Нажмите «Дополнительные параметры» и установите этот флажок, чтобы включить в документ EPUB шрифты TrueType и OpenType.
Нажмите «Далее», затем введите название документа.
Расширение файла .epub автоматически добавляется к имени документа.
Введите один или несколько тегов (необязательно).
Чтобы указать место для сохранения документа, нажмите всплывающее меню «Где», выберите место, затем нажмите «Экспорт».
Чтобы сделать свою книгу доступной для покупки или загрузки из Apple Books, можно опубликовать ее в Apple Books непосредственно из приложения Pages. Файл EPUB создается в процессе публикации: заранее экспортировать книгу в формат EPUB не нужно.
Формат PDF: особенности, преимущества и недостатки.
Vasyl Holiney Обновлено Loading…- Преимущества и недостатки.
- Где используется?
PDF(Portable Document Format), не просто всем известный и удобный формат, а и единственный, который является стандартом с 2008 года. Он был разработан командой компании Adobe Systems. Разработчики формата поставили перед собой задачу создать такой формат отображения документа, чтобы на любом устройстве документ открывался и выглядел одинаково.
Вкратце PDF мы уже рассматривали в статье «Форматы графических файлов — JPG, PNG, SVG, PDF», сегодня попробуем выявить достоинства и недостатки этого векторного формата.
Часто этот формат ассоциируется с «безбумажным офисом», а в случае с дизайном — с подготовкой к печати и с передачей графических макетов в типографию.
Преимущества и недостатки.Плюсы:
— стандартизованность и популярность: открывается на любых устройствах с любыми операционными системами ровно в том виде, в котором был создан;
— средство просмотра формата, Adobe Acrobat Reader, часто предустановлено на компьютер, если устройство поставлялось с операционной системой. Если же нет – он доступен для скачивания с сайта разработчика Adobe Systems и это совершенно бесплатно;
— занимает мало места на жестком диске, потому что поддерживает множество алгоритмов компрессии;
— безопасность: пользователь может настроить параметры безопасности для своего файла, например, запрет печати, запрет редактирования, использование электронной подписи для определения подлинности документа и т.д.
Минусы:
— редактор PDF файлов – платный;
— редактировать pdf файлы в специализированных программах, сложнее, чем любые другие графические файлы;
— сложно работать с текстом, он воспринимается как картинка.
PDF формат используется для хранения и передачи текстовой и графической информации в сети, например для передачи фирменного бланка в полиграфию или размещение анкеты на сайте. Отлично подходит для демонстрации наработок: показать легко, отредактировать – сложно. Это усложняет воровство интеллектуальной собственности. Ну и идеи «безбумажного офиса» воспринимаются на ура всеми, кто задумывается об экологии на планете.
Руководитель отдела маркетинга и главный генератор идей компании Logaster. Автор книги «Как создать фирменный стиль и не разориться». Ценит экспертный подход, но в то же время использует простой язык для объяснения сложных идей.
Что такое PDF файл? Преимущества и недостатки PDF
Загружая документ из Интернета, вы можете заметить, что он имеет формат .PDF. Возможно, вы также заметили, что его трудно (если вообще возможно) редактировать. Чтобы открыть файл .PDF формата нужно иметь специальную программу, например Adobe Acrobat Reader. Иногда пользователи путаются, какой формат выбрать. Почему люди используют PDF файлы? Разве не проще пользоваться .DOC или .DOCX форматами?
На самом деле, формат .PDF широко распространен для передачи различного рода документов и электронных книг. Почему так произошло? Давайте разберемся, что такое PDF файл, и узнаем его плюсы и минусы.
Преимущества PDF файлов
Давайте вернемся к вопросу “Что лучше, PDF или DOCX?”. DOCX — отличный формат для пользователей, которые используют Microsoft Office на своих устройствах. DOCX это стандартный формат документов Microsoft Word. Но если кто-то открывает ваш файл, на его компьютере должен быть установлен текстовый редактор от MS, или другая программа, которая умеет работать с этим форматом. Хотя и большинство альтернатив MS Office могут конвертировать .DOC в нужный формат, этот процесс иногда изменяет оригинальное форматирование и создает лишние хлопоты.
К счастью, большинство операционных систем полностью поддерживают PDF файлы. Это значит, что вам не нужно создавать документ специально для пользователей Windows, MacOS, Linux, IOS, или Android. Просто выберите PDF и будьте уверены, что он откроется на любом устройства.
Когда стоит использовать .PDF формат?
В ситуациях, когда вы не знаете, на какой операционной системе будет открываться файл, используйте PDF. Скажем, вы решили выложить на сайт книгу, журнал, брошюру, или какой-либо важный документ. На сайт могут заходить люди с компьютеров под управлением Windows, Linux или владельцы смартфонов на IOS или Android. Лучшим вариантом в данном случае будет использование .PDF формата. Каждое устройство сможет его открыть и отобразить содержимое.
Еще лучше, если после загрузки документа, он автоматически открывается через браузер. Популярные браузеры, такие как Google Chrome (это одна из малоизвестных функций Chrome) или Mozilla Firefox имеют встроенные PDF-просмотрщики, потому люди могут просмотреть документ просто и быстро.
Отдавайте преимущество PDF файлам при отправке по Email. Представим, что вы отправляете резюме. Хорошо, если получатель проверяет почту с компьютера, и может открыть .DOCX файл. А если нет? Со смартфона или планшета проще открыть .PDF ежели .DOC.
Недостатки .PDF формата
Получив файл, вы можете захотеть изменить его, но тут кроется одна из основных проблем PDF файлов — их сложно редактировать. Если DOC файл это оригинальный текстовый документ, который можно легко изменять, то PDF больше напоминает изображение. Редактирование возможно, но для этого нужен просмотрщик со встроенной функцией редактирования, или соответствующая программа.
Когда не нужно использовать PDF
Не используйте формат .PDF, когда вы хотите иметь “живой документ”, который может быть отредактирован другими пользователями. Вы можете добавить редактируемые поля в PDF документ, но полное редактирование требует немалых усилий. Если вы работаете с другими пользователями, желательно узнать, какие операционные системы они используют и договориться о типе файлов, который подходит всем.
По крайней мере, каждый может использовать облачную службу документов, например Google Docs. Для режима “только чтение” хорошо подойдет PDF, а для редактирования — его использовать не стоит.
Итог
Теперь вы знаете, что такое PDF файл, в каких случаях его стоит использовать, а которых лучше подойдет .DOC. Прежде чем создавать документ, подумайте о тех, кто будет им пользоваться. Желаю удачи.
Источник: www.maketecheasier.com
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.
PDF File Format
Portable Document Format (PDF) — это тип документа, созданный Adobe еще в 1990-х годах. Целью этого формата файла было введение стандарта для представления документов и других справочных материалов в формате, который не зависит от прикладного программного обеспечения, оборудования и операционной системы. Формат файла PDF имеет полную возможность содержать такую информацию, как текст, изображения, гиперссылки, поля формы, мультимедиа, цифровые подписи, вложения, метаданные, геопространственные функции и трехмерные объекты, которые могут стать частью исходного документа.
В большинстве случаев существующие документы конвертируются в PDF, а не создаются с нуля. Но это не означает, что нет программного обеспечения для создания или обработки файлов PDF.
Краткий обзор временной шкалы формирования файла PDF с точки зрения временной шкалы выглядит следующим образом:
1993 — Adobe Systems предоставила спецификации PDF бесплатно
2008 — PDF был выпущен как открытый 1 июля 2008 г. и был опубликован Международной организацией по стандартизации как ISO 32000-1: 2008 .
2008 — Adobe опубликовала публичную патентную лицензию в формате ISO 32000-1 без лицензионных отчислений на все патенты, принадлежащие Adobe, которые необходимы для создания, использования, продажи и распространения реализаций, совместимых с PDF.
Первая версия PDF, обозначенная как PDF 1.0, позже претерпела изменения до PDF 1.7. PDF 1.7, который стал ISO 32000-1, включает некоторые нестандартные проприетарные технологии, а также Adobe XML Forms Architecture (XFA) и расширение JavaScript для Acrobat.28 июля 2017 года был опубликован PDF 2.0, известный как ISO 32000-2: 2017, который не включает никаких нестандартных технологий.
Спецификации формата файла
Файл PDF — это набор байтов, которые могут быть сгруппированы в токены в соответствии с правилами синтаксиса, определенными спецификациями PDF. Один или несколько маркеров объединяются для формирования синтаксических сущностей более высокого уровня, в основном объектов, которые являются базовыми значениями данных, из которых создается PDF-документ.
Структура файла
Содержимое PDF-файла расположено внутри файла в следующей последовательности.
| Заголовок | Тело | Таблица перекрестных ссылок | Прицеп
Заголовок файла
Независимо от версии PDF файл PDF начинается с заголовка, содержащего уникальный идентификатор для PDF и версию формата, например% PDF-1.x, где x находится в диапазоне от 1 до 7.
Тело файла
Тело файла PDF состоит из последовательности косвенных объектов, представляющих содержимое документа. Объекты, как описано выше, представляют компоненты документа, такие как шрифты, страницы и образцы изображений.Начиная с PDF 1.5, тело также может содержать потоки объектов, каждый из которых содержит последовательность косвенных объектов.
Таблица перекрестных ссылок
Таблица перекрестных ссылок содержит информацию, которая разрешает произвольный доступ к косвенным объектам в файле, так что нет необходимости читать весь файл для обнаружения какого-либо конкретного объекта. Таблица должна содержать однострочную запись для каждого косвенного объекта, определяющую байтовое смещение этого объекта в теле файла. (Начиная с PDF 1.5, некоторая или вся информация о перекрестных ссылках может альтернативно содержаться в потоках перекрестных ссылок.
Трейлер файла
Трейлер файла PDF позволяет соответствующему читателю быстро найти таблицу перекрестных ссылок и некоторые специальные объекты. Соответствующие читатели должны читать PDF-файл с его конца. Последняя строка файла должна содержать только маркер конца файла %% EOF. Две предыдущие строки должны содержать, по одной на строку и в определенном порядке, ключевое слово startxref и байтовое смещение в декодированном потоке от начала файла до начала ключевого слова xref в последнем разделе перекрестных ссылок.
Объекты PDF
Файл PDF включает несколько различных типов объектов следующих типов:
- Логические значения, представляющие условные истинные или ложные
- Числа — целые и действительные значения
- Строки — содержат символы в круглых скобках
- Имена — начать с вперед / символа, например / ASomewhatLongerName приводит к ASomewhatLongerName
- Массивы — PDF поддерживает одномерные массивы. Массивы более высоких измерений могут быть построены с использованием массивов в качестве вложенных элементов.
- Словари — коллекция объектов в виде пар ключ-значение.Он может иметь нулевые записи.
- Streams — представляет последовательность байтов, которая также может иметь неограниченную длину.
- Null Object — представляет нулевое значение.
. Могут быть другие объекты, такие как комментарии, которые представлены знаком% и могут содержать 8-битные символы. .
Косвенные объекты
Любой объект в файле PDF может быть помечен как косвенный объект. Косвенным объектам присваивается уникальный идентификатор объекта, по которому другие объекты могут ссылаться на него.Перекрестные ссылки на них поддерживаются в индексной таблице и помечаются ключевым словом xref, которое следует за основным телом и дает байтовое смещение каждого косвенного объекта от начала файла.
Линейные и нелинейные макеты PDF
Макеты PDF подразделяются на близкие и нелинейные в зависимости от целевых приложений и других факторов.
Нелинейный — Нелинейные PDF-файлы занимают меньше места на диске по сравнению с линейными PDF-файлами. PDF-страницы документа находятся в разрозненном виде по PDF-файлу, поэтому нелинейные файлы работают медленнее по сравнению с линейными файлами.
Linear PDF — ориентированные на онлайн-программы просмотра PDF-файлов, файлы Linear PDF построены таким образом, что они записываются на диск в линейном режиме. При этом не требуются плагины браузера для загрузки всего документа перед отображением.
Обзор объектов
Как уже упоминалось, тело PDF-файла представляет собой набор упомянутых выше объектов. PDF в значительной степени основан на PostScript без функций управления языков программирования, таких как команды if и loop. Команды, выдаваемые кодом Postscript для генерации графического содержимого, собираются и токенизируются в дополнение к любым файлам, графике или шрифтам, на которые ссылается документ.Все это содержимое накапливается в одном файле, в результате чего получается скомпонованный вывод PostScript.
Текст
Текст в PDF представлен текстовыми элементами, которые фактически отображаются с глифами из шрифтов. Глиф — это графическая форма, с которой можно выполнять все графические манипуляции, например преобразование координат. Из-за важности текста в большинстве описаний страниц PDF предоставляет возможности более высокого уровня для удобного и эффективного описания, выбора и визуализации глифов.
Графика
Графические операторы, используемые в потоках содержимого PDF, описывают внешний вид страниц, которые должны воспроизводиться на устройстве вывода растров. Оборудование предназначено как для принтеров, так и для дисплеев. Графические операторы образуют шесть основных групп:
- Операторы графического состояния манипулируют структурой данных, называемой графическим состоянием, глобальной структурой, в которой выполняются другие графические операторы. Состояние графики включает в себя текущую матрицу преобразования (CTM), которая отображает координаты пользовательского пространства, используемые в потоке содержимого PDF, в координаты устройства вывода.Он также включает текущий цвет, текущий контур обрезки и многие другие параметры, которые являются неявными операндами операторов рисования.
- Операторы построения пути определяют пути, которые определяют формы, траектории линий и области различных типов. Они включают в себя операторы для начала нового пути, добавления к нему линейных сегментов и кривых и закрытия его.
- Операторы рисования контура заполняют контур цветом, рисуют обводку вдоль него или используют в качестве границы отсечения.
- Другие операторы рисования рисуют определенные графические объекты с самоописанием.К ним относятся образцы изображений, геометрически определенные оттенки и целые потоки контента, которые, в свою очередь, содержат последовательности графических операторов.
- Текстовые операторы выбирают и отображают глифы символов из шрифтов (описания гарнитур для представления текстовых символов). Поскольку PDF рассматривает глифы как общие графические формы, многие текстовые операторы можно сгруппировать с помощью операторов состояния графики или рисования. Однако структуры данных и механизмы работы с описаниями глифов и шрифтов достаточно специализированы.
- Операторы помеченного содержимого связывают логическую информацию более высокого уровня с объектами в потоке содержимого. Эта информация не влияет на визуализированный внешний вид контента; это полезно для приложений, которые используют PDF для обмена документами.
Ссылки
Формат переносимого документа — PDF
Изображения Paediatr Cardiol. 2002 апрель-июнь; 4 (2): 1–3.
В Греч
* Главный редактор, Images Paediatr Cardiol
* Главный редактор, Images Paediatr Cardiol
Контактная информация: Dr.Виктор Греч, главный редактор, Images Paediatr Cardiol, педиатрическое отделение, больница Святого Луки, Гуардамангия — Мальта [email protected] Авторские права: © Images in Pediatric CardiologyЭто статья в открытом доступе, распространяется под условия лицензии Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии правильного цитирования оригинальной работы.
Аннотация
В этой статье показано, как документы, подготовленные в формате гипертекста или текстового процессора, могут быть сохранены в формате переносимого документа (PDF).Эти файлы представляют собой автономные документы, которые имеют одинаковый вид на экране и при печати, независимо от того, какой компьютер или принтер используется, и независимо от того, какой программный пакет изначально использовался для их создания. Файлы PDF — это сжатые документы, которые всегда меньше исходных файлов, что позволяет быстро распространять и скачивать их.
MeSH: Интернет, публикация
Portable Document Format (PDF — Adobe) был создан для того, чтобы обеспечить широкое распространение отформатированных документов независимо от того, доступны ли в системе пользователя определенные шрифты или файлы postscript. 1 , 2 PDF-файлы имеют возможность встроить в них специализированные шрифты, изображения, цвета и форматирование независимо от приложения и платформы, используемых для создания документов. Это гарантирует, что до тех пор, пока у пользователя есть возможность читать файлы PDF, документы будут просматриваться точно в том виде, в котором они были отформатированы исходными авторами, с сохранением внешнего вида и целостности содержимого.
Кроме того, для онлайн-просмотра надстройка браузера стабильна, проста в использовании и доступна для загрузки.Файлы PDF также позволяют легко распространять большие документы, а встроенное средство индексации в формате PDF может создать систему быстрого поиска. PDF — это один из наиболее переносимых форматов файлов, для просмотра которого не требуется браузер, только программа Acrobat Reader, которая является бесплатной и компактной. Файлы PDF также можно просматривать на устройствах Palm. Формат PDF оказался очень надежным и используется для распространения официальных документов правительствами во всем мире (Adobe Acrobat и PDF — важные инструменты для электронного правительства http: // www.adobe.com/government/images/pdf/acr_egov.pdf).
Оглавления, статьи и объявления (например, списки конференций) должны быть доступны в формате PDF. Преобразование гипертекстовых документов с графикой и таблицами в формат PDF проще всего выполнить с помощью программного обеспечения Adobe PDF Maker. Эта программа позволяет напрямую преобразовывать документы Word в формат PDF из самого Word (а также из другого программного обеспечения Microsoft Office, такого как Excel и PowerPoint), используя одну из двух альтернатив:
PDFWriter: генерирует файлы PDF за одно действие. процесс с предустановленными настройками по умолчанию.Полученные файлы имеют только базовую функциональность, и этот метод рекомендуется только для создания простых небольших текстовых файлов, не содержащих графику, таблицы или ссылки.
Acrobat Distiller: создает файлы PDF с помощью двухэтапного процесса, в котором файл Word сначала преобразуется в высококачественный вывод PostScript (как если бы он был распечатан в файл, а не на принтер), а затем в PDF. Этот метод рекомендуется, поскольку он позволяет пользователю устанавливать различные параметры задания, которые улучшают внешний вид и функциональность выходных файлов PDF, а также легко конвертируют документы, содержащие графику, таблицы или ссылки.
Используются следующие шаги:
Соответствующий гипертекстовый документ должен быть загружен в Microsoft Word — все последние версии Word (97, 2000, XP) по своей сути могут читать гипертекстовые документы с графикой и таблицами. или ссылки.
После этого документ необходимо сохранить в собственном формате Word. Это позволяет форматировать документ, включая выравнивание по левому и правому краю и настройку страницы. Теперь известна фактическая длина страницы, и теперь можно вставить номера страниц и имя документа в верхний / нижний колонтитул.
Запускается Acrobat Distiller и создается файл PDF. Файлы PDF, преобразованные из Word, обрезаются в соответствии с размером страницы Word и могут быть немедленно просмотрены в Adobe Acrobat или Acrobat Reader.
Параметры вывода включают возможность встраивания гиперссылок. Сгенерированный вывод также может быть оптимизирован для экрана, оптимизирован для печати или оптимизирован для печати с увеличением уровня разрешения и детализации отображения за счет увеличения размера выходного файла. Например, этот документ выводит на трех вышеупомянутых уровнях оптимизации сгенерированные файлы размером 312 кб, 405 кб и 412 кб соответственно.
Разумеется, должна быть доступна заметная ссылка из гипертекстового документа на файл PDF, и будет любезно указать приблизительный размер файла PDF, возможно, как часть самой ссылки. Промежуточный документ Word следует сохранить для резервного копирования. Выходной файл PDF может быть уменьшен в размере путем замены логотипов текстом, где это возможно, и в этом отношении могут быть полезны таблицы ().
a: Логотип журнала для использования в Интернете — прозрачный файл GIF b: Логотип журнала для вывода в PDF — в виде таблицы
Список литературы
1.Кацман ГЛ. Adobe acrobat: альтернативная методология создания электронных обучающих файлов, не зависящая от ограничений HTML. J Digit Imaging. 2001; 14: 9–13. [Бесплатная статья PMC] [PubMed] [Google Scholar] 2. Gilbert J, Simoneau C, Cote D, Boenke A. Интернет-сборник аналитических методов и спектроскопической информации для мономеров и добавок, используемых в пластмассах для упаковки пищевых продуктов. Пищевая добавка Contam. 2000. 17: 889–893. [PubMed] [Google Scholar]General | Максимальный размер PDF-файлов : Эта тема обсуждалась на ряде онлайн-форумов.На одном из форумов Adobe в ответ на вопрос 2012 года «Есть ли ограничение на размер PDF?» Описан очень высокий теоретический предел количества страниц: «Явного ограничения количества страниц нет, но есть ограничение на косвенные объекты в 8 388 607 из 32 -битное приложение для рендеринга PDF — Acrobat и Adobe Reader представляют собой 32-битный код, и поскольку каждая страница использует как минимум один косвенный объект, каждый PDF-файл, созданный или открытый Acrobat, должен содержать меньше страниц, чем это. создать собственное приложение PDF x64, вы могли бы добавить больше страниц, но полученные файлы вообще не открывались бы в 32-разрядных приложениях.В этой записи форума говорится: «С архитектурной точки зрения в стандарте PDF есть только одно ограничение: общий размер файла не должен превышать ~ 10 ГБ, поскольку таблицы перекрестных ссылок, которые определяют структуру PDF, используют 10 бит». Предыдущий абзац дает подробное представление о возможном размере PDF-файла. Многие комментаторы утверждают, что предел практичности ниже, чем указано выше. Важно то, можете ли вы открыть данный PDF-файл в любом подходящем приложении, включая Acrobat и Adobe Reader, упомянутые выше.Интернет-форумы также включают отчеты, подобные этим примерам: «Похоже, что у iPad есть ограничение в 30 МБ для отображения файлов PDF» и «пользователи GoodReader сообщили о безупречной производительности с файлами размером более 1 гигабайт». Практические ограничения, накладываемые приложениями, могут также включать ограничения, устанавливаемые индексаторами, если PDF-файл содержит доступный для поиска текст. Самоидентификация хронологических версий PDF : Идентификация хронологических версий PDF может быть дана в двух местах в файле PDF.Все файлы PDF должны иметь версию, указанную в заголовке с помощью 5 символов % PDF– , за которыми следует номер версии в форме 1.N, где N — это цифра от 0 до 7 или номер версии 2.0. Например, PDF 1.7 будет идентифицирован как % PDF – 1.7 . Однако, начиная с PDF 1.4, соответствующий писатель PDF может использовать запись Версия в Каталоге документа, чтобы переопределить версию, указанную в заголовке. Расположение Каталога в файле указано в корневой записи концевого / нижнего колонтитула файла.Эта функция переопределения была введена для облегчения постепенного обновления PDF-файла путем простого добавления в конец файла. В результате необходимо найти Каталог в файле, чтобы получить правильный номер версии. Если PDF не является «линеаризованным», и в этом случае Каталог находится впереди, для этого потребуется прочитать трейлер, а затем использовать ссылку там, чтобы найти Каталог, который обычно будет сжат. Это имеет практическое значение, поскольку инструменты идентификации формата, включая DROID, обычно ищут определенные символы в начале файла (т.е.е., в заголовке), чтобы позволить идентификацию с минимальными усилиями. DROID может искать символы в конце файла, но не может следить за косвенной ссылкой или распаковывать содержимое файла. Если номер версии в заголовке и в Каталоге не совпадает, существует вероятность ошибок идентификации формата. Сжатие «объектов потока» в файлах PDF : Объекты потока в файле PDF часто сжимаются. Для файлов PDF поддерживается ряд схем сжатия, обозначенных значениями фильтра, определенными в спецификации.Имена фильтров соответствуют декодированию / распаковке, которые необходимо применить для восстановления исходных данных. Фильтры можно объединять в конвейеры. Перечисленные ниже фильтры разрешены в общих файлах PDF. Однако некоторые фильтры не разрешены в «подмножествах стандартов для PDF», таких как PDF / A, PDF / X и PDF / E.
Фильтр Crypt (представленный в PDF 1.5) может использоваться для определения алгоритма шифрования, который был применен к потоку данных. Многие алгоритмы шифрования, поддерживаемые в более ранних хронологических версиях PDF, теперь устарели. PDF с тегами : Концепция PDF с тегами была введена в PDF 1.4. В дополнение к дереву содержимого, которое является частью любого PDF-файла, PDF-файл с тегами также имеет дерево структуры. Теги обеспечивают логическую структуру, которая управляет представлением содержимого документа с помощью вспомогательных технологий.Каждый тег идентифицирует связанный элемент содержимого, например абзац , заголовок третьего уровня , элемент списка |
---|
Использование PDF / A в качестве формата сохранения
PDF / A (или Portable Document Format Archival) — это формат, разработанный как формат сохранения цифровых записей, особенно документов.Однако этот формат также можно использовать для отсканированных документов. Это международный стандарт и подмножество формата PDF. Одно из главных достоинств форматов PDF заключается в том, что они являются открытыми стандартами, широко используются во всем мире и предназначены для записи изображений и машиночитаемого текста в один документ.
PDF / A может использоваться для хранения многих типов записей, но наиболее ценен как формат для хранения долговременных копий цифровых текстовых документов, таких как файлы Microsoft Word. Когда вы конвертируете такой файл в PDF / A, полученный файл сохраняет внешний вид исходного документа.Каждая страница исходного документа отображается как отдельная страница в файле сохранения, в обоих документах используются одни и те же шрифты, и вы можете искать текст в PDF / A так же, как и в оригинале. Если документ цветной, цвет тоже остается. По этим причинам PDF / A является хорошим форматом в тех случаях, когда внешний вид документа имеет значение для его интерпретации и понимания.
Другие цифровые файлы также могут быть преобразованы в PDF / A, включая обычные PDF-файлы, электронную почту, цифровые изображения и электронные таблицы.Вы даже можете преобразовать последовательность цифровых изображений в один PDF / A. Любой цифровой файл, который можно распечатать, можно преобразовать в PDF / A, хотя для некоторых документов этот формат лучше, чем для других. Формат лучше всего подходит для статических файлов, которые не меняются. Это не подходит для файлов, которые постоянно находятся в движении, например, для баз данных.
Бумажные документы также можно преобразовать в PDF / A во время сканирования, но в этом случае будет лучше, если вы также воспользуетесь программой оптического распознавания символов (OCR) для преобразования изображений букв в документе в электронный текст.Однако всякий раз, когда вы OCR документ, в преобразованном тексте будут ошибки данных. (Рекомендации по сканированию и распознаванию текстовых документов см. В Руководстве по обработке цифровых изображений Государственного архива за 2013 год.)
PDF / A имеет много преимуществ как формат файла для хранения записей с длительными или постоянными сроками хранения. Если вы рассматриваете другие форматы цифровых файлов в качестве вариантов для длительного или постоянного хранения, сравните их преимущества с преимуществами PDF / A. Приведенные ниже преимущества PDF / A будут служить контрольным списком функций, необходимых для любого формата сохранения.Обратите внимание, что вы найдете форматы файлов, которые обладают одним или даже несколькими из этих преимуществ, но именно их совокупность делает PDF / A хорошим форматом для сохранения. Microsoft Word, например, широко распространен и долговечен, но в нем отсутствуют другие важные функции, которые сделали бы его кандидатом на долгосрочное хранение записей.
Не зависит от платформы
С момента своего создания формат PDF был доступен на всех вычислительных платформах, и формат PDF / A имеет то же преимущество.Это означает, что PDF / A, созданный в среде Windows, будет прекрасно читаться и использоваться в среде Mac или наоборот.
Вездесущий
Нечто повсеместное — это то, что можно найти повсюду, а форматы PDF и PDF / A используются сотнями миллионов людей во всем мире каждый день. Ценность такого универсального использования PDF в том, что это означает, что он вряд ли исчезнет как формат в ближайшее время. Кроме того, поскольку PDF / A — это просто подмножество PDF, любой программный продукт, который может читать PDF, может читать PDF / A.Adobe бесплатно распространяет программное обеспечение Adobe Reader для чтения PDF-файлов, позволяя каждому читать PDF / A без дополнительных затрат на компьютерное оборудование или оборудование. (Его можно загрузить с http://get.adobe.com/reader/.)
Долговечный
Формат PDF существует с 1991 года, поэтому вряд ли он скоро исчезнет. Опять же, пока существует PDF, PDF / As будет легко читать и использовать.
Вспомогательные метаданные
Чтобы понять цифровой файл, вам часто требуются хорошие метаданные, чтобы дать ему контекст.Эти метаданные могут включать много информации, например имя автора и дату создания файла. Для цифровых файлов метаданные часто хранятся в самом файле, поэтому важно иметь возможность сохранять эти метаданные (и даже добавлять к ним) при преобразовании одного цифрового файла в другой. PDF / A специально разработан для поддержки расширенных метаданных.
Поддержка идеального преобразования
Цель любой программы преобразования, даже микрофильмирования и сканирования, — создать новую запись, максимально похожую на оригинал.PDF / A предназначен для многого в этой области: он сохраняет внешний вид и возможность поиска исходного файла и требует, чтобы исходные шрифты, цвета и макет сохранялись в создаваемом вами PDF / A. Формат PDF / A делает это, будучи самодостаточным, то есть сохраняя в самом файле всю информацию, необходимую для отображения документа. (Сюда входят шрифты и определения цвета, которые не всегда сохраняются в других форматах файлов.)
Открыть
Открытый формат файла — это формат, в котором спецификации доступны для всех и где каждый может использовать эти спецификации для разработки программного продукта для создания и чтения файлового формата.PDF / A всегда был стандартом хранения с момента его первоначального выпуска в 2005 году, поэтому он явно соответствует этому критерию.
Поддерживает подлинность
В цифровом мире, даже в большей степени, чем в аналоговом, важно гарантировать, что записи сохраняют эту аутентичность, что они не изменяются после их создания, чтобы они не содержали информацию, отличную от той, которую они изначально содержали. Ни один формат файла сам по себе не может гарантировать аутентичность, но PDF / A поддерживает аутентичность, поскольку его сложно (хотя и возможно) изменять и обеспечивая безопасность документа (например, цифровые подписи).
Расширяемый
Все это расширяемое означает, что читаемость цифрового файла будет расширяться в будущем, что файл не станет нечитаемым при изменении программного обеспечения. Стандарт PDF / A разработан таким образом, чтобы самый ранний PDF / A всегда был доступен для чтения в самой последней программе просмотра PDF. Это обеспечивается тем фактом, что каждая версия PDF / A всегда является подмножеством той, которая идет после нее, а это означает, что стандарт PDF / A-3 всегда поддерживает все характеристики исходного PDF / A-1, а также несколько дополнительных функций.
Хотя PDF / A имеет много преимуществ, у него есть и недостатки. Все цифровые файлы нельзя преобразовать в PDF / A. Иногда это происходит из-за того, что файлы имеют функции, которые запрещены в PDF / A, поскольку не существует известного способа сохранить эти функции с течением времени. К таким файлам относятся документы с аудио- и видеоданными или Javascript. PDF / A также является сложным форматом текста и изображений, и его сложность может стать проблемой в будущем. Наконец, некоторые цифровые файлы или записи просто не подходят для преобразования в PDF / A.Например, можно сохранить веб-сайт в формате PDF / A, но полученный файл будет громоздким и сложным в использовании. Поскольку PDF / As требует встраивания любых шрифтов, используемых в файле, они также могут быть больше, чем обычные PDF-файлы. Несмотря на эти недостатки, PDF / A является хорошим форматом для сохранения большинства цифровых документов.
Поскольку PDF / A разработан как формат, который со временем расширяет свои возможности, уже существует ряд различных версий PDF / A (PDF / A-1, -2 и -3).Помимо этого, каждое поколение формата имеет разные уровни соответствия, которые указывают степень, в которой каждое из них соответствует высшим целям PDF / A.
Все версии PDF / A объединены определенным набором поддерживаемых функций, которые в первую очередь можно свести к одной идее: каждый файл PDF / A должен быть самодостаточным, содержать в себе всю информацию, необходимую для читаться как полный файл. Может показаться, что все цифровые файлы самодостаточны, что в каждом из них есть все необходимое, чтобы сделать его читаемым, поскольку он был предназначен для чтения, но это не так.Например, если вы работаете с файлом Microsoft Word на работе, а затем открываете его дома, он может выглядеть совсем иначе: если у вас дома нет того же шрифта, что и на работе, тогда файл Word выберет ближайший шрифт, который он может найти на вашем компьютере. Файл Word не должен хранить в себе шрифты, которые он использует; вместо этого он сохраняет только информацию об используемом шрифте, а затем ищет этот шрифт в любой вычислительной среде, в которой он находится.
PDF / A, однако, должен встраивать в себя все свои шрифты, чтобы ему никогда не приходилось искать шрифты, которые ему нужны, чтобы полностью раскрыть себя пользователю.Для экономии места в файле будет храниться только необходимое ему подмножество шрифта, поэтому, если в файле нет заглавной буквы X, информация, показывающая этот символ, не сохраняется в файле. PDF / As также должны иметь неограниченное законное использование любых встроенных шрифтов, потому что в противном случае их нельзя будет точно просматривать в будущем. Некоторые шрифты содержат метаданные, которые не позволяют использовать их в PDF-файлах или ограничивают временные рамки, в течение которых шрифт может использоваться на законных основаниях. Если такие шрифты есть в документе, который вы пытаетесь преобразовать в PDF / A, вы не сможете создать из него PDF / A.
Помимо встроенных шрифтов, PDF / A также нуждается в независимом от устройства цвете, что означает, что отображение цвета в файле не может зависеть от вычислительного устройства, которое вы использовали для его просмотра. PDF / A имеет один из двух типов цветовой кодировки, чтобы гарантировать независимость устройства. Эти две проблемы, встроенные шрифты и независимый от устройства цвет, являются частью более широкого правила, согласно которому файл PDF / A не может иметь никаких ссылок на внешний контент.
Также важны для определения PDF / A требования к метаданным.Поскольку PDF / As являются архивными файлами, они должны включать метаданные, описывающие файл, и файл должен идентифицировать себя как PDF / A определенной версии. Поскольку расширение файла для PDF / A такое же, как и для любого типа PDF (все они .pdf), файл должен хранить внутри себя метаданные, которые точно определяют, какая это версия PDF / A.
PDF / A-1 (2005)
Стандарт ISO 19005-1: 2005
На основе ссылки PDF 1.4 (Acrobat 5)
Самая ранняя версия PDF / A — это PDF / A-1, номер один, означающий, что это первая в серии.PDF / A-1 также исключает функции, которые могут быть исключены из серии PDF / A навсегда или, по крайней мере, на долгое время. Поскольку средства сохранения определенного содержимого неизвестны, ни одна из версий PDF / A не поддерживает аудио- или видеоконтент, JavaScript или исполняемые файлы, а также 3D-моделирование, все из которых являются сложными формами данных. Шифрование запрещено во всех версиях PDF / A, поскольку оно может стать постоянным препятствием для доступа к архивной записи.
PDF / A-1 также поддерживает наименьшее количество функций по сравнению с любой версией PDF / A.Он не поддерживает прозрачность (это функция, которая поддерживает создание затенения текста, поскольку средства поддержки прозрачности в долгосрочной перспективе еще не найдены). Эта версия также не поддерживает сжатие JPEG2000 или встроенные файлы, которые поддерживаются во всех последующих версиях.
Уровень соответствия PDF / A-1a
Наивысший уровень соответствия любого PDF / A — это уровень 1a, где «a» означает «доступный». Этот уровень имеет все общие характеристики PDF / A, но также сохраняет логическую структуру документа.Это означает, что PDF / A-1a хранит информацию для сохранения текстового потока (или текстовых потоков) документа в порядке чтения. Например, если вы создадите PDF / A-1a информационного бюллетеня, файл будет знать, как направить вас с одной статьи на первой странице прямо туда, где она продолжается на пятой. Эта функция особенно важна для людей с ослабленным зрением, чьи программы чтения с экрана поймут метаданные в PDF / A-1a и логически проведут их по файлу. PDF / A-1a также должен указывать внутри себя язык, на котором он написан, и должен включать отображение Unicode.Юникод — это расширение ASCII. Там, где ASCII кодирует весь латинский алфавит, Unicode кодирует все системы письма, которые когда-либо существовали, что обеспечивает более точное представление текста в файле.
Уровень соответствия PDF / A-1b
Уровень соответствия PDF / A-1b — это ступенька ниже уровня 1a. (Буква «b» на этом уровне означает «базовый».) Этот уровень сохраняет внешний вид визуального формата файлов, как и все PDF / As, но не требует такого большого количества описательной информации, использования Unicode, сохранение порядка чтения текстового потока.Это делает PDF / A-1b менее доступным форматом (для слабовидящих), но по-прежнему создает пригодный для использования файл сохранения. Поскольку все PDF / As в соответствии с уровнем соответствия b легче создавать, они также имеют тенденцию быть более распространенными.
PDF / A-2 (2011)
Стандарт ISO 19005-2: 2011
На основе ссылки PDF 1.7
PDF / A-2 расширяет формат, поддерживая ряд различных функций: встраивание шрифтов OpenType (вместо шрифтов только PostScript), сжатие изображений JPEG2000, прозрачные объекты и слои (которые можно скрыть для поддержки просмотра многослойного документа).Эта версия также определяет использование цифровых подписей (что обеспечивает лучшую поддержку безопасности), определяет требования к созданию метаданных лицом, создающим PDF / A, и позволяет встраивать документы в PDF / A. В последнем случае только PDF / As может быть встроен в PDF / A, но это позволяет пользователям создавать наборы документов в одном файле (например, серию электронных писем или связанных отчетов).
Уровень соответствия PDF / A-2a
Этот уровень такой же, как PDF / A-1a, но с расширениями PDF / A-2.
Уровень соответствия PDF / A-2b
Этот уровень такой же, как PDF / A-1b, но с расширениями PDF / A-2.
Уровень соответствия PDF / A-2u
Уровень PDF / A-2u идентичен уровню PDF / A-2b, за исключением одного аспекта: он требует использования «Unicode». (U означает Unicode.) Как и версия 2b, версия 2u не представляет логическую структуру документа, но она немного лучше, чем 2b, потому что она лучше представляет текст в нескольких системах письма.
PDF / A-3 (2012)
Стандарт ISO 19005-3: 2012
На основе ссылки PDF 1.7
В настоящее время PDF / A-3 является последней версией формата, но новые версии PDF / A ожидаются и неизбежны. Эта новейшая версия включает только одно изменение версии PDF / A-2: она позволяет встраивать файлы любого типа в PDF / A. Ценность этого изменения заключается в том, что оно поддерживает практику сохранения исходного исходного файла вместе с созданным из него PDF / A. Это позволяет вам поддерживать обе версии как часть одного файла, что упрощает ваши методы сохранения, если вы следуете рекомендуемой практике цифрового сохранения, когда исходные цифровые файлы всегда хранятся вместе с их копиями для сохранения.
Уровень соответствия PDF / A-3a
Этот уровень такой же, как PDF / A-2a, но с расширением PDF / A-3.
Уровень соответствия PDF / A-3b
Этот уровень такой же, как PDF / A-2b, но с расширением PDF / A-3.
Уровень соответствия PDF / A-3u
Этот уровень такой же, как PDF / A-2u, но с расширением PDF / A-3.
Выбор версии PDF / A для использования
При принятии решения о том, какую версию PDF / A использовать, необходимо учитывать ряд факторов, но до некоторой степени подойдет любая версия.Если у вас есть только программное обеспечение, которое будет создавать PDF / A-1b и поддерживает все необходимые вам функции, то это хороший выбор, и он будет постоянным. Помните, что, учитывая расширяемость серии PDF / A, первая версия PDF / A совместима со всеми более поздними версиями, и нет причин конвертировать PDF / A в более новую версию формата PDF / A.
Есть несколько основных правил, которым вы можете следовать, делая свой выбор. Во-первых, наилучшим уровнем соответствия для использования всегда является уровень a, который всегда создает наиболее доступный файл.За исключением этого, вы должны выбрать уровень u для его кодировки Unicode, но имейте в виду, что базовый уровень (b) почти всегда будет достаточным для ваших нужд. Также имеет смысл использовать последнюю версию серии, которую вы можете создать, потому что это позволит вам поддерживать наибольшее количество функций.
Более важным фактором может быть кодировка цвета. Если вам нужно распечатать высококачественные копии документа, вам следует выбрать кодировку CMYK (что означает голубой, пурпурный, желтый и черный).Но если вы ожидаете, что будете читать файлы только на экране компьютера, то цвет RGB (для красного, зеленого и синего) — ваш лучший выбор.
Чтобы создать PDF / A, вам нужен продукт, который может создавать PDF / As. Одним из наиболее часто используемых продуктов является Adobe Acrobat Professional версии 8 и новее. Однако имейте в виду, что есть много других программных продуктов, которые вы также можете использовать, и некоторые из них имеют различные функции, которые могут оказаться вам полезными. (Список некоторых из этих продуктов см. В «Приложении A: Инструменты PDF / A.») Кроме того, ряд общих продуктов, таких как пакет Microsoft Office, теперь включает в себя инструменты для создания PDF / As, поэтому вам может вообще не понадобиться покупать какое-либо новое программное обеспечение, в зависимости от ваших потребностей. Однако, если вам нужно создать несколько PDF / As одновременно, вам нужно будет приобрести продукт, ориентированный на создание PDF / As, потому что они поддерживают пакетную обработку, которая позволяет конвертировать несколько документов одновременно.
Практика преобразования
Процесс преобразования цифрового файла в файл сохранения технически называется нормализацией.В этом процессе целевой формат (в данном случае PDF / A) должен соответствовать требованиям формата сохранения, поэтому не ожидается, что он исчезнет или станет непригодным для использования в ближайшем будущем. .
Перед преобразованием файлов необходимо убедиться, что на компьютере, который вы используете для нормализации, установлены необходимые шрифты. Без необходимых шрифтов вы не сможете создать PDF / A. Конечно, это не проблема при преобразовании отсканированного изображения в PDF / A.
Когда создавать PDF / A
Фактически у вас есть выбор, когда создавать PDF / A, и вы можете выбрать создание PDF / As на разных этапах жизненного цикла записей на основе ваших бизнес-процессов для разных записей.
В момент создания
Иногда вы можете создать PDF / A как исходный документ, таким образом полностью обойдя проблему преобразования. Это позволит вам начать жизнь документа в формате, который, как вы знаете, прослужит долго. Если вы сделаете это, вам придется делать это только с документами, которые вам не придется со временем изменять.Обычно PDF / As создаются при создании только как вывод из больших баз данных.
В момент записи
Запись — это процесс преобразования документа в запись. Например, вы можете создать несколько версий отчета, но только окончательная версия будет записью. Поэтому, когда вы завершите написание и редактирование этого отчета, вы можете сохранить файл как PDF / A, что замораживает файл, что затрудняет его изменение. Другое преимущество этого метода заключается в том, что он позволяет легко отличать промежуточные черновики от окончательной версии, потому что PDF / A всегда будет окончательным.
В момент архивирования
Большинство людей все еще конвертируют документы, бумажные и электронные, в PDF / As в момент архивирования, когда они решают сохранить запись как архивную запись, создав ее копию для сохранения .
Сканирование с бумаги
При сканировании с бумаги необходимо настроить сканер на создание файла, совместимого с PDF / A. Затем вы сканируете документ, сохраняя все страницы документа в одном PDF / A, и запускаете распознавание текста OCR, если необходимо, чтобы преобразовать текст в документе в интеллектуальный цифровой текст.
Преобразование существующих сканированных изображений
Если у вас есть цифровые изображения текстовых документов для преобразования в PDF / A, вы можете использовать программное обеспечение PDF для распознавания текста OCR и сохранить файл в выбранной вами версии PDF / A. При сканировании записей возможны только уровни соответствия b и u, предпочтительным является уровень u.
Использование двигателя Distiller
Один из методов преобразования файла в формат PDF / A доступен только в Adobe Acrobat — это движок Distiller.Distiller работает отдельно от Adobe Acrobat, но также является частью этого программного обеспечения. Обычно он доступен на панели задач вашего компьютера. Чтобы создать PDF / A с помощью Distiller, вы должны выбрать соответствующую настройку PDF, а затем сохранить или экспортировать файл. Движок Distiller иногда может быть немного удобнее, но у него нет других преимуществ, и он не может создать полностью доступный файл (то есть тот, который соответствует уровню соответствия a).
Преобразование из проприетарных программных продуктов
Вы также можете создавать PDF / A из многих программных продуктов, которые делают гораздо больше, чем создание PDF-файлов.К ним относятся программы для обработки текстов, электронных таблиц и верстки страниц. Обычно вы можете создать PDF / As, «распечатав» или сохранив файлы в PDF / A, но вы должны обязательно изменить настройки PDF в соответствии с вашими предпочтениями PDF / A. Вы также можете установить для программного обеспечения предпочтительные настройки по умолчанию для удобства использования в дальнейшем.
Преобразование из обычных PDF-файлов
Многие люди имеют хранилища обычных PDF-файлов, которые они хотят преобразовать в PDF / As в целях сохранения. Для этого вам, возможно, сначала придется удалить все функции, запрещенные в PDF / A, или вы можете запустить преобразование и посмотреть, возникают ли какие-либо ошибки во время преобразования.Если вы используете Adobe Acrobat, вам придется использовать его функцию предварительной проверки, чтобы преобразовать обычный PDF в PDF / A. Поскольку преобразования PDF в PDF / A заведомо безуспешны, вы можете приобрести продукт, предназначенный для таких преобразований. Продукт 3-Heights PDF в PDF / A анализирует файлы более подробно, чтобы обеспечить более высокий уровень успеха при преобразовании. Тем не менее, ни один продукт не всегда сможет создать PDF / A из обычных PDF-файлов.
Любая форма репрографии (например, микрофильмирование, визуализация или фотокопирование с сохранением) должна включать этап контроля качества, чтобы гарантировать получение точной копии оригинала.То же самое и с процессом нормализации.
Есть два основных шага к контролю качества PDF / A. Сначала вы должны визуально проверить документ, чтобы убедиться, что новый файл выглядит так же, как старый. Если преобразование каким-то образом пошло не так, вы должны увидеть это в файле, а затем повторить процессы преобразования после повторной проверки настроек и методологии. Второй шаг в контроле качества — проверка соответствия созданных файлов используемой вами версии стандарта PDF / A.Для этого вам нужно будет использовать любой из ряда инструментов проверки, включая функцию предварительной проверки Adobe Acrobat. Список таких продуктов см. В «Приложении B: Инструменты проверки PDF / A».
Сохранение записей включает в себя гораздо больше, чем просто создание PDF / As. Это требует длительной работы и постоянной бдительности. Вы должны разработать надежные процедуры конверсии, за которыми следует надлежащая практика контроля качества. Вам нужно будет создать и поддерживать метаданные в файлах, чтобы сделать их доступными и пригодными для использования.Вам нужно будет убедиться, что ваши средства контроля окружающей среды подходят для хранения электронных файлов, а средства контроля управления данными (особенно процедуры резервного копирования) являются разумными и последовательными. И вам нужно будет убедиться еще в одном факте: выбранный вами формат файла для хранения остается допустимым форматом сохранения. Прямо сейчас PDF / A — хороший формат для длительного хранения документов, особенно цифровых текстовых документов, но через десять лет это может измениться.
Adobe Acrobat
www.adobe.com
Apago
www.apagoinc.com
Каллас
www.callassoftware.com
Compart
www.compart.net
PDFlib
www.pdflib.com
PDF Tools AG
www.pdf-tools.com
Luratech
www.luratech.com
Функция предварительной проверки Adobe Acrobat
adobe.com
pdfaPilot компании Callas Software
callassoftware.com
PDF Tools AG: валидатор PDF 3-Heights
pdf-tools.com
Приложение C: Дополнительные ресурсы
PDF / A Standard
http: // www.aiim.org/shop/product/865
Extensible Metadata Protocol
http://aiim.org/documents/standards/xmpspecification.pdf
Общие ресурсы в формате PDF
http://www.planetpdf.com
Вопросы?
Электронная почта: [email protected].
Выдано 08.08.2013
Формат файла PDF: базовая структура [обновлено в 2020 г.]
Все мы знаем, что существует ряд атак, при которых злоумышленник включает некоторый шелл-код в документ PDF. Этот шелл-код использует некоторую уязвимость в том, как документ PDF анализируется и представляется пользователю для выполнения вредоносного кода в целевой системе.
На следующем изображении представлено количество уязвимостей, обнаруженных в популярной программе чтения PDF-файлов Adobe Acrobat Reader DC, выпущенной в 2015 году и ставшей единственной поддерживаемой версией Acrobat Reader после прекращения поддержки Acrobat XI в октябре 2017 года. Количество уязвимостей составляет увеличивается с годами. Наиболее важными уязвимостями являются уязвимости выполнения кода, которые злоумышленник может использовать для выполнения произвольного кода в целевой системе (если Acrobat Reader еще не исправлен).
Рисунок 1: Уязвимости Adobe Acrobat Reader DC
Это важный показатель того, что мы должны регулярно обновлять программу PDF Reader, потому что количество обнаруженных недавно уязвимостей весьма устрашающе.
Структура файла PDF
Всякий раз, когда мы хотим обнаружить новые уязвимости в программном обеспечении, мы должны сначала понять протокол или формат файла, в котором мы пытаемся обнаружить новые уязвимости. В нашем случае мы должны сначала подробно разобраться в формате файла PDF.В этой статье мы рассмотрим формат файла PDF и его внутреннее устройство.
PDF — это переносимый формат документов, который можно использовать для представления документов, содержащих текст, изображения, мультимедийные элементы, ссылки на веб-страницы и многое другое. Он имеет широкий спектр функций. Спецификация формата файла PDF общедоступна здесь и может использоваться всеми, кто интересуется форматом файла PDF. Документация только по формату PDF составляет почти 800 страниц, так что читать ее — это не то, что нужно делать по прихоти.
PDF имеет больше функций, чем просто текст: он может включать изображения и другие мультимедийные элементы, быть защищенным паролем, выполнять JavaScript и так далее. Базовая структура файла PDF представлена на рисунке ниже:
Рисунок 2: Структура PDF
Каждый документ PDF имеет следующие элементы:
Заголовок
Это первая строка файла PDF и указывает номер версии используемой спецификации PDF, которую использует документ.Если мы хотим это выяснить, мы можем использовать шестнадцатеричный редактор или просто использовать команду xxd , как показано ниже:
[plain]
# xxd temp.pdf | head -n 1
0000000: 2550 4446 2d31 2e33 0a25 c4e5 f2e5 eba7% PDF-1.3.% ……
[/ plain]
PDF-документ temp.pdf использует спецификацию PDF 1.3. Символ «%» является комментарием в PDF, поэтому в приведенном выше примере первая и вторая строки фактически представляют собой комментарии, что верно для всех PDF-документов. Следующие байты взяты из вывода ниже: 2550 4446 2d31 2e33 0a25 c4e5 и соответствуют тексту ASCII «% PDF-1.3.% ». Ниже приведены некоторые символы ASCII, в которых используются непечатаемые символы (обратите внимание на точки ‘.’), Которые обычно используются, чтобы сообщить некоторым программным продуктам, что файл содержит двоичные данные и не должен рассматриваться как 7-битный ASCII. текст. В настоящее время номера версий имеют вид 1.N, где N находится в диапазоне 0-7.
Тело
В теле документа PDF есть объекты, которые обычно включают в себя текстовые потоки, изображения, другие мультимедийные элементы и т. Д. Раздел Тело используется для хранения всех данных документа, показываемых пользователю.
Таблица внешних ссылок
Это таблица перекрестных ссылок, которая содержит ссылки на все объекты в документе. Назначение таблицы перекрестных ссылок состоит в том, что она обеспечивает произвольный доступ к объектам в файле, поэтому нам не нужно читать весь документ PDF, чтобы найти конкретный объект. Каждый объект представлен одной записью в таблице перекрестных ссылок, которая всегда имеет длину 20 байт. Давайте покажем пример:
[plain]
xref
0 1
0000000023 65535 f
3 1
0000025324 00000 n
21 4
0000025518 00002 n
0000025632 00000 n
0000000024 00001 f
00003000000 36900 00000 n
[/ plain]
Мы можем отобразить таблицу перекрестных ссылок документа PDF, просто открыв PDF в текстовом редакторе и прокрутив страницу вниз.В приведенном выше примере мы видим, что у нас есть четыре подраздела (обратите внимание на четыре строки, содержащие только два числа). Первое число в этих строках соответствует номеру объекта, а вторая строка указывает количество объектов в текущем подразделе. Каждый объект представлен одной записью длиной 20 байт (включая CRLF).
Первые 10 байтов — это смещение объекта от начала документа PDF до начала этого объекта. Далее следует разделитель пробелом с другим числом, указывающим номер поколения объекта.После этого идет еще один разделитель пробела, за которым следует буква «f» или «n», чтобы указать, свободен ли объект или используется.
Первый объект имеет идентификатор 0 и всегда содержит одну запись с номером поколения 65535, которая находится в начале списка свободных объектов (обратите внимание на букву «f», что означает «свободный»). Последний объект в таблице перекрестных ссылок использует номер поколения 0.
Второй подраздел имеет идентификатор объекта 3 и содержит один элемент, объект 3, который начинается со смещения 25324 байта от начала документа.Третий подраздел состоит из четырех объектов, первый из которых имеет идентификатор 21 и начинается со смещения 25518 от начала файла. Остальные объекты имеют следующие номера 22, 23 и 24.
Все объекты отмечены флажком «f» или «n». Флаг «f» означает, что объект все еще может присутствовать в файле, но помечен как свободный, поэтому его не следует использовать. Эти объекты содержат ссылку на следующий свободный объект и номер поколения, который будет использоваться, если объект снова станет действительным. Флаг «n» используется для представления действительных и используемых объектов, которые содержат смещение от начала файла и номер поколения объекта.
Обратите внимание, что нулевой объект указывает на следующий свободный объект в таблице, объект 23. Поскольку объект 23 также свободен, он сам указывает на следующий свободный объект в таблице, объект 24. Но объект 24 является последним свободным объектом. в файле, поэтому он указывает на нулевой объект. Если представить приведенную выше таблицу перекрестных ссылок с каждым номером объекта, она будет выглядеть следующим образом:
[plain]
xref
0 1
0000000023 65535 f
3 1
0000025324 00000 n
21 1
0000025518 00002 n
22 1
0000025632 00000 n
23 1
0000000024 00001 f
24 1
0000000000 00001 f
36 1
0000026900 00000 n
[/ plain]
Номер поколения объекта увеличивается, когда объект освобождается, поэтому, если объект снова становится действительным (меняет флаг с «f» на «n»), номер поколения остается действительным без необходимости его увеличения.Номер поколения объекта 23 равен 1, поэтому, если он снова станет действительным, номер поколения по-прежнему будет 1, но если он снова будет удален, номер поколения увеличится до 2.
В PDF обычно присутствует несколько подразделов. документы, которые были постепенно обновлены, в противном случае должен присутствовать только один подраздел, начинающийся с нуля.
Трейлер
Трейлер PDF указывает, как приложение, читающее документ PDF, должно найти таблицу перекрестных ссылок и другие специальные объекты.Все программы чтения PDF-файлов должны начинать чтение PDF-файла с конца файла. Пример трейлера представлен ниже:
трейлер
& amp; lt; & amp; lt;
/ Размер 22
/ Корень 2 0 R
/ Информация 1 0 R
& amp; gt; & amp; gt;
startxref
24212
%% EOF
Последняя строка документа PDF содержит конец строки файла «%% EOF». Перед концом тега файла находится строка со строкой startxref , которая указывает смещение от начала файла до таблицы перекрестных ссылок.В нашем случае таблица перекрестных ссылок начинается со смещения 24212 байт. Перед этим находится строка трейлер , которая определяет начало раздела трейлера. Содержимое разделов трейлера заключено в символы << и >> (это словарь, который принимает пары ключ-значение).
Мы видим, что в разделе трейлера определено несколько клавиш, каждая из которых предназначена для определенного действия. В разделе трейлера можно указать следующие ключи:
- / Размер [целое число]: указывает количество записей в таблице перекрестных ссылок (включая также объекты в обновленных разделах).Используемый номер не должен быть косвенной ссылкой.
- / Prev [целое число]: указывает смещение от начала файла до предыдущего раздела перекрестной ссылки, которое используется, если имеется несколько разделов перекрестных ссылок. Номер должен быть перекрестной ссылкой.
- / Корень [словарь]: Определяет объект ссылки для объекта каталога документов, который представляет собой специальный объект, который содержит различные указатели на различные типы других специальных объектов (подробнее об этом позже).
- / Encrypt [dictionary]: указывает словарь шифрования документа.
- / Info [словарь]: указывает объект ссылки для информационного словаря документа.
- / ID [массив]: Задает массив двухбайтовых незашифрованных строк, образующих идентификатор файла.
- / XrefStm [integer]: указывает смещение от начала файла до потока перекрестных ссылок в декодированном потоке. Это присутствует только в файлах гибридных ссылок, которые указываются, если мы также хотим открывать документы, даже если приложения не поддерживают сжатые потоки ссылок.
Мы должны помнить, что первоначальная структура может быть изменена, если мы обновим документ PDF позже. Обновление обычно добавляет дополнительные элементы в конец файла.
Инкрементальные обновления
PDF-файл был разработан с учетом инкрементных обновлений, поскольку мы можем добавлять некоторые объекты в конец PDF-файла без перезаписи всего файла. Благодаря этому изменения в PDF-документе можно быстро сохранить. Новую структуру PDF-документа можно увидеть на рисунке ниже:
Рисунок 3: PDF-структура
Мы видим, что PDF-документ по-прежнему содержит исходный заголовок, тело, таблицу перекрестных ссылок и трейлер.Кроме того, в PDF-документ были добавлены другие разделы основного текста, перекрестных ссылок и трейлера. Дополнительные разделы перекрестных ссылок будут содержать только записи для объектов, которые были изменены, заменены или удалены. Удаленные объекты останутся в файле, но будут отмечены флажком «f». Каждый трейлер должен заканчиваться тегом «%% EOF» и содержать запись / Prev, которая указывает на предыдущий раздел перекрестных ссылок.
В PDF версиях 1.4 и выше мы можем указать запись версии в словаре каталога документа, чтобы заменить версию по умолчанию из заголовка PDF.
Пример
Давайте представим простой пример PDF и проанализируем его. Давайте загрузим отсюда образец PDF-документа и проанализируем его. При открытии этого PDF-документа он выглядит следующим образом:
Рисунок 4: Образец PDF-документа
Перекрестные ссылки и концевые разделы представлены на рисунке ниже:
Рисунок 5: Cross- Разделы ссылок и трейлера
Раздел перекрестных ссылок был уменьшен для ясности.Раздел перекрестных ссылок содержит один подраздел, который содержит 223 объекта. Раздел трейлера начинается со смещения байта 50291, включает 223 объекта, где корневой элемент указывает на объект 221, а элемент информации указывает на объект 222.
В следующем разделе мы рассмотрим основные типы данных структуры PDF.
Типы данных PDF
Документ PDF содержит восемь основных типов объектов, описанных ниже. Эти типы: логические, числа, строки, имена, массивы, словари, потоки и нулевой объект.Объекты могут быть помечены, чтобы на них могли ссылаться другие объекты. Помеченный объект также называется косвенным объектом.
Логические значения
Есть два ключевых слова: истина, и ложь, , которые представляют логические значения.
Числа
В документе PDF есть два типа чисел: целые и действительные. Целое число состоит из одной или нескольких цифр, которым может предшествовать знак плюс или минус. Пример целочисленных объектов можно увидеть ниже:
Реальное значение может быть представлено одной или несколькими цифрами, с дополнительным знаком и ведущей, конечной или встроенной десятичной точкой (точкой).Пример действительных чисел можно увидеть ниже:
- 123.0 -123.0 +123.0 123. -.123
Имена
Имена в документах PDF представлены последовательностью символов ASCII в диапазоне 0x21 — 0x7E. Исключение составляют символы:%, (,), <,>, [,], {,}, / и #, которым должна предшествовать косая черта. Альтернативное представление символов — их шестнадцатеричный эквивалент, которому предшествует символ «#». Существует ограничение на длину элемента имени, которая может составлять всего 127 байт.
При написании имени необходимо использовать косую черту для введения имени; косая черта не является частью имени, а является префиксом, указывающим, что далее следует последовательность символов, представляющих имя. Если мы хотим использовать пробел или любой другой специальный символ как часть имени, он должен быть закодирован в двузначной шестнадцатеричной системе счисления.
Примеры имен можно увидеть в таблице ниже:
Рисунок 6: Имена PDF (источник)
Строки
Строки в документе PDF представлены в виде серии байтов, окруженных круглыми скобками или углом квадратные скобки, но не может быть длиннее 65535 байт.Любой символ может быть представлен в виде ASCII, а также в восьмеричном или шестнадцатеричном представлении. Восьмеричное представление требует, чтобы символ был записан в форме ддд, где ддд — восьмеричное число. Шестнадцатеричное представление требует, чтобы символ был записан в форме
Пример представления строки, заключенной в круглые скобки, можно увидеть ниже:
Пример представления строки, заключенной в угловые скобки, можно увидеть ниже (шестнадцатеричное представление ниже такое же, как и выше, и читается как «mystring») :
Мы также можем использовать специальные хорошо известные символы при представлении строки.Это: n для новой строки, r для возврата каретки, t для горизонтального табулятора, b для возврата, f для подачи формы, (для левой скобки) для правой скобки и для обратной косой черты.
Массивы
Массивы в документах PDF представлены как последовательность объектов PDF, которые могут быть разных типов и заключены в квадратные скобки. Вот почему массив в документе PDF может содержать любые типы объектов, такие как числа, строки, словари и даже другие массивы. В массиве также могут быть нулевые элементы.Массив обозначается квадратной скобкой. Пример массива представлен ниже:
- 123 123.0 true (mystring) / myname]
Словари
Словари в документе PDF представлены в виде таблицы пар ключ / значение. Ключ должен быть объектом имени, тогда как значением может быть любой объект, включая другой словарь. Максимальное количество статей в словаре — 4096 статей. Словарь может быть представлен статьями, заключенными в двойные угловые скобки << и >>.Пример словаря представлен ниже:
& lt; & lt; / mykey1 123
/ mykey2 0,123
/ mykey3 & lt; & lt; / mykey4 true
/ mykey5 (mystring)
& gt; & gt;
& gt; & gt;
Потоки
Объект потока представлен последовательностью байтов и может быть неограниченной по длине, поэтому изображения и другие блоки больших данных обычно представляются как потоки.Объект потока представлен объектом словаря, за которым следует поток ключевых слов, за которым следует новая строка и конечный поток.
Пример объекта потока можно увидеть ниже:
& lt; & lt;
/ Тип / Страница
/ Длина 23 0 R
/ Фильтр / LZWDecode
& gt; & gt;
поток
…
конечный поток
Все объекты потока должны быть косвенными объектами, а словарь потока должен быть прямым объектом. Словарь потока указывает точное количество байтов потока.После данных должна быть новая строка и ключевое слово endstream.
Общие ключевые слова, используемые во всех словарях потоков, следующие (обратите внимание, что запись Length является обязательной):
- Length: Сколько байтов файла PDF используется для данных потока. Если поток содержит запись фильтра, длина должна указывать количество байтов закодированных данных.
- Тип: Тип объекта PDF, описываемого в словаре.
- Фильтр: имя фильтра, который будет применяться при обработке данных потока.Можно указать несколько фильтров в порядке их применения.
- DecodeParms: словарь или массив словарей, используемых фильтрами, указанными в Filter. Это значение определяет параметры, которые необходимо передать фильтрам при их применении. В этом нет необходимости, если фильтры используют значения по умолчанию.
- F: указывает файл, содержащий данные потока.
- FFilter: имя фильтра, который будет применяться при обработке данных, обнаруженных во внешнем файле потока.
- FDecodeParms: словарь или массив словарей, используемых фильтрами, указанными FFilter.
- DL: указывает количество байтов в декодируемом потоке. Это можно использовать, если на диске достаточно места для записи потока в файл.
- N: количество косвенных объектов, хранящихся в потоке.
- Первый: смещение в декодированном потоке первого сжатого объекта.
- Extends: указывает ссылку на другие потоки объектов, которые образуют дерево наследования.
Данные потока в потоке объектов будут содержать N пар целых чисел, где первое целое число представляет номер объекта, а второе целое число представляет смещение в декодированном потоке этого объекта. Объекты в потоках объектов являются последовательными, и их не нужно сохранять в порядке возрастания относительно номера объекта. Первая запись в словаре идентифицирует первый объект в потоке объектов.
Нельзя хранить следующую информацию в потоке объектов:
- Объекты потока
- Объекты с номером поколения, отличным от нуля
- Словарь шифрования документа
- Косвенный объект записи Length в словаре потока объектов
- Каталог документов, словарь линеаризации, объекты страниц
В PDF 1.5, информация о перекрестных ссылках может храниться в потоке перекрестных ссылок вместо таблицы перекрестных ссылок. Каждый поток перекрестных ссылок содержит информацию, эквивалентную таблице перекрестных ссылок и трейлеру.
Нулевой объект
Нулевой объект представлен ключевым словом «null».
Косвенные объекты
Прежде всего, мы должны знать, что любой объект в документе PDF может быть помечен как косвенный объект. Это дает объекту уникальный идентификатор объекта, который другие объекты могут использовать для ссылки на косвенный объект.Косвенный объект — это пронумерованный объект, представленный ключевыми словами «obj» и «endobj». Endobj должен присутствовать в отдельной строке, но obj должен находиться в конце строки идентификатора объекта, которая является первой строкой косвенного объекта. Строка идентификатора объекта состоит из номера объекта, номера поколения и ключевого слова «obj». Пример косвенного объекта:
2 1 obj
12345
endobj
В приведенном выше примере мы создаем новый косвенный объект, который содержит объект с номером 12345.Объявляя объект косвенным объектом, мы можем использовать его в таблице перекрестных ссылок документа PDF и повторно использовать его на любой странице, в словаре и т. Д. В документе. Поскольку каждый косвенный объект имеет свою собственную запись в таблице перекрестных ссылок, к косвенным объектам можно получить доступ очень быстро.
Идентификатор косвенного объекта состоит из двух частей; первая часть — это номер текущего косвенного объекта. Непрямые объекты не нужно нумеровать последовательно в документе PDF.Вторая часть — это номер поколения, который устанавливается равным нулю для всех объектов во вновь созданном файле. Это число позже увеличивается при обновлении объектов.
Мы можем ссылаться на косвенные объекты с помощью косвенной ссылки, которая состоит из номера объекта, номера поколения и ключевого слова R. Чтобы ссылаться на вышеупомянутый косвенный объект, мы должны написать что-то вроде ниже:
Если мы пытаемся ссылаясь на неопределенный объект, мы фактически ссылаемся на нулевой объект.
Структура документа
Документ PDF состоит из объектов, содержащихся в основной части файла PDF. Большинство объектов в документе PDF — это словари. Каждая страница документа представлена объектом страницы, который представляет собой словарь, включающий ссылки на содержимое страницы. Объекты страниц связаны между собой и образуют дерево страниц, которое объявляется с косвенной ссылкой в каталоге документов.
Вся структура PDF-документа может быть представлена на рисунке ниже [1]:
Рисунок 7: Структура PDF-документа (источник)
На рисунке выше мы видим, что документ Каталог содержит ссылки на дерево страниц, иерархию структуры, цепочки статей, именованные места назначения и интерактивную форму.Мы не будем вдаваться в подробности того, что делает каждый из этих разделов, но представим только самый важный раздел — дерево страниц.
Каталог документов
Из рисунка выше мы видим, что Каталог документов является корнем объектов в документе PDF. Мы уже говорили, что это элемент / Root в разделе Trailer PDF, который определяет каталог документов. Каталог документов содержит ссылки на другие объекты, которые определяют содержание документа. Он также содержит информацию о том, как документ будет отображаться на экране.В каталоге документов представлены следующие записи:
- / Тип: Тип объекта PDF, описываемого каталогом (в нашем случае это Каталог, поскольку это объект каталога документов).
- / Версия: Версия спецификации PDF, на основе которой был создан документ.
- / Extensions: Информация о расширениях для разработчиков в этом документе.
- / Pages: косвенная ссылка на объект, являющийся корнем дерева страниц документа.
- / Dests: косвенная ссылка на объект, который является корнем указанного объекта назначения.
- / Outlines: косвенная ссылка на объект каталога структуры, который является корнем иерархии структуры документа.
- / Threads: косвенная ссылка на массив словарей потоков, которые представляют цепочки статей документа.
- / Метаданные: косвенная ссылка на поток метаданных, который содержит метаданные для документа.
Есть много других записей, которые мы можем видеть как часть каталога документов, но не будем описывать их здесь.Подробности читатель может посмотреть в наших источниках. Пример каталога документов представлен ниже:
1 0 obj
& lt; & lt; / Тип / Каталог
/ Страницы 2 0 R
/ PageMode / UseOutlines
/ Outlines 3 0 R
& gt; & gt;
endobj
Дерево страниц
Доступ к страницам документа осуществляется через дерево страниц, которое определяет все страницы в документе PDF. Дерево содержит узлы, которые представляют страницы документа PDF, которые могут быть двух типов: промежуточные и листовые узлы.Промежуточные узлы также называются узлами дерева страниц, а конечные узлы — объектами страницы.
Простейшая древовидная структура страницы может состоять из одного узла дерева страниц, который напрямую ссылается на все объекты страницы (так что все объекты страницы являются листами).
Каждый узел в дереве страниц должен иметь следующие записи:
- / Тип: Тип объекта PDF, описываемого этим объектом (в нашем случае это Pages , поскольку мы говорим об узлах дерева страниц).
- / Родитель: должен присутствовать во всех узлах дерева страниц, кроме корневого, где эта запись не должна присутствовать. Эта запись указывает своего родителя.
- / Kids: Должен присутствовать во всех узлах дерева страниц, кроме листьев, и указывает все дочерние элементы, непосредственно доступные из текущего узла.
- / Count: Определяет количество конечных узлов, которые являются потомками этого узла в последующем дереве страниц.
Мы должны помнить, что дерево страниц не имеет отношения ни к чему в документе PDF, например к страницам или главам.
Базовый пример дерева страниц показан ниже:
2 0 obj
& lt; & lt; / Тип / Страницы
/ Дети [4 0 R
10 0 R
24 0 R
]
/ Счетчик 3
& gt; & gt;
endobj
4 0 obj
& lt; & lt; / Тип / Страница
…
& gt; & gt;
endobj
10 0 obj
& lt; & lt; / Тип / Страница
…
& gt; & gt;
endobj
24 0 obj
& lt; & lt; / Тип / Страница
…
& gt; & gt;
endobj
Дерево страниц выше определяет объект Root с идентификатором 2, у которого есть три дочерних объекта, объекты 4, 10 и 20.Мы также можем видеть, что листья дерева страниц — это словари, определяющие атрибуты отдельной страницы документа. Есть несколько атрибутов, которые мы можем использовать при их определении для каждой страницы документа.
Мы рассмотрели базовую структуру документа PDF и типы данных. Если мы хотим начать поиск уязвимостей в программах для чтения PDF-файлов, нам необходимо изменить PDF-документ таким образом, чтобы программа для чтения PDF-файлов не могла с этим справиться и вылетела из строя. Обычно, если нам удается вызвать сбой программы чтения PDF-файлов, мы обнаруживаем уязвимость системы безопасности, которую можем использовать для выполнения произвольного кода на целевой машине.
Пример
В этой статье мы рассмотрим очень простой пример документа PDF. Сначала нам нужно создать PDF-документ, чтобы затем мы попытались его проанализировать. Чтобы создать документ PDF, давайте сначала создадим очень простой документ .tex, который содержит то, что показано на рисунке ниже:
Рисунок 8: Простой документ
Мы видим, что документ .tex не действительно содержат много. Сначала мы определяем документ как статью, а затем включаем содержимое статьи в начальный и конечный документ.Мы добавляем новый раздел с заголовком (Введение) и статическим текстом «Hello World!».
Мы можем скомпилировать документ .tex в документ PDF с помощью команды pdflatex и указав имя файла .tex в качестве аргумента. Полученный PDF-файл будет выглядеть так, как показано на рисунке ниже:
Рисунок 9: Результат
Мы видим, что PDF-документ действительно не содержит очень много, только текст, который мы фактически включили, и никаких изображения, JavaScript или другие элементы.
Пример 1
Давайте посмотрим на структуру документа PDF, которая представлена в выводе ниже:
% PDF-1.5
% ÐÔÅØ
3 0 obj & lt; & lt;
/ Длина 138
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
endobj
10 0 obj & lt; & lt;
/ Длина2 1526
/ Длина3 7193
/ Длина4 0
/ Длина 8194
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
endobj
12 0 obj & lt; & lt;
/ Длина2 1509
/ Длина3 9410
/ Длина4 0
/ Длина 10422
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
endobj
15 0 obj & lt; & lt;
/ Производитель (pdfTeX-1.40.12)
/ Creator (TeX)
/ CreationDate (D: 20121012175007 + 02’00 ‘)
/ ModDate (D: 20121012175007 + 02’00’)
/ Trapped / False
/PTEX.Fullbanner ( Это pdfTeX, версия 3.1415926-2.3-1.40.12 (TeX Live 2011) kpathsea версия 6.0.1)
& gt; & gt; endobj
6 0 obj & lt; & lt;
/ Тип / ObjStm
/ N 10
/ Первая 65
/ Длина 761
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
endobj
16 0 obj & lt; & lt;
/ Тип / XRef
/ Индекс [0 17]
/ Размер 17
/ W [1 2 1]
/ Корневой 14 0 R
/ Инфо 15 0 R
/ ID [& lt; 1DC2E3E09458B63B67B56 & gt; ; & lt; 1DC2E3E09458C9B4BEC8B67F56B57B63 & gt;]
/ Длина 60
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
endobj
startxref
20215
%% EOF
Для создания такого простого PDF-документа достаточно много необходимых элементов, поэтому мы можем представить себе действительно сложный PDF-документ будет смотреться.Мы также должны помнить, что все потоки закодированных данных были удалены и заменены тремя точками для ясности и краткости.
Давайте представим каждый из разделов PDF. Заголовок можно увидеть на рисунке ниже:
Рисунок 10: Заголовок PDF
Тело можно увидеть на рисунке ниже:
Рисунок 11: тело PDF
Раздел xref может можно увидеть на рисунке ниже:
Рисунок 11: PDF xref
И, наконец, раздел Trailer представлен ниже:
Рисунок 12: PDF трейлер
Мы представили все разделы PDF-документа, но нам еще предстоит их проанализировать.Заголовок PDF-документа стандартный, и нам не нужно об этом говорить, поэтому оставим текст на потом.
Вот почему мы должны сначала взглянуть на раздел xref. Мы видим, что смещение от начала файла до таблицы внешних ссылок составляет 20215 байт, что в шестнадцатеричной форме равно 0x4ef7. Если мы посмотрим на шестнадцатеричное представление файла, которое мы можем получить с помощью инструмента xxd, мы увидим то, что представлено на рисунке ниже:
Рисунок 13: Шестнадцатеричное представление файла
Выделенные байты лежат точно в начале смещения 20125 байт от начала файла.Предыдущие байты 0x0a — это новая строка, а текущие байты 0x31 представляют собой число 1, которое в точности является началом таблицы внешних ссылок. Вот почему таблица xref представлена косвенным объектом с идентификатором 16 и номером поколения 0. (Это должно быть так для всех объектов, поскольку мы только что создали документ PDF и ни один из объектов еще не был изменен. Если мы Посмотрите на весь PDF-документ, и мы увидим, что это действительно так; все объекты имеют нулевой номер поколения.)
Параметр / Type косвенного объекта классифицирует его как таблицу внешних ссылок.Массив / Index содержит пару целых чисел для каждого подраздела этого раздела. Первое целое число указывает номер первого объекта в подразделе, а второе целое число указывает количество записей в подразделе. В нашем примере номер объекта равен нулю, и в этом подразделе 17 записей. Это также указывается в директиве / Size. Обратите внимание, что это число на единицу больше наибольшего числа любого номера объекта в подразделе. Атрибут / W определяет массив целых чисел, представляющих размер полей в записи перекрестной ссылки, что означает, что поля являются одним байтом, двумя байтами и одним байтом.
После этого идет элемент / Root, который указывает каталог каталога для документа PDF как объект номер 14. / Info — это каталог информации документа PDF, который содержится в объекте номер 15. Массив / ID необходим, потому что запись Encrypt присутствует и содержит две строки, составляющие идентификатор файла. Эти две строки используются в качестве входных данных для алгоритма шифрования.
Параметр / Length указывает длину ключа шифрования в битах; значение должно быть кратным 8 в диапазоне от 40 до 128 (значение по умолчанию — 40).В нашем случае длина ключа шифрования составляет 60 бит. / Filter указывает имя обработчика безопасности для этого документа; это также обработчик безопасности, который использовался для шифрования документа. В нашем случае это FlateDecode, который кодирует данные с помощью метода сжатия zlib / deflate.
Мы видим, что другая часть таблицы внешних ссылок сжата, поэтому мы не можем ее прочитать. Конечно, мы могли бы применить какой-нибудь алгоритм распаковки zlib к сжатым данным, но есть вариант получше.Зачем нам писать программу для этого, если инструмент уже существует? С помощью pdftk мы можем восстановить поврежденную таблицу внешних ссылок PDF-файла с помощью следующей команды:
- # pdftk in.pdf output out.pdf
После этого файл out.pdf содержит следующие разделы внешних ссылок и трейлеров:
Рисунок 14: xref и трейлер
Очевидно, что номера объектов / Root и / Info изменились, а также другие вещи, но мы получили ключевые слова трейлера и xref, которые определяют таблицу внешних ссылок.Мы видим, что в таблице внешних ссылок 14 объектов.
Мы могли бы продолжить и попытаться расшифровать и другие разделы, но это выходит за рамки данной статьи. Затем мы проверим документ, который не закодирован.
Пример 2
Давайте взглянем на образец документа PDF, доступный здесь. Некоторые объекты потока зашифрованы, но сейчас они не так важны. Поскольку мы уже знаем, как работать с PDF-документами, мы не потеряем слишком много слов в простых вещах.
Давайте откроем этот PDF-файл в текстовом редакторе, таком как gvim, и посмотрим на раздел трейлера.К настоящему времени мы должны знать, что все документы PDF следует читать от конца до начала. Трейлер представлен на рисунке ниже:
Рисунок 15: трейлер PDF
Давайте также представим внешнюю ссылку с несколькими объектами (остальные были отброшены для ясности):
Рисунок 16 : PDF xref
Мы видим, что корневой каталог / документа PDF содержится в объекте с ID 221, а в объекте 222 есть дополнительная информация.Объект 221 — самый важный объект во всем документе, поэтому давайте представим его:
Рисунок 17: Объект 221
Мы видим, что этот объект действительно является Каталогом документов. Объект дерева страниц — 212, объект Outlines — 213, объект Names — 220, а объект OpenAction — 58. Мы не говорили ни о каких других типах, кроме объекта дерева страниц, поэтому продолжим разговор о дереве страниц. Только.
Объект дерева страниц с идентификатором 212 представлен на рисунке ниже:
Рисунок 18: Объект дерева страниц
Итак, объект 212 содержит фактические страницы документа PDF.Он содержит 10 страниц, что совершенно верно (мы можем проверить это, если откроем PDF-файл с помощью любого PDF-ридера и проверим количество страниц).
Мы знаем, что атрибут Kids определяет все дочерние элементы, напрямую доступные из текущего узла. В нашем случае есть два прямых дочерних узла с идентификаторами объекта 66 и 135. Объект 66 представлен ниже:
Рисунок 19: Объект 66
Объект 66 содержит другие дочерние элементы с идентификаторами 57, 69, 75, 97, 108 и 120.
Рисунок 20: Объект 135
Объект 135 дополнительно определяет объекты 129, 138, 133 и 158.
Если мы посчитаем все элементы, мы увидим, что их ровно 10, что означает 10 страниц. 10 страниц. Это также подразумевает, что все представленные объекты на самом деле являются фактическими страницами документа PDF и не содержат дополнительных дочерних узлов.
Все представленные объекты объявлены одинаково, поэтому мы не будем рассматривать каждый из них по очереди.Вместо этого мы просто рассмотрим один объект, а именно объект 57. Объект 57 содержит, объявлен следующим образом:
Рисунок 21: Объект 57
Мы видим, что тип объекта — / Page, что прямо подразумевает, что это листовой узел, представляющий одну из страниц документа PDF. Содержимое этой PDF-страницы можно найти в объекте 62:
Рисунок 22: Object 62
Мы видим, что фактическое содержимое PDF-страницы закодировано с помощью FlateDecode, который представляет собой простой zlib. алгоритм кодирования.
Заключение
Мы видели два примера создания PDF-документов. Обладая полученными знаниями, мы можем начать создавать неправильные PDF-документы и передавать их различным программам для чтения PDF-файлов. В случае сбоя определенного PDF-ридера при чтении определенного PDF-документа этот документ содержит что-то, что программа PDF-ридера не может обработать. Это подразумевает возможность уязвимости, которую необходимо изучить дополнительно.
В конце, если обнаружится наличие уязвимости, мы даже можем написать PDF-документ, содержащий вредоносный код, который выполняется, когда жертва открывает PDF-документ с помощью уязвимого PDF-ридера на своей целевой машине.В таких случаях вся машина может быть скомпрометирована, поскольку произвольный вредоносный код может быть запущен, просто открыв вредоносный документ PDF.
Источники
Статистика уязвимостей, сведения о CVE
Политики поддержки Adobe: поддерживаемые версии продуктов, Adobe
Управление документами — Переносимый формат документа — Часть 1: PDF 1.7, Adobe (Archive.org)
Ссылки:
[1 ]: Формат файла PDF, доступный по адресу: http://wwwimages.adobe.com/www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf.
Определение, как открыть и преобразовать?
PDF — это аббревиатура от переносимого файла формата документа, который является одним из наиболее часто используемых типов файлов. Он появился в 2008 году благодаря Adobe Systems. Разработчики хотели создать универсальный формат документа, который будет выглядеть одинаково независимо от используемого вами устройства. Всемирно признанным приложением для просмотра и комментирования документов в формате PDF является Adobe Acrobat Pro.Но вам нужно выбирать между версиями Adobe Acrobat Standard и Pro. Скачать Adobe Acrobat Pro бесплатноЧто такое файл PDF?
Формат PDF используется для хранения и передачи текстовой и графической информации по сети, например, для передачи фирменных бланков в типографию или размещения анкеты на сайте. Это очень полезно, если вам нужно продемонстрировать свои практические разработки: легко показать, сложно отредактировать. Таким образом, шансы, что ваша интеллектуальная собственность будет украдена, минимальны.
Формат PDF позволяет вставлять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедийные вставки. Он поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap и несколько типов сжатия растровой информации.
Такие файлы изначально предназначены ни для просмотра, ни для редактирования. Пользователям нравится работать с этими файлами, потому что они не искажают и не изменяют форматирование документа, а это означает, что он будет выглядеть одинаково на разных устройствах. Обмениваясь PDF файлами книгами, вы можете быть уверены, что каждый, кто их откроет, увидит один и тот же документ в том виде, в каком вы его расположили.
Плюсы +
- Стандартные и популярные
- Занимает мало места на жестком диске
- Безопасно использовать
Минусы-
- PDF редактор (Adobe Acrobat Pro) платный
- Сложно работать с текстом, так как распознается как картинка
Как открыть файл PDF?
Открыть и просмотреть PDF-файл довольно просто. Большинство современных веб-браузеров открывают файлы PDF непосредственно в окне браузера, а не загружают их на компьютер.Если ваш браузер не может этого сделать, он предложит вам скачать файл.
Если вам нужно просмотреть файл PDF только один раз, обычно удобнее открыть его в веб-браузере. Если вы собираетесь дальше работать с этим файлом, лучше сохраните его на своем компьютере. Чтобы сделать вашу работу легкой и быстрой, я описал несколько программ, предназначенных для открытия файлов PDF.
Профессиональное программное обеспечение для открытия файла PDF
Adobe Acrobat Pro . Adobe Acrobat Pro заслуженно называют лучшим PDF-ридером, так как в этой программе есть множество интересных функций и инструментов для работы с этим форматом файлов.Например, вы можете использовать инструмент сравнения, чтобы определить различия между двумя версиями одного и того же документа. Если вы используете Acrobat Pro для создания PDF-файла, вы получите смарт-файл, который подлежит редактированию, подписанию, совместному использованию и поиску. Если вы хотите проверить, как ваш документ будет выглядеть на разных устройствах, вы можете воспользоваться встроенной функцией предварительного просмотра.
ФантомПДФ . Это мощный инструмент для создания и чтения PDF-файлов с множеством удобных функций, которые дают вам полный контроль над тем, как выглядят ваши PDF-файлы.Например, вы можете определить, кому разрешено работать с вашим документом, информировать читателей об обновлениях, видеть, кто открыл ваш PDF-файл, и отправить запрос файла своим коллегам. Кроме того, эта программа содержит множество полезных инструментов для редактирования, что не может не радовать профессиональных пользователей. Таким образом, можно изменить макет документа, изменить положение и последовательность абзацев, страниц и столбцов, добавить заголовки, штампы, нижние колонтитулы, водяные знаки, чтобы придать вашему документу официальный вид. Кроме того, вы можете сгруппировать несколько PDF-файлов в один файл или сделать наоборот.
Бесплатное программное обеспечение для открытия файла PDF
Foxit Reader . Если вы ищете бесплатный редактор PDF, Foxit Reader может стать вашим вариантом. Используя его, вы можете создавать PDF-файлы, делиться ими с другими читателями и контролировать проблемы безопасности. Если вы заинтересованы в создании такого файла, вы можете использовать документы из других программ (Word, Excel, PowerPoint) и преобразовать их в PDF. Кроме того, Foxit Reader поддерживает объединение нескольких PDF-файлов в один файл. Если в общем проекте участвует целая команда, и им нужен доступ к определенному PDF-файлу, вы можете предоставить всем участникам доступ к документу, отслеживать, кто его открыл и какие изменения были внесены.Как и предыдущая программа, Foxit Reader также позволяет уведомлять вашу аудиторию об обновлениях вашего PDF-файла.
Ваш веб-браузер . Самый простой способ открыть файл PDF — это использовать веб-браузер, поскольку большинство современных браузеров имеют эту функцию. Просто щелкните ссылку PDF, и файл откроется в новой вкладке. Вот так просто. Вы также можете просматривать PDF-файлы, которые уже есть на вашем компьютере, перетаскивая их на открытую вкладку в браузере. Используя этот способ, вы также можете проверить функции поворота, загрузки, печати и изменения размера текста, уже интегрированные в ваш браузер.
Открыть файл PDF в Интернете
Сейда . Sejda — это бесплатный онлайн-редактор PDF с набором хороших инструментов и улучшенной безопасностью — файлы автоматически удаляются с серверов через 5 часов. Используя этот редактор PDF, вы можете вставлять фотографии, надписи, ссылки, геометрические фигуры, аннотации, а также подписывать документы. Встроенная функция «белого цвета» подразумевает рисование белых прямоугольников, но это не помогает удалить данные. Кроме того, в редакторе отсутствует распознавание текста, поэтому вы не можете изменять текст в отсканированном документе.
PDFescape . Существуют онлайн-версии и настольные версии, причем последняя более функциональна. В любом случае, используя онлайн-редактор PDF, вы можете создавать и добавлять текстовые поля (нет возможности изменить текст) и вставлять геометрические фигуры, чтобы покрыть определенные области документа при его печати. Также можно добавить фотографию, хранящуюся на компьютере, или вставить текстовые поля, тем самым создавая простые формы.
Как конвертировать PDF?
Используя программы, описанные ниже, вы можете конвертировать PDF в Word, Excel, PowerPoint и многие другие форматы.Тип файла PDF (отсканированный, исходный или защищенный паролем) не имеет значения.
PDFelement . Поистине универсальный конвертер PDF. Вы можете конвертировать свои PDF-файлы в большинство широко используемых форматов или обратно. PDFelement также может пригодиться, если вам нужно создать файл PDF или изменить страницы, фотографии, текст. Обладая функцией распознавания текста, эта программа позволяет изменять даже отсканированные документы PDF. Защита безопасности — одно из самых больших преимуществ этого программного обеспечения — вы можете добавлять пароль, подписывать документы, вставлять закладки, водяные знаки и многое другое.Попробуйте увидеть все его возможности.
Замзар . Zamzar обеспечивает стабильное преобразование не только файлов PDF, но и множества других форматов, включая CR2, EPUB, ODP, GIF, HTML и многие другие. Заботясь о безопасности вашего документа, эта программа поддерживает добавление водяных знаков и паролей. Самый большой недостаток — это отсутствие конвертации в формат PDF. Кроме того, вы должны набраться терпения, так как преобразованный файл отправляется на ваш действующий адрес электронной почты, а это обычно занимает некоторое время.
Конвертер файлов в PDF .Это приложение поддерживает множество форматов файлов и обеспечивает их преобразование без доступа в Интернет. Вы можете быстро конвертировать такие расширения файлов, как PSD, Ai, EPS, JPEG / JPG, PSD в PDF.
ФАЙЛ PDF: FAQ
PDF расшифровывается как «Portable Document Format». Он был разработан для людей, использующих разные компьютеры и операционные системы, чтобы иметь возможность делиться одним и тем же документом, не искажая его внешний вид. Этот формат файла популярен еще и потому, что содержащуюся в нем информацию нельзя изменить.
- Я загрузил файлы PDF на свой ноутбук, но не могу их открыть. Что мне делать?
Вы можете загрузить программу для чтения PDR или открыть эти файлы в браузере. Если вы выберете последний вариант, вы также сможете легко распечатать свои документы.
- Как я могу экспортировать файл PDF?
OpenOffice.org предназначен для экспорта документов в формат PDF. После завершения процесса вы можете отправить файл PDF своим коллегам или читателям, чтобы они могли просмотреть его в Foxit или Adobe Reader.
- Что такое пример формата PDF?
Если на вашем компьютере установлена программа для чтения PDF-файлов, например Adobe Acrobat Reader, вы можете щелкнуть значок файла PDF, и появится пример файла PDF.
- Для чего нужны файлы PDF?
PDF-файлы предназначены для безопасного обмена информацией независимо от того, на каком устройстве вы их открываете.
Энн Янг
Привет, я Энн Янг — профессиональный блоггер, прочитайте больше
Информация о расширении файла PDF
Формат файла PDF Document
PDF расшифровывается как Portable Document Format и был разработан Adobe.Файлы PDF представляют документ в фиксированном макете (очень похожем на изображение), который транслируется одинаково во всех программах, оборудовании и операционных системах. Он позволяет пользователю использовать различные изображения, шрифты и текстовые форматы (иногда с возможностью поиска и содержащие гиперссылки) в одном документе, готовом для печати и легко передаваемом с любого устройства. Большинство программ для чтения PDF-файлов бесплатны из-за простоты доступа и использования. Эти файлы могут быть защищены паролем, зашифрованы, отредактированы, а трехмерные изображения поддерживаются с 2004 года.Чтобы легко объединять, вращать или редактировать PDF-файлы в Интернете, воспользуйтесь этим бесплатным редактором PDF-файлов. Любой компьютер с Adobe Acrobat Reader (или аналогичным продуктом) может открыть файл PDF. Многие мобильные устройства (телефоны и планшеты) также могут просматривать, отправлять и сохранять файлы.
Файлы PDFимеют два разных макета: нелинейный и линейный.