Пдф что это – что такое и для чего он нужен: простыми и понятными словами

PDF - это... Что такое PDF?

PDF

PDF (аббревиатура от англ. Portable Document Format — переносимый формат документов; правильно произносить пи-ди-э́ф, но большее распространенние среди русскоязычных компьютерных специалистов получило произношение пэ-дэ-э́ф) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader, а также программы сторонних разработчиков. Традиционным способом создания PDF-документов является виртуальный принтер, то есть документ как таковой готовится в своей специализированной программе — графическом или текстовом редакторе, САПР и т. д., а затем экспортируется в формат PDF для распространения в электронном виде, передачи в типографию и т. п.

PDF с 1 июля 2008 года является открытым стандартом ISO 32000.

[1][2]

Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. В этом формате распространяется большое количество сопутствующей документации.

Версии

Существует несколько спецификаций pdf-документов последовательно расширяющих друг-друга. Для каждой новой спецификации создается новая версия Adobe Reader и Adobe Acrobat. Ниже показана таблица соответствий версий документов и версий программ в которых впервые была введена поддержка этих документов. Версию любого pdf-документа можно узнать по первым восьми байтам, открыв этот документ в текстовом режиме, например, в блокноте.

годверсия документановые возможностиверсия ПО
1993PDF 1.0Acrobat 1.0
1994PDF 1.1пароли, ссылки, потоки, независимая от устройства цветопередачаAcrobat 2.0
1996PDF 1.2интерактивные элементы, обработка событий мыши, мультимедийные типы, уникод, улучшенное представление цвета и графикиAcrobat 3.0
1999PDF 1.3цифровые подписи, цветовые пространства ICC и DeviceN, JavaScriptAcrobat 4.0
2001PDF 1.4JBIG2, прозрачность, текстовый слой OCRAcrobat 5.0
2003PDF 1.5JPEG 2000, связанное мультимедиа, объектные потоки, перекрестные потокиAcrobat 6.0
2005PDF 1.6внедренное мультимедиа, XML-формы, AES-шифрованиеAcrobat 7.0
2006PDF 1.7Acrobat 8.0
2008PDF 1.7, AEL3AES-шифрование 256-битным ключомAcrobat 9.0
2009PDF 1.7, AEL5XFA 3.0Acrobat 9.1

Сторонние программы для работы с PDF

Кроссплатформенные

  • OpenOffice.org — свободный кроссплатформенный офисный пакет, имеющий функцию экспорта в PDF.
  • pdftex (англ.)/pdflatex — вариант системы компьютерной вёрстки TeX/LaTeX, напрямую создающий PDF-файлы.
  • Ghostscript (англ.) — свободный программый интерпретатор языка PostScript. Может использоваться для создания, преобразования и просмотра PDF-файлов.
  • Xpdf (англ.) — свободная программа просмотра PDF-файлов для X Window System. Используется как движок для многих других программ просмотра.

Unix-подобные

  • Okular — универсальное приложение для просмотра документов; часть KDE4.
  • Evince — свободная программа для просмотра PDF, PostScript и других похожих форматов; часть GNOME
  • KPDF — программа просмотра PDF-файлов для KDE (в KDE4 упразднена в пользу Okular).
  • XPDF — программа просмотра PDF-файлов. Без привязки к библиотекам QT и GTK.
  • epdfview — свободная программа просмотра PDF на библиотеке GTK, но без использования библиотек среды GNOME

Microsoft Windows

  • Microsoft Office 2007 — в пакет обновлений SP2 встроена функция экспорта любых документов в PDF.
  • Foxit Reader — условно-бесплатная программа для просмотра PDF-файлов в Microsoft Windows. Объём программы составляет 3,5 Мб, установки не требует.
  • Sumatra PDF — свободная (GPLv2) программа для просмотра PDF-файлов в Microsoft Windows.
  • ABBYY PDF Transformer — собственническая shareware программа под Windows NT от 5.0 для создания и преобразования PDF-файлов из любого офисного приложения и преобразование PDF-файлов в документы редактируемых форматов (Microsoft Word, RTF и др.).
  • PDFCreator — свободная программа для создания файлов PDF. Может использоваться с любым приложением Microsoft Windows, обладающим возможностью печати документов.
  • Scientific and technical documentation utility: STDU Viewer — бесплатная для некоммерческого использования программа для чтения PDF и DJVU файлов; STDU Converter — платная программа для преобразования DJVU в PDF.

Онлайновые

Примечания

См. также

Ссылки

  • PDF Specifications, including the PDF Reference for PDF 1.7, PDF 1.6 (ISBN 0-321-30474-8), PDF 1.5, PDF 1.4 (ISBN 0-201-75839-3), PDF 1.3 (ISBN 0-201-61588-6)
  • Adobe PDF 101: Quick overview of PDF — pdf-документ с описанием основных возможностей формата.

dic.academic.ru

Что такое формат PDF и чем его можно открывать?

pdf-iconpdf-iconПривет, друзья. В это раз я решил написать о формате документов, которым мы пользуемся очень долго, но некоторые ведь и не задумывались узнать, а что это за формат такой – PDF.

Представим такую ситуацию, что вы долго и упорно печатали документ в Word. Версия особо не важна, вы могли писать текст, как в Word 2003 или 2007, так и 360 (Office в Windows 10). Потом вы документ естественно сохранили и отправили, например, другу. Тот его открывает, через какой-либо другой текстовый редактор, а сейчас их очень много. Например, это мог быть LibreOffice или OpenOffice. Каков же итог? Показываться текст в другом редакторе может совершенно иначе, а иногда и с безобразным стилем оформления.

Из выше сказанного вытекает следующее – документ, открытый в разных текстовых редакторах будет выглядеть по-разному. Автор в этом, конечно, не виноват и знакомый или коллега, которому вы перекинули документ естественно тоже. И как тогда быть?

Есть несколько вариантов решения данной проблем и все они актуальны, но у каждого есть какие-то недостатки:
  • Распечатка документа на бумажный носитель. Не всегда разумное решение, если документ имеет не один десяток листов или человек, которому документ должен быть передан живет в другом городе или стране;
  • Отправка информации по факсу. Иногда это может быть невозможно из-за отсутствия факса на той стороне;
  • Сохранение документа в другой формат, например, PDF.

Это интересно: Программа для работы с текстовыми документами.

Что такое PDF?

Если вкратце, то формат PDF – универсальный формат для многих текстовых редакторов и операционных систем. Другими словами, файл такого формата вы можете открыть на любом устройстве и редакторе, который его поддерживает. Существуют и специальные программы для просмотра PDF. Самым популярным просмотрщиком является Adobe Reader и Foxit Reader.

Чтобы показать, как выглядит документ в формате PDF я буду использовать Foxit Reader, но ничего сверхъестественного вы не увидите. Кстати, я в указанной программе нашел режим чтения вслух. Об этой функции можно почитать в этой статье. Там я разобрал очень много методов по озвучиванию текста.

chto-takoe-format-pdf-2

chto-takoe-format-pdf-2
Как я сказал, у всех 3-х пунктов решения проблемы с документами есть недостатки. У PDF файлов они тоже есть и заключаются в следующем:
  • Текст документа редактировать невозможно, но можно использовать специальные для этого средства;
  • Если вы все-таки решили редактировать PDF-файл, то наверняка там не будет тех шрифтов, которые вы хотите использовать, поэтому придется их встраивать;
  • Чтобы изображения при печати выглядели как положено, то нужно использовать в документе качественные растровые картинки. Недостаток в том, что весить они будут довольно много.

 Но есть и плюсы этого формата:

  • Простота;
  • Одинаковое отображение на любом устройстве и текстовом редакторе.

О том, как пользоваться или редактировать формат я расскажу в следующей статье. Вы наверное заинтересованы в том, как сжать PDF с помощью онлайн средств и программ. Я уже подготовил статью, вам осталось перейти по ссылке и прочесть её. Там говорится о методах, позволяющих эффективно сжать документ большого размера в формате PDF.

Это интересно: 

computerinfo.ru

Что такое PDF и чем открыть PDF-файл.

логотип pdfлоготип pdf

Любой человек, работающий с компьютером, рано или поздно сталкивается с PDF-файлом. Перед ним неизбежно возникает вопрос —

Что такое PDF?!

PDFPortable Document Format — на текущий момент это стандартный формат для электронных документов, для чего изначально и разрабатывался программистами компании Adobe Systems, перед которыми была поставлена цель оптимизировать способ хранения и отображения текстовых документов и полиграфических изданий. Второе, не менее важное условие, которое ставилось перед разрабочиками — универсальность. То есть, реальная

кроссплатформенность — PDF-файл можно открыть в любой операционной системе (разумеется при наличии соответствующей программы) и распечатать практически на любом принтере.
К плюсам электронного формата PDF можно добавить:
— формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки.
— формат PDF поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap и несколько типов сжатия растровой информации.
— формат PDF имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3.
— формат PDF включает механизм электронных подписей для защиты и проверки подлинности документов.
— формат PDF поддерживает дополнительные настройки параметров безопасности документа.
Надо отметить, что именно в формате PDF распространяется большинство литературы и технической документации. Подавляющее количество учебников для школ и ВУЗов так же в формате PDF, из-за чего этот формат называют ещё студенческим. Во многом это стало возможным в первую очередь потому, что корпорация Adobe сделала этот формат бесплатным и выпустила бесплатный вариант утилиты для просмотра PDF-файлов.

Как открыть PDF-файл?

PDF-файл — это файл с расширением .pdf Как и в случае с любым другим форматом, чтобы открыть файл PDFдолжна быть установлена соответствующая программа. Отсюда вытекает следующий вопрос:

Чем открыть PDF-файл?!

Программ для работы с файлами PDF очень много, я кратко расскажу лишь о самых распространенных утилитах.

1.Adobe Acrobat Reader

Открыть pdf adobe acrobatОткрыть pdf adobe acrobat

На первом месте стоит самая распространенная, мощная фирменная программа от разработчика формата PDF — Adobe Systems.
Эта программа создана ещё в 1993 году, обладает самым большим набором инструментов и позволяет делать с PDF-документами все что угодно. К особенностям программы можно добавить возможность использовать специальное хранилище, открывающее доступ к документам с разных компьютеров. На сегодняшний день Adobe Acrobat Reader распространяется бесплатно. К минусам программы можно отнести тяжеловесность — она ест немало системных ресурсов.

Самую последнюю версию программы Adobe Acrobat Reader можно бесплатно скачать отсюда — ссылка.

2. Foxit PDF Reader

Открыть PDF через foxit pdf readerОткрыть PDF через foxit pdf reader

Бесплатная, быстрая и весьма функциональная программа для работы с PDF документами. Является отличной альтернативой программе от Adobe. Не требовательна к системным ресурсам.
Бесплатно скачать Foxit PDF Reader можно отсюда — ссылка.

Sumatra PDF Reader

Открыть PDF-файлОткрыть PDF-файл

Простая и быстрая читалка PDF-документов. Подходит для 75% пользователей. Помимо файлов PDF, программа умеет работать ещё и с DjVu, FB2, ePub, MOBI, CHM, XPS, CBR/CBZ. Программа разрабатывается на базе движка MuPDF, имеет открытый исходный код и свободно распространяется на условиях лицензии GNU GPL. Sumatra PDF Reader имеет портативную версию, которая запускается с USB флеш-накопителей без предварительной установки.
Бесплатно скачать Sumatra PDF Reader можно отсюда — ссылка.

set-os.ru

Что такое PDF | ABBYY

ABBYY
  • Контакты
  • Интернет-магазин
  • Выберите регион
    Global
    Global Web Site English
    North America
    Canada English Mexico Español United States English
    South America
    Brazil Português South America Español

    Europe

    France Français Germany Deutsch Italy Italiano United Kingdom English Spain Español Western Europe English Central and Eastern Europe English Croatia Hrvatski Czech Republic Čeština Hungary Magyar Poland Polski Romania Română Russia Русский Slovakia Slovenčina Ukraine Українська
    Africa and Asia
    China 中文 India and SEA Countries English Israel עברית Japan 日本語

www.abbyy.com

Что такое PDF и как его сделать?

Что такое Adobe PDF

Формат переносимых документов (PDF) представляет собой универсальный файловый формат, который позволяет сохранить шрифты, изображения и сам макет исходного документа независимо от того, на какой из множества платформ и в каком из множества приложений такой документ создавался. Формат Adobe PDF считается признанным общемировым стандартом в области тиражирования и обмена надежно защищенными электронными документами и бланками. Файлы Adobe PDF имеют небольшой размер, и они самодостаточны; они допускают совместную работу, просмотр и печать с помощью бесплатной программы Adobe Reader®.

Отлично себя оправдывает использование формата Adobe PDF в издательском и печатном деле. Благодаря способности Adobe PDF сохранить совмещенный (композитный) макет, можно создавать компактные и надежные файлы, которые сотрудники типографии могут просматривать, редактировать, сортировать и получать с них пробные оттиски. Также в предусмотренный техпроцессом момент в типографии могут как непосредственно отправить файл на фотонаборное устройство, так и продолжить его завершающую обработку: осуществить предпечатные проверки, провести треппинг, спустить полосы или выполнить цветоделение.

Сохраняя документ в формате PDF, можно создать файл, соответствующий стандарту PDF/X. Формат PDF/X (формат обмена переносимыми документами) является разновидностью Adobe PDF, которая не допускает использования многих вариантов и сочетаний данных о цветности, шрифтов и треппинга, которые могут вызвать осложнения при печати. Документ PDF/X следует создавать в случае, когда PDF-файлы используются как цифровые оригиналы при допечатной подготовке изданий - как на этапе создания макета, так и для целей фотовывода (если программное обеспечение и выводящие устройства способны работать с форматом PDF/X).

О стандартах PDF/X. Стандарты PDF/X утверждены Международной организацией по стандартизации (ISO). Они применяются к обмену графическими данными. При преобразовании PDF-файл проверяется на соответствие заданному стандарту. Если PDF-документ не соответствует выбранному стандарту ISO, отображается сообщение, позволяющее выбрать между отменой преобразования и продолжением преобразования, при котором будет создан несоответствующий стандартам файл. Самое широкое распространение в издательском и печатном деле получили несколько разновидностей PDF/X: PDF/X-1a, PDF/X-3 и PDF/X-4.

Формат PDF/X-1a (2001 и 2003). 

PDF/X−1a — это стандартный формат файлов, специально предназначенный для обмена готовыми к печати документами в виде электронных данных, при котором отправителю и получателю не требуется дополнительной договоренности для обработки информации и получения требуемых результатов в тираже. Фактически он является цифровым эквивалентом цветоделенных фотоформ.

Формат PDF/X-1a гарантирует, что:

  • все шрифты встроены
  • изображения встроены
  • определены параметры MediaBox и TrimBox или ArtBox
  • цвета представлены в формате CMYK, в формате смесевых цветов или в обоих форматах сразу
  • назначение вывода задано посредством описания условий печати или указания ICC профиля.

Примечание: назначение вывода определяет тип печатного процесса, к которому готовится файл, например, тип печатной машины, используемые краски и бумага.

PDF-файлы, соответствующие стандарту PDF/X-1a, могут быть открыты в Acrobat 4.0 и Acrobat Reader 4.0, а также в их более поздних версиях.

Набор PDF/X-1a предусматривает использование формата PDF 1.3, снижение разрешения цветных изображений и изображений в градациях серого до 300 ppi, а монохромных - до 1200 ppi, встраивание всех шрифтов в виде подмножеств символов, отсутствие встроенных цветовых профилей, а также сводит прозрачные области в соответствии с параметром "Высокое разрешение".

При использовании PDF/X−1a совместимых файлов вам больше не придется волноваться, что вас могут попросить предоставить недостающие шрифты или изображения. Вам больше никогда не придется сталкиваться с преобразованием изображения из RGB в CMYK без предварительного просмотра результатов. Решения о том, должен ли при печати файлов использоваться треппинг, будут приниматься на основании надежной информации. И, наконец, в типографии будут знать, что файл правильно подготовлен для печатной машины, на которой он будет печататься.

РАЗМЕРЫ (PAGE BOXES) В PDF

MediaBox, CropBox, BleedBox, TrimBox и ArtBox - что это такое? Тот кто хотя бы раз сталкивался с форматом PDF более плотно, наверняка сталкивался с этими определениями. В то же время, как показал опыт, мало кто знает что это и зачем это нужно.

 001.jpg

Формат PDF удобен тем что точно передаёт в одном файле содержание и внешний вид документа, будь то просто текст или сложная комбинированная (векторная и растровая) графика. Среди прочих параметров, в нём хранится и размер документа (страницы). Однако этот размер не так однозначен, как может показаться на первый взгляд, поскольку существует до 5!!! различных вариантов описания этого размера. Эти варианты описания называются page boxes. Переводом "page box" на русский, с максимальным сохранением смысла в контексте допечатной подготовки, будет что-то вроде граница страницы, область документа, граница документа и т.п. 

MediaBox - используется для определения ширины и высоты страницы. Media box определяет размер материала (например, бумаги) на котором производится печать, media box это самый большой бокс документа, остальные боксы могут быть такими же или меньше, но ни в коем случае не могут быть больше чем media box.

CropBox - видимая область страницы в Acrobat'е, которая содержит в себе какую-либо информацию. Crop box - прямоугольник минимального размера в который поместились бы все видимые объекты (текст, картинки, линии, номера страниц, колонтитулы и т.п.) документа. Размер crop box может быть таким же или меньше чем media box. Acrobat использует этот размер для отображения и печати документов. Иными словами, когда Вы открываете файл в Acrobat'е, то все, что вы видите в данный момент отображается в виде Crop box.

BleedBox - определяет размер документа вместе с вылетами. Вылеты - часть изображения которая обрезается после печати, нужна для того чтобы компенсировать погрешность процесса порезки. На рисунке до подрезки bleed box - 76х106 мм, а после подрезки в обрезной размер (TrimBox) - 70х100 мм.

TrimBox - определяет размер изделия (так называемый, обрезной размер). Это конечный размер после подрезки. TrimBox так же может сопровождаться метками реза (техническими элементами файла).

ArtBox - используется редко, определяет художественную часть изделия, важную его часть. Если говорить дословно - ту самую часть где по замыслу автора из изделия должен доноситься арт, креатив и т.п.  


Как сделать PDF для печати?

Перед конвертацией в PDF все изображения должны быть переведены в CMYK. Если есть элементы, которые печатаются отдельными прогонами (пантоны), им должны быть назначены соответствующие цвета по палитрам Pantone Solid Coated/Uncoated. Цветовое пространство CMYK должно быть с профилем ISO Coated v2.

  • Corel Draw (на примере X4, английская версия)

File >  Publish to PDF >  указать название файла только латинскими символами >  Settings  >  Compability: PDF/x-1a >  Закладка Prepress поставить флажок на Bleed Limit и указать значение 5 мм > Закладка Objects поставить флажок на Export all Text as curves >  Нажать ОК и сохранить файл.

001_corel_draw_to_pdf (1).jpg

  • Adobe Illustator (на примере CS4, английская версия)

File > Save As > указать название файла только латинскими символами, в выпадающем списке «тип файла» выбрать Adobe PDF. Сохранить >  в поле Adobe PDF выбрать пункт PDF/X-1a:2001 >  в закладке Marks and Bleeds в разделе Bleeds выставить все значения по 5 мм (top, bottom, left, right) >  Save PDF

 002illustrator_to_pdf(2).jpg

  • Adobe Photoshop (на примере CS4, английская версия)

File >  Save As > указать название файла только латинскими символами, в выпадающем списке «тип файла» выбрать Photoshop PDF. Сохранить >  в поле Adobe PDF Preset выбрать пункт PDF/X-1a:2001 >  в закладке Output, в разделе Color, Color Conversion: No Color Conversion, Profile Inclusion Policy: Don't Include Profile >  Save PDF

 003_photoshop_to_pdf.jpg

  • Adobe InDesign (на примере CS4, английская версия)

File >  Export… > указать название файла только латинскими символами, в выпадающем списке «тип файла» выбрать Adobe PDF. Сохранить >  в поле Adobe PDF Preset выбрать пункт PDF/X-1a:2001 >  в закладке General, установить диапазон печати All, флажок Spreads должен быть снят > в закладке Marks and Bleeds, в разделе Bleeds выставить все значения по 5 мм (top, bottom, left, right) >  в закладке Output, в разделе Color, Color Conversion: No Color Conversion, Profile Inclusion Policy: Don't Include Profile  >  Export

 004_in_design_to_pdf(2).jpg

  • QuarkXPress (на примере 8.0, английская версия)

File >  Export > Layout as PDF > указать название файла только латинскими символами. Options >  в поле PDF Style выбрать пункт PDF/X-1a:2001 >  в закладке Pages, флажок Spreads должен быть снят > в закладке Bleed: Bleed Type – Symmetric, Amount 5 мм >  OК  >  Сохранить.

 005_quarkxpress_to_pdf.jpg

  • MS Office (на примере 2007).

Приложения MS Office не предназначены для подготовки файлов к высококачественной печати, поэтому даже конвертация макета в PDF не всегда избавляет от проблем. Гарантией того, что в готовом изделии Вы увидите то же, что и на мониторе, является только подписанная цветопроба. Минимизировать ошибки поможет сохранение документа в PDF. Сохранить как  >  Adobe PDF  >  Adobe PDF Conversion Options  >  поставить флажок на Make PDF/A-1а: 2005 compliant file >  Ok  >  указать название файла только латинскими символами  >  Сохранить файл

 006_ms_office_to_pdf.jpg

sveres.ru

Что такое PDF-файл и как его открыть?

Многие начинающие пользователи ПК сталкиваются с файлами неизвестного им расширения. Одним из таких расширений является .pdf. Что же такое PDF-файл и как его открыть? Давайте разбираться.

Что такое PDF?

Для начала нам нужно понять, как расшифровывается данное расширение. PDF означает Portable Document Format, что в переводе на русский будет звучать как «портативный формат документа». Идея за этим форматом довольно проста: точное отображение полиграфических продуктов в электронном варианте. PDF обычно используется для различной документации. Пользовательские руководства, электронные книги, формы для заявок, отсканированные документы и много другое — все эти файлы наверняка будут в расширении .pdf.

За разработку данного формата ответственна компания Adobe. При создании PDF она ставила перед собой следующие задачи: с форматом сможет работать любое аппаратное обеспечение/операционная система и его можно открыть без программного обеспечения, при помощи которого тот был создан. В общем, формат PDF — это чрезвычайно важная разработка от Adobe, пользу из которой пользователи извлекают буквально ежедневно. И это несмотря на то, что формат был создан 25 лет назад, т.е. в 1993 году.

Как открыть PDF?

Хорошо, давайте теперь предположим, что вам понадобилось загрузить из Интернета какую-то документацию для работы либо какую-то книгу для учебного курса в формате PDF. Вопрос: чем ее открыть? На самом деле, файл формата PDF можно открыть даже с помощью установленного у вас на компьютере браузера. Google Chrome, Mozilla Firefox, Opera — подойдет практически любой браузер. Просто перетащите PDF-файл в окошко браузера и вы получите полный доступ к электронной версии документации.

Если же вы не хотите использовать браузер (вполне понятное желание), то есть еще одно решение, причем от самой компании Adobe. Чтобы получить полный доступ к PDF-файлу, вы можете воспользоваться такой крайне удобной программкой, как Adobe Acrobat Reader DC. В ней вы сможете найти любые инструменты и параметры, которые помогут вам в наилучшем виде ознакомиться с содержимым PDF. Помимо прочего, вы также можете найти в Интернете кучу других программ, способных дать вам примерно такой же функционал, как и у Adobe, но мы все же рекомендуем пользоваться Acrobat Acrobat Reader DC, так как она условно бесплатна и доступна на всех платформах.

Погодите, Acrobat Acrobat Reader DC — условно бесплатная программа? Да, чтобы просматривать доступные файлы в формате PDF, вам нужно попросту загрузить это решение от Adobe на свой компьютер и произвести установку. Однако, если вам нужно не просто чтение файла, но и, допустим, его редактирование — придется покупать подписку, причем далеко не дешевую. Самая «навороченная» версия программы обойдется вам в $15, что вполне можно считать высокой ценой, учитывая курс доллара. Так что в случае нужды в редактировании PDF-файла попробуйте найти какой-то бесплатный аналог в Интернете.

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

gamesqa.ru

PDF с точки зрения программиста / ABBYY corporate blog / Habr

Я имею дело с PDF не только как пользователь, а, прежде всего, как разработчик софта, умеющего его читать и писать (возможно, вы сталкивались с продуктами компании ABBYY, работающими с PDF – ABBYY FineReader, ABBYY PDF Transformer). Я предполагаю, что вы прочитали статью habrahabr.ru/company/abbyy/blog/105006 и далее пишу только про некоторые особенности и ограничения PDF, которые больше интересны продвинутым пользователям. Никаких сложных технических деталей при этом не буду касаться, так что программистам, желающим научиться читать или писать PDF, лучше сразу перейти к чтению спецификацию версии 1.7 со страницы www.adobe.com/devnet/pdf/pdf_reference_archive.html 🙂
Назначение и особенности PDF

Изначально формат PDF задумывался компанией Adobe ещё в конце 80х годов прошлого века как «электронная твёрдая копия» странично-структурированных документов, которую можно просматривать и печатать в виде, идентичном оригинальному, на разных машинах и платформах, но который не предполагается редактировать. Это определение отличает PDF от большинства других форматов хранения и распространения человеко-читаемых документов. За прошедшие годы PDF сильно эволюционировал, являясь в настоящее время контейнером для самого разнообразного контента (текст, векторная и растровая графика, интерактивные элементы, формы, аудио, видео, аннотации разных видов), но его исходное предназначение до сих пор остаётся источником как его возможностей, так и многочисленных ограничений.

Так, форматы текстовых документов (DOC, RTF, DOCX и т.д.) в основном ориентированы не на просмотр, а на редактирование документов. Созданный разумным пользователем 🙂 документ логично реагирует на вставку/замену/удаление текста, картинок, таблиц в разных местах, изменение размеров и полей страниц, изменение форматирования фрагментов текста любого размера и тому подобные действия. Интернет страницы в формате HTML не слишком ориентированы на редактирование (хотя и допускают его), но при условии прямых рук автора нормально переносят отображение не только на экране монитора своего создателя, но и на устройствах с совершенно другими экранами и взаимодействием с пользователем.

У PDF же особый путь – наибольшее распространение он получил как формат-паразит, в котором документы не создаются человеком «с нуля», а чаще всего порождаются из других форматов путём глубокой машинной переработки, теряющей многие или даже все детали, ненужные для отображения документа в фиксированном виде. Cамым распространенным способом получения PDF является печать на виртуальный PDF-принтер из любого приложения, имеющего в меню команду «Print».

PDF-принтер переводит GDI(«интерфейс графических устройств»)-команды вывода в нужные места символов, линий, кривых, прямоугольников, растровых изображений и прочих геометрических примитивов в соответствующие им PDF-команды с сохранением в файл. При этом, разумеется, сохраняются количество и размер страниц, на которое выполнялась печать.

Такое преобразование способно очень точно передать внешний вид того, что получилось, перед печатью (например, линии и символы не теряют своей чёткости при любом масштабировании и при этом хранятся достаточно компактно), но совершенно игнорирует устройство документа, из которого это получилось. Например, для подчёркивания слова или другого фрагмента текста в PDF не предусмотрено выделенной команды или атрибута символов – вместо этого отдельно выводятся символы (группами, которые обычно даже не совпадают со словами или строками), а отдельно рисуются линии или тоненькие прямоугольники нужной толщины и цвета в нужных местах страницы. Таблицы, которые человек воспринимает как целостный набор ячеек, для приложения, отображающего PDF, – просто хаотический набор символов и линий, по случайному совпадению образовавших нечто, воспринимаемое человеком как таблица. Гиперссылки, которые в исходном документе можно было использовать как для навигации внутри документа, так и для перехода на Веб-адреса, при печати исчезают как средство навигации, остаются лишь окрашенные и/или подчёркнутые надписи. В общем, сплошные имитация и надувательство. Такие PDF я ниже буду называть «векторными» (как состоящие из векторных команд, к которым относится и рисование символов).

Другой способ получения PDF-документов, ставший особенно популярным в последние годы, – переработка в него отсканированных бумажных страниц. Сейчас большинство сканеров и многофункциональных устройств могут выдавать результат в виде «растровых» PDF – при этом предыдущий способ «имитации печати» не нужен, а драйвер или утилита устройства самостоятельно формирует страницы PDF так, чтобы на каждой из них оказалось нужное «растровое» изображение, благо набор форматов графики, которые можно использовать в PDF, покрывают большинство запросов. Такие «растровые» PDF-документы занимают больше места и выглядят менее качественными, чем «векторные».

Некоторые современные приложения (в том числе приложения комплекта OpenOffice, Microsoft Office новых версий, ABBYY FineReader и ABBYY PDF Transformer) умеют создавать PDF самостоятельно, пользуясь при этом гораздо большим арсеналом средств, чем PDF-принтеры, ибо знают об исходном документе гораздо больше, чем нужно передать принтеру. Это позволяет сохранить, например, гиперссылки как таковые (а не просто как окрашенный и/или подчёркнутый текст) или описать некоторые элементы структуры документа для его переформатирования и показа на экранах малых разрешений. Такие документы со структурной информацией называются «тегированными» или «tagged» PDF. По замыслу Adobe, «тегирование», добавленное начиная с Acrobat 5, призвано скрыть наиболее вопиющие недостатки ранних версий PDF. Например, для нетегированных документов не гарантируется корректная работа механизма копирования фрагментов текста в буфер обмена Windows (всем привычный Copy-Paste). При этом даже сегодня тегированными являются не все создаваемые PDF, в том числе из-за ограниченных возможностей программ-генераторов (или незнания пользователями, где включить нужную для этого галочку в настройках), или просто из-за большего размера таких PDF, когда остро стоит вопрос экономии дискового пространства при хранении больших архивов.

Преобразование PDF-документов в другие форматы

Желание отредактировать содержимое PDF-документа или преобразовать его в другие, желательно редактируемые форматы (как для немедленного редактирования, так и для хранения с возможностью поиска/редактирования «когда-нибудь»), возникает по разным причинам. Простейшие средства извлечения текстового содержимого предоставляет любое приложение, отображающее PDF – я имею привычный Copy-Paste, который работает довольно примитивно – как правило, теряется символьное и абзацное форматирование, игнорируются таблицы и сложная вёрстка PDF-документа. Есть приложения, которые позволяют «точечно» редактировать PDF без преобразования в другие форматы – но их арсенал средств редактирования очень ограничен, ну просто никакого сравнения с привычными текстовыми процессорами 🙂 В дорогущем Adobe Acrobat для многих документов единственным работающим видом редактирования является «аннотирование» – есть инструменты для добавления комментариев, выделения текста маркером, зачёркивания и т.п. Да, более продвинутое редактирование как бы есть, но вы, случайно, не встречали забавного сообщения «All or part of the selection has no available system font. You cannot add or delete text using the currently selected font.» при невинной попытке удалить символ или слово из «хорошего», «векторного» PDF-документа в Акробате? А не пробовали заменить фрагмент строки на более длинный, грустно наблюдая уползающие вправо хвосты строк? Если нет, значит любовь к продуктам Adobe у вас ещё впереди! К простым и привычным для текстовых процессоров задачам – например, «заменить за несколько секунд по всему документу слово «MS» на «Microsoft», с изменением размещения текста по колонкам и страницам» – такое «редактирование» и близко не стоит.

Неслучайно в софтверной индустрии сформировалась целая отрасль, производящая средства конверсии с лучшей функциональностью. Из написанного выше (и особенно – ниже), должно стать понятно, насколько это непростая задача. Большинство пользователей, не читавших этого креатива, так не считают – поэтому я его и пишу 🙂

Основные проблемы при преобразовании PDF в другие форматы

Часто в обсуждении связанных с PDF вопросов употребляется понятие «текстового слоя». Интуитивно многими пользователями предполагается, что в PDF-файлах есть такие выделенные части, где логично и понятно описаны все нужные характеристики видимого текста – или невидимого, но находимого поиском или выделяемого мышью. Хочу открыть вам страшную тайну (вероятно, с риском в ближайшее время получить пулю от киллера, подосланного авторами формата PDF и их отделом маркетинга) – никакого текстового слоя в указанном смысле в PDF нет! На деле для каждой страницы есть общий поток команд её рисования, в котором совершенно произвольно перемешаны разнотипные команды – задания областей отсечения, смены текущих толщины, цвета и шаблона пунктирности линий, изменения системы координат, смены шрифта, рисования прямых и кривых (с текущими атрибутами), вывода группы символов с текущими атрибутами и указанными «номерами глифов» (глиф – описание изображение символа, без учёта других его характеристик), вывода растровых картинок и т.п. То есть даже специальные текстовые команды – это просто один из многих инструментов рисования, не выделенный в отдельные потоки.

Хуже другое – даже в пределах одной страницы PDF можно использовать (слишком) широкий набор средств изображения похожего глазу текста: буквы могут быть видны как части растрового изображения – например, в логотипах (задача их распознавания – в чистом виде задача OCR-приложений, того же ABBYY FineReader), как результат рисования кривыми Безье или специальными текстовыми командами. Этот последний случай – самый лучший для обработки, но даже здесь не обязательно указываются общепринятые коды символов из Unicode или других кодировок – ибо в PDF-файл можно записывать особые шрифты из подмножества только реально использованных символов и ссылаться на символы по совершенно условным «номерам глифов», а не по кодам. То есть не всегда просто как обнаружить символы в нужном месте, так и определить их коды! С форматированием, в том числе с выбором похожего шрифта при отсутствии точного аналога, всё ещё хитрее.

Символы, даже если их присутствие и коды тем или иным способом установлены, своим порядком вывода на страницу очень часто никак не соответствуют исходной последовательности их размещения и чтения на странице. Например, на двухколоночной странице команды вывода текста из правой и левой колонок могут быть произвольно перемешаны. На такой странице нужно выделить области, в каждой из которых размещён логически связный текст – это тоже задача, много лет решаемая OCR-приложениями. Некоторую помощь даёт структурная информация из тегированных PDF – но часто даже у сделанных сейчас PDF эта информация либо отсутствует – как при выводе через PDF-принтер – либо бывает недостаточно полна.

Когда мы решили, что в некоторых местах страницы есть связный текст (а где-то даже поняли, как он сгруппирован в таблицы – это очень нетривиальная задача!), и нашли, какие символы и в какие строчки складываются, нужно преобразовать эти строчки в абзацы и более высокоуровневые элементы, привычные пользователям как текстовых процессоров, так и HTML – колонки, таблицы, врезки. Данных об абзацном форматировании в PDF обычно нет, так что все эти характеристики тоже нужно вычислять – как при всём том же распознавании. Если пытаться игнорировать элементы текста сложнее строчек или абзацев, то, выведя всё в коротких врезках, получим документ, который выглядит как настоящий, но почти не редактируется – помните задачу о замене по всему документу слова «MS» на «Microsoft»? Это очень хороший тест на редактируемость. Для редактируемого документа важна способность текста перетекать из одних зон в другие – в нужных случаях, которые ещё надо суметь отличить от ненужных.

Только проделав всё это, можно превратить содержимое PDF в файл редактируемого формата, выглядящий похоже на оригинал и удобный для работы. Конечно, за многие годы многие умные люди в разных компаниях научились решать каждую из этих задач хорошо или даже отлично, но идеального решения всей задачи в целом я ещё не встречал. Но мы над этим работаем 🙂

Вячеслав Сапроненко SlaSapro
Департамент продуктов для распознавания текстов

habr.com

Оставить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *