Что за формат pdf: Что такое PDF? Формат PDF
Содержание
Что такое формат PDF? | Конвертер PDF в Word
Что такое формат PDF?
Если файл имеет расширение .pdf, скорее всего это файл формата Portable Document Format (PDF), разработанный Adobe Systems, Inc. PDF файл позволяет просматривать и печатать документ под различными платформами, включая Windows, UNIX и Mac.
Просмотр PDF файлов
Для просмотра PDF файлов необходимо скачать программу Adobe® Acrobat® Reader, которая является бесплатной и служит для просмотра и печати файлов формата Adobe Portable Document Format (PDF) в наиболее распространенных операционных системах и платформах.
PDF Navigation Features
Certain features built into the PDF specification allow authors to expand the usefulness of a document. For example, you can add bookmarks, thumbnails of each page, internal and external links, form fields, article threads, buttons for navigation, notes to annotate information, and views to magnify or reduce a page to fit within the user’s computer screen. PDF allows users to magnify up to 800% on screen with no loss of clarity.
PDF Size and Performance
For the Web, smaller files are better since download time depends on file size. PDF files can be optimized to reduce file sizes and can create files up to 80% smaller than their HTML counterparts.
PDF files can be «linearized» to allow the user to start viewing the document before it is fully downloaded, similar to the process used to deliver streaming video over the internet.
PDF can be interwoven seamlessly into most Web sites. This combination of HTML and PDF formats enables authors to serve content in its most appropriate format based on the demands of content versus technology. Also, on most popular Web servers there is no compression, translation, or filtering penalty for serving PDF files.
PDF Security
PDF has a well-established security feature set. Authors of PDF files can prevent users from editing, printing, and/or copying content (text and graphics). Software developers can create their own software to read, create, or modify PDF files without special permission or licensing. The only condition that Adobe insists on is that the document author’s PDF security settings be respected.
Что такое PDF-файл и как его открыть?
Многие начинающие пользователи ПК сталкиваются с файлами неизвестного им расширения. Одним из таких расширений является .pdf. Что же такое PDF-файл и как его открыть? Давайте разбираться.
Что такое PDF?
Для начала нам нужно понять, как расшифровывается данное расширение. PDF означает Portable Document Format, что в переводе на русский будет звучать как «портативный формат документа». Идея за этим форматом довольно проста: точное отображение полиграфических продуктов в электронном варианте. PDF обычно используется для различной документации. Пользовательские руководства, электронные книги, формы для заявок, отсканированные документы и много другое – все эти файлы наверняка будут в расширении . pdf.
За разработку данного формата ответственна компания Adobe. При создании PDF она ставила перед собой следующие задачи: с форматом сможет работать любое аппаратное обеспечение/операционная система и его можно открыть без программного обеспечения, при помощи которого тот был создан. В общем, формат PDF – это чрезвычайно важная разработка от Adobe, пользу из которой пользователи извлекают буквально ежедневно. И это несмотря на то, что формат был создан 25 лет назад, т.е. в 1993 году.
Как открыть PDF?
Хорошо, давайте теперь предположим, что вам понадобилось загрузить из Интернета какую-то документацию для работы либо какую-то книгу для учебного курса в формате PDF. Вопрос: чем ее открыть? На самом деле, файл формата PDF можно открыть даже с помощью установленного у вас на компьютере браузера. Google Chrome, Mozilla Firefox, Opera – подойдет практически любой браузер. Просто перетащите PDF-файл в окошко браузера и вы получите полный доступ к электронной версии документации.
Если же вы не хотите использовать браузер (вполне понятное желание), то есть еще одно решение, причем от самой компании Adobe. Чтобы получить полный доступ к PDF-файлу, вы можете воспользоваться такой крайне удобной программкой, как Adobe Acrobat Reader DC. В ней вы сможете найти любые инструменты и параметры, которые помогут вам в наилучшем виде ознакомиться с содержимым PDF. Помимо прочего, вы также можете найти в Интернете кучу других программ, способных дать вам примерно такой же функционал, как и у Adobe, но мы все же рекомендуем пользоваться Acrobat Acrobat Reader DC, так как она условно бесплатна и доступна на всех платформах.
Погодите, Acrobat Acrobat Reader DC – условно бесплатная программа? Да, чтобы просматривать доступные файлы в формате PDF, вам нужно попросту загрузить это решение от Adobe на свой компьютер и произвести установку. Однако, если вам нужно не просто чтение файла, но и, допустим, его редактирование – придется покупать подписку, причем далеко не дешевую. Самая «навороченная» версия программы обойдется вам в $15, что вполне можно считать высокой ценой, учитывая курс доллара. Так что в случае нужды в редактировании PDF-файла попробуйте найти какой-то бесплатный аналог в Интернете.
Что такое PDF формат файла и как с ним работать
23 сентября, 2018
Автор: Maksim
Один из самых популярных видов электронных документов, которым пользуются миллионы пользователей по всему миру. PDF это идеальный формат файла для представления полиграфической продукции.
Многие из вас слышали о нем, а некоторые пользуются каждый день, например, читают в ПДФ книги. Если вам интересно более подробно узнать, что это за формат и кем он был создан, то эта статья именно для вас.
Недавно мы изучили, что такое расширение файла, сегодня рассмотрим такое расширение, как «.PDF». Узнаем, каким образом с ним можно работать, как открывать и редактировать.
Что такое PDF формат
PDF (Portable Document Format) — это специальный формат/расширение файла, предназначенный для электронных документов. Был создан американской компанией Adobe Systems в целях оптимизации/организации хранения и представления текстовых и графических данных в виде электронных документов.
На данное время — это универсальный формат, который по умолчанию используют большинство производителей печатного оборудования. Так поддержка этого расширения встроена по умолчанию в их устройства, без надобности устанавливать дополнительно программное обеспечение, чтобы печатать такие документы.
Популярен в первую очередь за свою универсальность, чем бы вы не открыли такой документ — он везде будет отображаться одинаково. Чаще всего в сети в ПДФ вы можете встретить: книги, журналы, руководства и т.д. Текст в этом формате удобно читается, в нём удобно хранить графические файлы, и он не занимает много места на компьютере.
Преимущества PDF
- Универсальное отображение на всех устройствах и в программах. Т.е. где бы и на чем бы вы не открыли такой документ — он будет отображаться везде единообразно.
- Безопасность. Имеется возможность устанавливать различные уровни доступа.
- Компактность. Благодаря встроенной поддержке архивации данных, такие файлы занимают совсем немного пространства.
- Удобство. Довольно легко пользоваться.
Недостатки
- Не во всех программах и не у каждого документа есть возможность редактировать текст и графику. Может попасться простой скан в виде картинки и текст просто не будет с нее копироваться или просто запароленная информация.
Программы для работы с файлами формата PDF
Тем, кто иногда или часто работает с книгами, например, в целях учёбы, самообразования или читает художественную литературу знакомо то, что для работы с ПДФ требуется специальная программа. Вот список самых лучших и проверенных из них.
Foxit Reader
Скачать Foxit Reader
Одна из самых популярных программ такого рода, особенно в России. Абсолютно бесплатна и на русском языке. Занимает немного места на компьютере и довольно быстро загружается даже на старых ПК. Мы рекомендуем именно Фоксит.
Adobe Reader DC
Скачать Adobe Reader DC
Софт от самих создателей данного расширения. Очень популярен и востребован. Также на русском языке и абсолютно бесплатен. Но, в новых версиях занимает значительно больше места на жестком диске, чем в прошлых.
STDU Viewer
Скачать stdu viewer
Еще один очень интересный просмотрщик, который кроме ПДФ поддерживает еще множество других форматов. Абсолютно бесплатный и также на русском языке.
Soda PDF
Скачать Soda PDF
Удобный и простой софт. Понравится любителям почитать литературу в ПДФ, также есть возможность редактирования.
PDF XChange Viewer
Скачать PDF XChange Viewer
Довольно известный софт для чтения и редактирования ПДФ, который поддерживает и другие расширения, например, «.djvu».
В заключение
Вот вы и узнали, что в этом термине нет ничего сложного, все довольно просто. Надеюсь вам была полезна эта информация, заходите к нам почаще, ведь мы и дальше будем продолжать эту тему, будет интересно!
Что такое PDF файлы и почему мы все еще полагаемся на них?
- Подробности
-
сентября 06, 2017 -
Просмотров: 8977
Вы открывали PDF на этой неделе? Скорее всего, вы регулярно работаете с ними. Несмотря на то, что некоторые другие типы файлов исчезают в неизвестности, PDF-файлы по-прежнему остаются популярным выбором. Вы когда-нибудь задумывались, почему это так? Давайте рассмотрим, как работают PDF-файлы, почему они так важны и почему они по-прежнему пользуются такой популярностью.
История PDF
PDF – расшифровывается как «Portable Document Format», что в переводе означает «Переносимый формат документов». Созданный Adobe, он впервые был запущен в начале 1990-х годов как способ полностью сохранить документ в одном файле. Поскольку интернет тогда был еще молод, они в основном использовались для публикации на рабочем столе документов для печати. Компании использовали PDF-файлы для сохранения плакатов, флаеров и других подобных файлов для физической печати.
Adobe Acrobat было нелегко заполучить, у PDF-файлов не было всех функций интеграции, которые они делают сегодня, и использование dial-up для загрузки большого PDF было очень медленным. Через несколько лет Adobe выпустила Adobe Reader бесплатно для всех, и в конечном итоге PDF выбил несколько конкурентов, чтобы стать файловым стандартом для фиксированных документов.
Интересно, что PDF был первоначально проприетарным форматом, что означает, что Adobe контролирует PDF-файлы и как они функционируют. В 2008 году они отказались от этого права собственности, и PDF стал открытым стандартом. Теперь PDF-файлы по-прежнему имеют базовый набор свойств, но они не зависят от Adobe. В самом деле, вы можете найти десятки других бесплатных PDF-читателей.
Как работают PDF-файлы
Чтобы понять, почему PDF был такой революцией, когда он только появился, мы должны понять, что такое этот стандарт в то время. В начале 90-х профессиональное программное обеспечение, используемое для создания графики и документов, приводило к невыносимо большим файлам, особенно когда в них были встроены изображения, шрифты и другие графические элементы. Помните, что машины в это время имели крошечную часть вычислительной мощности компьютера, который вы используете сегодня, что означает, что каждый бит эффективности был жизненно важен.
Чтобы исправить это, разработчики программного обеспечения начали использовать ссылки на другие ресурсы на компьютере. Предположим, вы использовали специальный шрифт в своем документе. Вместо того, чтобы сохранять все данные для этого шрифта внутри вашего документа, он вытащил необходимую информацию из установочной папки шрифта на вашем компьютере. Это уменьшило нагрузку на файл документа, сделав его более легким.
Это будет работать нормально, если вы не перемещаете шрифт на свой компьютер. Однако, если вы принесли файл на другой компьютер, у которого не было вашего конкретного шрифта, это выглядело бы неправильно. Вы можете представить себе сколько времени вы потратили на создание важного документа, а затем он стал выглядеть просто ужасно, потому что вы не сохранили ссылки на графические элементы.
PDF изменил это. Adobe нашла способ собрать все части файла и превратить его в более мелкие. Очевидно, что это намного эффективнее, чем обходные решения, которые разработчики использовали перед тем, как был представлен PDF.
И поэтому PDF стали стандартом.
Почему они так важны
Портативный формат PDF имеет большое значение: PDF-файлы выглядят одинаково независимо от того, на каком устройстве они просматриваются. Независимо от того, используете ли вы Windows 10, Mac, Chrome OS, Android, Windows Phone, iPad или Windows XP — на любом программном и аппаратном обеспечении, файлы PDF остаются неизменными. Информация, содержащаяся в PDF-файле, не зависит от устройства создателя или зрителя. Включение шрифтов, картинок, диаграмм и т. п. — это не борьба за PDF.
Сравните это с отправкой документа Microsoft Word. Что произойдет, если ваш получатель не имеет Microsoft Word на своем компьютере? Конечно, они могут открыть его в Документах Google, но документ при этом может сильно отличаться, поскольку Docs обрабатывает файлы по-разному. Если вы потратили много времени на создание таблиц, изображений и других элементов в правильном порядке, все это могло бы выйти из окна. И что, если они попытаются открыть документ Word на своем телефоне?
Как правило, PDF-файлы предназначены для просмотра. То, что вы видите, когда вы нажимаете «Сохранить», — это то, что получит кто-то другой, который просмотрит документ. И вам даже не нужно устанавливать программу — большинство современных браузеров открывают PDF-файлы без проблем. Хотя вы можете редактировать PDF-файлы, вы ограничены несколькими вариантами, если не заплатите за премиальное программное обеспечение, такое как Adobe Acrobat, Foxit PhantomPDF или Nitro.
Почему они все еще популярны
В дополнение к переносимости, описанной выше, PDF-файлы имеют несколько функций, которые способствовали их постоянной популярности.
Во-первых, PDF-файлы позволяют настраивать параметры безопасности. Когда вы создаете PDF-файл, вы можете отключить способность зрителей печатать документ, оставлять комментарии к нему или копировать его текст. Таким образом, когда правительства и предприятия размещают онлайн-формы, они могут в значительной степени ограничить их для предотвращения злоупотреблений. Для большей безопасности вы также можете защитить PDF паролем.
Вы, вероятно, заметили, что PDF-файлы также работают с полями заполнения. Создатель PDF может размещать выделенные блоки в любом месте документа, чтобы показать, где они хотели бы, чтобы читатель добавлял информацию. Даже если они ограничивают редактирование, зритель все равно может набрать свое имя, адрес и другую соответствующую информацию в эти поля. Подпишитесь на RSS, подпишитесь на электронную подпитку, чтобы вы могли добавить свое согласие на документ, не распечатывая его.
Незначительные функции, такие как добавление комментариев, выделение, штампы, гиперссылки и другой контент в прямом эфире, сохранили PDF-файлы в течение текущего десятилетия. Программное обеспечение оптического распознавания может захватывать документы и легко превратить их в PDF-файлы, а некоторые независимые издатели даже выпускают книги в формате PDF. Его простота использования, надежный набор функций и вездесущность закрепили PDF в повседневной вычислительной жизни.
Что вы узнали о формате PDF?
Я провел краткий обзор формата PDF, чтобы Вы узнали, как это началось, как он работает и что делает его настолько важным и популярным. В мире с различными операционными системами, размерами экрана, браузерами и аппаратными компонентами, PDF остается стойким и неизменным. Зная, что созданный вами документ не пройдет каких-либо странных изменений, прежде чем ваш зритель это увидит. Это то, что предоставляет PDF, и, таким образом, он является стандартом уже более двух десятилетий.
Теперь, когда вы знаете все о PDF-файлах, ответьте на следующие вопросы:
Как часто вы используете PDF-файлы? Есть ли у вас другая причина использовать их, кроме перечисленных здесь? Дайте нам знать, что вы думаете об этом формате файла в комментариях!
Читайте также
PDF — это… Что такое PDF?
PDF (аббревиатура от англ. Portable Document Format — переносимый формат документов; правильно произносить пи-ди-э́ф, но большее распространенние среди русскоязычных компьютерных специалистов получило произношение пэ-дэ-э́ф) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader, а также программы сторонних разработчиков. Традиционным способом создания PDF-документов является виртуальный принтер, то есть документ как таковой готовится в своей специализированной программе — графическом или текстовом редакторе, САПР и т. д., а затем экспортируется в формат PDF для распространения в электронном виде, передачи в типографию и т. п.
PDF с 1 июля 2008 года является открытым стандартом ISO 32000.[1][2]
Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. В этом формате распространяется большое количество сопутствующей документации.
Версии
Существует несколько спецификаций pdf-документов последовательно расширяющих друг-друга. Для каждой новой спецификации создается новая версия Adobe Reader и Adobe Acrobat. Ниже показана таблица соответствий версий документов и версий программ в которых впервые была введена поддержка этих документов. Версию любого pdf-документа можно узнать по первым восьми байтам, открыв этот документ в текстовом режиме, например, в блокноте.
год | версия документа | новые возможности | версия ПО |
---|---|---|---|
1993 | PDF 1.0 | Acrobat 1.0 | |
1994 | PDF 1.1 | пароли, ссылки, потоки, независимая от устройства цветопередача | Acrobat 2.0 |
1996 | PDF 1.2 | интерактивные элементы, обработка событий мыши, мультимедийные типы, уникод, улучшенное представление цвета и графики | Acrobat 3.0 |
1999 | PDF 1.3 | цифровые подписи, цветовые пространства ICC и DeviceN, JavaScript | Acrobat 4. 0 |
2001 | PDF 1.4 | JBIG2, прозрачность, текстовый слой OCR | Acrobat 5.0 |
2003 | PDF 1.5 | JPEG 2000, связанное мультимедиа, объектные потоки, перекрестные потоки | Acrobat 6.0 |
2005 | PDF 1.6 | внедренное мультимедиа, XML-формы, AES-шифрование | Acrobat 7.0 |
2006 | PDF 1.7 | Acrobat 8.0 | |
2008 | PDF 1.7, AEL3 | AES-шифрование 256-битным ключом | Acrobat 9.0 |
2009 | PDF 1.7, AEL5 | XFA 3.0 | Acrobat 9.1 |
Сторонние программы для работы с PDF
Кроссплатформенные
- OpenOffice.org — свободный кроссплатформенный офисный пакет, имеющий функцию экспорта в PDF.
- pdftex (англ.)/pdflatex — вариант системы компьютерной вёрстки TeX/LaTeX, напрямую создающий PDF-файлы.
- Ghostscript (англ.) — свободный программый интерпретатор языка PostScript. Может использоваться для создания, преобразования и просмотра PDF-файлов.
- Xpdf (англ.) — свободная программа просмотра PDF-файлов для X Window System. Используется как движок для многих других программ просмотра.
Unix-подобные
- Okular — универсальное приложение для просмотра документов; часть KDE4.
- Evince — свободная программа для просмотра PDF, PostScript и других похожих форматов; часть GNOME
- KPDF — программа просмотра PDF-файлов для KDE (в KDE4 упразднена в пользу Okular).
- XPDF — программа просмотра PDF-файлов. Без привязки к библиотекам QT и GTK.
- epdfview — свободная программа просмотра PDF на библиотеке GTK, но без использования библиотек среды GNOME
Microsoft Windows
- Microsoft Office 2007 — в пакет обновлений SP2 встроена функция экспорта любых документов в PDF.
- Foxit Reader — условно-бесплатная программа для просмотра PDF-файлов в Microsoft Windows. Объём программы составляет 3,5 Мб, установки не требует.
- Sumatra PDF — свободная (GPLv2) программа для просмотра PDF-файлов в Microsoft Windows.
- ABBYY PDF Transformer — собственническая shareware программа под Windows NT от 5.0 для создания и преобразования PDF-файлов из любого офисного приложения и преобразование PDF-файлов в документы редактируемых форматов (Microsoft Word, RTF и др.).
- PDFCreator — свободная программа для создания файлов PDF. Может использоваться с любым приложением Microsoft Windows, обладающим возможностью печати документов.
- Scientific and technical documentation utility: STDU Viewer — бесплатная для некоммерческого использования программа для чтения PDF и DJVU файлов; STDU Converter — платная программа для преобразования DJVU в PDF.
Онлайновые
Примечания
См. также
Ссылки
- PDF Specifications, including the PDF Reference for PDF 1.7, PDF 1.6 (ISBN 0-321-30474-8), PDF 1.5, PDF 1.4 (ISBN 0-201-75839-3), PDF 1.3 (ISBN 0-201-61588-6)
- Adobe PDF 101: Quick overview of PDF — pdf-документ с описанием основных возможностей формата.
Расширение файла PDF. Чем открыть PDF?
Расширение PDF
Чем открыть файл PDF
В Windows: Adobe Reader, Adobe Acrobat X, Foxit Reader, Sumatra PDF, Corel WordPerfect Office X6, Nuance PDF Converter Professional 8, LULU Soda PDF, Solid PDF Tools, Informative Graphics Brava! Reader, Adobe Illustrator, Microsoft Word, jPDF Tweak, FME DESKTOP, Adobe Creative Suite, любой браузер с плагином Adobe Reader
В Mac OS: Apple Preview, Adobe Reader, Adobe Acrobat X, Nuance PDF Converter для Mac 2.0, Adobe Illustrator для Mac, Adobe Creative Suite для Mac, Solid PDF to Word, Skim, Mac OS X, Preview, любой браузер с плагином Adobe Reader
В Linux: KPDF, KDE Okular, Evince, PDFedit, Foxit Reader для Linux, любой браузер с плагином Adobe Reader
Кроссплатформенное ПО: LibreOffice Impress
В Windows Mobile/CE: Adobe Reader
В Symbian: OfficeSuite
В Google Android: Adobe Reader, Quickoffice Pro, OfficeSuite Viewer, OfficeSuite Professional, ThinkFree Mobile, Documents To Go, Polaris Office, Kingsoft Office, QuickOffice Pro, Picsel Smart Office
В Blackberry: eOffice
В Apple iOS (iPhone, iPad, iPod): GoodReader, Apple iBooks, Adobe Debut, Quickoffice Pro, Pages for iOS, Comic Zeal
Описание расширения PDF
Популярность:
Раздел: Документы
Разработчик:
Расширение PDF в первую очередь связано с форматом документов Adobe Acrobat Portable Document Format (PDF). Другие форматы файлов с расширением .PDF встречаются очень редко, и будет не преувеличением сказать, что 99,99% файлов PDF, найденных в сети Интернет, это документы Adobe Portable.
Portable Document Format (PDF) представляет собой файл формата, разработанный Adobe Systems с использованием ряда возможностей языка PostScript, который является кроссплатформенным, т.е. не зависит от операционной системы компьютера, на котором открывают файл PDF. Каждый файл .PDF инкапсулирует полное описание 2D-документов (и, с появлением Acrobat 3D, встроенных 3D-документов), что включает в себя текст, шрифты, изображения и 2D векторную графику, которые входят в документ. PDF-файлы не содержат информацию, специфичную для прикладного программного обеспечения, аппаратных средств, операционной системы или используется для создания или просмотра документов. Эта функция гарантирует, что файл PDF будет отображаться точно так же, независимо от его происхождения или назначения (но в зависимости от наличия таких же шрифтов). Google, Bing и другие поисковые системы в настоящее время индексируют PDF документы, которые можно просматривать в веб-браузере с помощью бесплатного плагина Adobe Reader.
Любой может создавать приложения, читать и создавать PDF файлы без необходимости платить комиссию Adobe Systems, однако Adobe имеет ряд патентов, связанных с форматом PDF, которые утверждают, что это открытый стандарт, лицензирует их на безвозмездной основе для использования в разработке программного обеспечения, которое соответствует его спецификации PDF.
PDF файлы больше всего целесообразно использовать для кодирования точного вида документа не зависимо от операционной системы. Формат PDF может описывать как очень простые одно-страничные документы, так он может также быть использован для сложных много страничных документов, которые используют различные шрифты, графику, цвета и изображения.
Существуют много программ, которые открывают файл PDF почти для всех операционных системах, такие, как Xpdf, Foxit и Adobe имеет собственную программу Adobe Reader. В основном такие программы бесплатны. Есть множество программ для создания PDF-файлов, в том числе встроенная возможность в Mac OS X печати PDF (в меню Файл вместо нажатия на «Print» выберите «Save as PDF» в выпадающем меню в левом нижнем углу экрана), кроссплатформенная OpenOffice, многочисленные драйвера печати в PDF для Microsoft Windows, и сам Adobe Acrobat. Существует также специализированное программное обеспечение для редактирования PDF-файлов.
Некорректные расширения: pdf[1], pdf-, pdf,
Mime тип: application/pdf, application/x-pdf, application/acrobat, applications/vnd.pdf, text/pdf, text/x-pdf
HEX код: 25 50 44 46 2D 31 2E
ASCII код: %PDF-1.
Другие программы, связанные с расширением PDF
- Файл настоек ArcView от Esri
Расширение файла pdf используется программой ArcView для хранения настроек. Относится к разделу Конфигурационные файлы.
Популярность:
- Информационный файл устройства печати Netware от Novell, Inc.
Файл PDF связан с Novell Netware. Этот файл создается или был скопирован с помощью программы NetWare PRINTDEF. С помощью этой программы, вы можете импортировать .PDF файл из другого источника или создать их на файловом сервере. Команды в этом файле, добавляются в начало и в конец каждого задания на печать, инициализируя принтер из файла настроек. Относится к разделу Системные файлы.
Популярность:
GT объясняет: формат DjVu и чем он отличается от PDF — Интернет И Социальные Сети
В наши дни мы делаем немало наше чтение с помощью электронных средств будь то на мобильном устройстве или компьютере. Хотя сегодня существует множество форматов файлов, о которых вы наверняка слышали, это PDF (Portable Document Format). Одним из основных преимуществ этого формата является то, что он поддерживается практически любым устройством, способным отображать текстовые документы.
DjVu v / s PDF | Shutterstock
Хотя этот формат имеет несколько преимуществ, он не единственный. Сегодня мы будем смотреть на формат DjVu (произносится уже видел)и исследовать, чем он отличается от известного Формат PDF,
Обзор: DjVu Vs PDF
Формат документа DjVu использует новые методы сжатия для того, чтобы создавать файлы как высокого качества, так и небольшого размера.
В соответствии с DjVu.orgФормат DjVu существует с 1996 года. Он был реализован из-за необходимости высококачественных файлов, полученных при сканировании физических документов, которые не занимали бы огромное количество места. Вот основные преимущества этого формата.
Системные ресурсы
Следует отметить, что из-за характера сжатия изображений с помощью DjVu формат обычно проще в оперативной памяти. Вместо распаковки целых изображений в документах в этом формате распаковывается только та часть изображения, которая отображается на экране пользователя.
Разделение слоев
Кроме того, основа подходящего размера файла DjVu возникает из-за способа, которым различные слои документа DjVu разделены. Текстура бумаги и изображения на заднем плане отделены от текста и линейных диаграмм на переднем плане. Таким образом изображения могут быть сжаты, но не текст, оставляя изображение приемлемого качества и четкий текст.
Это сильно отличается от традиционных форматов, таких как PDF, где такое разделение обычно не происходит, а это означает, что для достижения общего приемлемого уровня качества размер файла обычно больше, чем у файла DjVu.
скорость
Файлы DjVu также открываются быстрее. Вместо того, чтобы быть открытым в полное качествоизначально файл открывается с более низким качеством, а качество постепенно повышается, пока оно не станет таким, каким оно должно быть.
Вывод
Подводя итог, файлы DjVu обеспечивают отличный баланс между качеством и размером. Файлы DjVu по сути меньше, чем файлы PDF, что делает их отличными кандидатами для использования в веб-среде и в целом для электронного просмотра.
Однако PDF-файлы способны обеспечить более высокое качество изображений, что необходимо в некоторых случаях. Например, хотя может быть желательно, чтобы PDF-файл можно было просматривать на компьютере, он, возможно, был создан исключительно для последующей его печати.
Другой недостаток немного более очевиден. Использование PDF гораздо более распространено и в значительной степени совместим по всем направлениям. Это в основном рассматривается как стандарт для электронных документов. DjVu, однако, не так широко используется, и существует гораздо меньше программ, которые поддерживают программу по сравнению с PDF-файлами.
Честно говоря, оба формата имеют свои преимущества. По моему мнению, одно не обязательно должно иметь приоритет над другим. Вместо этого они должны использоваться там, где это необходимо.
Если вы хотите изучить формат DjVu еще и вам нужен зритель, WinDjView / MacDjView может сделать работу, и это поддерживается как на Mac, так и на Windows. Суматра PDF для Windows поддерживает несколько форматов, включая PDF и DjVu, и стоит проверить.
Если у вас есть какие-либо отзывы, пожалуйста, сообщите нам об этом в комментариях ниже и спасибо за чтение.
СМОТРИТЕ ТАКЖЕ:Как открыть различные форматы документов напрямую в Chrome и Firefox
Какая польза от PDF? Почему люди используют файлы PDF?
Как часто вы работаете с PDF-документами? Вы их просто читаете или вам нужно копировать фрагменты текста и время от времени вносить поправки в содержащиеся в них данные? Вот некоторые из вопросов, которые мы задали этим летом более чем 500 сотрудникам средних и крупных компаний. Опрос выявил много интересных фактов о формате PDF и его использовании в современном офисе.
О PDF
PDF или Portable Document Format — это открытый формат файлов, используемый для обмена электронными документами.Документы, формы, изображения и веб-страницы, закодированные в формате PDF, могут корректно отображаться на любом устройстве, включая смартфоны и планшеты. Если вы распространяете свои отчеты в формате PDF, вы можете быть уверены, что все ваши коллеги смогут открывать и читать их на своих ПК, Mac или смартфонах Android.
PDF / A — это версия PDF, предназначенная для длительного архивирования цифровых документов. Он исключает некоторые функции PDF, которые несовместимы с долгосрочным архивированием, чтобы гарантировать, что когда пользователь откроет документ через несколько лет, он будет выглядеть точно так же, как когда он был заархивирован.
Вышеуказанные характеристики делают PDF одним из самых удобных форматов документов для работы.
PDF переоценен — или нет?
№
PDF оказался даже более популярным, чем мы ожидали: каждый второй респондент заявил, что им регулярно необходимо манипулировать файлами PDF. Часто простого просмотра PDF-файлов было недостаточно. Вот пять наиболее распространенных сценариев, выявленных в ходе опроса:
- Найдите информацию в документе PDF
- Копирование данных из PDF-документа
- Управление страницами в документе PDF, e.грамм. добавить, удалить или изменить порядок страниц
- Внесите незначительные изменения в текст документа PDF, например исправить опечатки или ошибки
- Объедините несколько файлов в различных форматах в один документ PDF
Более 50% опрошенных заявили, что им регулярно приходилось выполнять хотя бы одну из пяти операций, указанных выше. Некоторые из них можно успешно решить с помощью простых приложений для просмотра PDF-файлов, которые можно легко загрузить бесплатно. С помощью бесплатного средства просмотра PDF пользователи могут открыть документ, найти определенную текстовую строку и, иногда, скопировать содержимое в буфер обмена.Однако для остальных трех требуется более мощное программное обеспечение.
Когда бесплатное программное обеспечение не справляется
Предположим, вы заметили опечатку в важном отчете. Как поправить в PDF? Не волнуйтесь, многие современные инструменты PDF позволяют вносить незначительные исправления в текст. Некоторые инструменты также позволяют объединить несколько документов (например, два документа Word и таблицу Excel) в один PDF-файл или изменить порядок страниц. Чем мощнее инструмент, тем меньше вероятность, что он будет бесплатным.
Однако простые приложения для просмотра PDF-файлов не могут успешно обрабатывать PDF-файлы, созданные с помощью сканера.Предположим, вы просите коллегу прислать вам отчет в формате PDF, но у нее под рукой есть только бумажный оригинал. Поэтому она сканирует бумажные страницы в PDF и пересылает их вам. Теперь с помощью обычного средства просмотра PDF вы можете открыть и прочитать отчет, но вы не сможете скопировать какой-либо текст. Вы не одиноки в этом затруднительном положении: 81% офисных служащих жалуются на аналогичную проблему.
Загвоздка с такими отсканированными PDF-документами заключается в том, что они не содержат текстового слоя. Это просто фотографии бумажных страниц, как если бы они были сняты цифровым фотоаппаратом.Можно ли решить проблему? Да точно. Все, что вам нужно, — это более сложный программный продукт, который может «читать» текст на картинке и переводить его в редактируемые буквенно-цифровые символы. Бесплатные приложения для просмотра PDF не могут этого сделать.
А как насчет бумаги?
Это важный вопрос и для нас. Как люди, мы хотим сохранить леса Земли и, как компания, помогаем предприятиям перейти на цифровые документы. Мы попросили наших респондентов сообщить нам, заметили ли они какие-либо изменения в количестве бумажных документов, с которыми им приходилось иметь дело за последние два года.
Выяснилось, что, несмотря на рост использования цифровых документов, количество бумажных документов также увеличилось. Это засвидетельствовали 68% опрошенных , что однозначно свидетельствует о том, что наша работа еще не сделана.
Заключение
Очевидно одно. PDF становится важным форматом документов в офисе и требует программного обеспечения, которое было бы простым в использовании и достаточно сложным, чтобы обрабатывать все типы файлов, включая сканированные (помните, как растет количество бумажных документов?).
Что такое файл PDF (и как его открыть)
В этой статье объясняется, что такое PDF-файлы, как их открыть, а также о различных способах преобразования одного из них в другой формат, например в изображение или редактируемый файл, который можно использовать в Word или Excel, а также как защитить его паролем или удалить пароль.
Что такое файл PDF?
Файл с расширением .PDF, разработанный Adobe, является файлом Portable Document Format.
Файлы PDF могут содержать не только изображения и текст, но также интерактивные кнопки, гиперссылки, встроенные шрифты, видео и многое другое.
Вы часто увидите руководства по продуктам, электронные книги, листовки, заявления о приеме на работу, отсканированные документы, брошюры и всевозможные другие документы, доступные в формате PDF. Веб-страницы могут быть даже сохранены в PDF-файлах в их полном форматировании для дальнейшего использования.
Поскольку PDF-файлы не зависят от программного обеспечения, которое их создало, ни от какой-либо конкретной операционной системы или оборудования, они выглядят одинаково независимо от того, на каком устройстве они открыты.
Как открыть файл PDF
Большинство людей сразу обращаются к Adobe Acrobat Reader, когда им нужно открыть PDF-файл.Adobe создала стандарт PDF, и его программа, безусловно, является самой популярной бесплатной программой для чтения PDF-файлов. Это совершенно нормально для использования, но мы считаем, что это несколько раздутая программа с множеством функций, которые вам, возможно, никогда не понадобятся или которые вы не захотите использовать.
Большинство веб-браузеров, например Chrome и Firefox, могут сами открывать PDF-файлы. Для этого вам может потребоваться надстройка или расширение, а может и не потребоваться, но очень удобно, чтобы они открывались автоматически, когда вы щелкаете ссылку PDF в Интернете.
Мы настоятельно рекомендуем SumatraPDF, Slim PDF Reader или MuPDF, если вам нужно что-то с немного большим количеством функций; все трое бесплатны.Смотрите наш список лучших бесплатных программ для чтения PDF-файлов, чтобы узнать о дополнительных возможностях.
Как редактировать файл PDF
Adobe Acrobat — самый популярный редактор PDF, но Microsoft Word тоже сделает это. Существуют и другие редакторы PDF, например PhantomPDF и Nitro Pro.
PDFescape, DocHub и PDF Buddy — это несколько бесплатных онлайн-редакторов PDF, которые позволяют очень легко заполнять формы, подобные тем, которые вы иногда видите в заявлении о приеме на работу или в налоговой форме. Просто загрузите свой PDF-файл на веб-сайт, чтобы вставлять изображения, текст, подписи, ссылки и многое другое, а затем загрузите его обратно на свой компьютер в виде PDF-файла.
Аналогичный онлайн-редактор PDF под названием Fill отлично подходит, если вам просто нужно добавить подпись к PDF. Он также поддерживает флажки, даты и обычный текст, но вы не можете редактировать существующий текст с его помощью или легко заполнять формы.
См. Наш список лучших бесплатных редакторов PDF, где вы найдете регулярно обновляемую коллекцию редакторов PDF, если вам нужно нечто большее, чем просто заполнение форм, например добавление или удаление текста или изображений из PDF-файла.
Сейда PDF редактор.
Если вы хотите извлечь часть PDF-файла как собственный или разбить PDF-файл на несколько отдельных документов, есть несколько способов сделать это.Ознакомьтесь с нашими лучшими инструментами и методами для разделения PDF-файлов, чтобы получить всю необходимую помощь.
Как преобразовать файл PDF
Большинство людей, желающих преобразовать PDF-файл в какой-либо другой формат, заинтересованы в этом, чтобы они могли редактировать содержимое PDF-файла. Преобразование PDF означает, что он больше не будет .PDF и вместо этого откроется в программе, отличной от PDF-ридера.
Например, преобразование PDF-файла в файл Microsoft Word (DOC и DOCX) позволяет открывать файл не только в Word, но и в других программах для редактирования документов, таких как OpenOffice и LibreOffice.Использование этих типов программ для редактирования преобразованного PDF-файла, вероятно, является гораздо более удобным занятием по сравнению с незнакомым редактором PDF.
Если вместо этого вы хотите, чтобы файл, отличный от PDF, был файлом .PDF, вы можете использовать средство создания PDF . Эти типы инструментов могут принимать такие вещи, как изображения, электронные книги и документы Microsoft Word, и экспортировать их в формате PDF, что позволяет открывать их в PDF-формате или в программе для чтения электронных книг.
Сохранение или экспорт из какого-либо формата в PDF можно выполнить с помощью бесплатного средства создания PDF.Некоторые даже служат в качестве PDF-принтера, что позволяет практически «распечатать» практически любой файл в формате .PDF. На самом деле, это простой способ конвертировать в PDF что угодно. См. Раздел «Как печатать в PDF», чтобы полностью изучить эти параметры.
Печать веб-страницы в PDF в Chrome.
Некоторые программы по ссылкам выше можно использовать обоими способами, то есть вы можете использовать их для преобразования PDF-файлов в различные форматы, а также для создания PDF-файлов. Caliber — еще один пример бесплатной программы, которая поддерживает преобразование в формат электронных книг и обратно.
Кроме того, многие из упомянутых программ также могут объединять несколько PDF-файлов в один, извлекать определенные PDF-страницы и сохранять только изображения из PDF-файла.
EasePDF — это один из примеров онлайн-конвертера PDF в Word, который может сохранять файл в DOCX.
См. Как конвертировать файлы PDF в JPG, если вы хотите, чтобы ваш PDF-файл был просто изображением, что может быть удобно, если вы не уверены, есть ли у человека, которому вы отправляете PDF-файл, или он хочет его установить. читатель.
EasyPDF.com — еще один онлайн-конвертер PDF, который поддерживает сохранение PDF в различных форматах, чтобы он был совместим с Word, PowerPoint, Excel или AutoCAD. Вы также можете преобразовать страницы PDF в файлы GIF или в отдельный текстовый файл. PDF-файлы можно загружать из Dropbox, Google Диска или с вашего компьютера. CleverPDF — аналогичная альтернатива.
Еще одно преобразование, которое вы можете сделать, — это PDF в PPTX. Если вы используете PDFConverter.com для преобразования документа, каждая страница PDF-файла будет разделена на отдельные слайды, которые вы можете использовать в PowerPoint или любом другом программном обеспечении для презентаций, которое поддерживает файлы PPTX.
См. Эти бесплатные программы преобразования файлов и онлайн-службы, чтобы узнать о других способах преобразования файла PDF в другие форматы файлов, включая форматы изображений, HTML, SWF, MOBI, PDB, EPUB, TXT и другие.
Как защитить PDF-файл
Защита PDF-файла может включать запрос пароля для его открытия, а также запрет на печать PDF-файла, копирование его текста, добавление комментариев, вставку страниц и другие действия.
Некоторые из создателей и конвертеров PDF, на которые есть ссылки сверху, а также другие, такие как PDFMate PDF Converter Free, PrimoPDF, FreePDF Creator, Soda PDF и FoxyUtils, являются одними из многих бесплатных приложений, которые могут изменять эти типы параметров безопасности.
Спасибо, что сообщили нам!
Расскажите, почему!
Другой
Недостаточно подробностей
Сложно понять
PDF File Format
Portable Document Format (PDF) — это тип документа, созданный Adobe еще в 1990-х годах. Целью этого формата файла было введение стандарта для представления документов и других справочных материалов в формате, который не зависит от прикладного программного обеспечения, оборудования и операционной системы. Формат файла PDF имеет полную возможность содержать такую информацию, как текст, изображения, гиперссылки, поля формы, мультимедиа, цифровые подписи, вложения, метаданные, геопространственные функции и трехмерные объекты, которые могут стать частью исходного документа.
В большинстве случаев существующие документы конвертируются в PDF, а не создаются с нуля. Но это не означает, что нет программного обеспечения для создания или обработки файлов PDF.
Краткий обзор временной шкалы формирования файла PDF с точки зрения временной шкалы выглядит следующим образом:
1993 — Adobe Systems предоставила спецификации PDF бесплатно
2008 — PDF был выпущен как открытый 1 июля 2008 г. и был опубликован Международной организацией по стандартизации как ISO 32000-1: 2008 .
2008 — Adobe опубликовала публичную патентную лицензию в формате ISO 32000-1 с бесплатными правами на все патенты, принадлежащие Adobe, которые необходимы для создания, использования, продажи и распространения реализаций, совместимых с PDF.
Первая версия PDF, обозначенная как PDF 1.0, позже претерпела изменения до PDF 1.7. PDF 1.7, который стал ISO 32000-1, включает некоторые нестандартные проприетарные технологии, а также Adobe XML Forms Architecture (XFA) и расширение JavaScript для Acrobat.28 июля 2017 года был опубликован PDF 2.0, известный как ISO 32000-2: 2017, который не включает никаких нестандартных технологий.
Спецификации формата файла
Файл PDF — это набор байтов, которые могут быть сгруппированы в токены в соответствии с правилами синтаксиса, определенными спецификациями PDF. Один или несколько маркеров объединяются для формирования синтаксических сущностей более высокого уровня, в основном объектов, которые являются базовыми значениями данных, из которых создается PDF-документ.
Структура файла
Содержимое PDF-файла расположено внутри файла в следующей последовательности.
| Заголовок
| Тело
| Таблица перекрестных ссылок
| Прицеп
Заголовок файла
Независимо от версии PDF файл PDF начинается с заголовка, содержащего уникальный идентификатор для PDF и версию формата, например% PDF-1.x, где x находится в диапазоне от 1 до 7.
Тело файла
Тело файла PDF состоит из последовательности косвенных объектов, представляющих содержимое документа. Объекты, как описано выше, представляют компоненты документа, такие как шрифты, страницы и образцы изображений.Начиная с PDF 1.5, тело также может содержать потоки объектов, каждый из которых содержит последовательность косвенных объектов.
Таблица перекрестных ссылок
Таблица перекрестных ссылок содержит информацию, которая разрешает произвольный доступ к косвенным объектам в файле, так что не нужно читать весь файл, чтобы найти какой-либо конкретный объект. Таблица должна содержать однострочную запись для каждого косвенного объекта, определяющую байтовое смещение этого объекта в теле файла. (Начиная с PDF 1.5, некоторая или вся информация о перекрестных ссылках может альтернативно содержаться в потоках перекрестных ссылок.
Трейлер файла
Трейлер файла PDF позволяет соответствующему читателю быстро найти таблицу перекрестных ссылок и некоторые специальные объекты. Соответствующие читатели должны читать PDF-файл с его конца. Последняя строка файла должна содержать только маркер конца файла %% EOF. Две предыдущие строки должны содержать, по одной на строку и в определенном порядке, ключевое слово startxref и байтовое смещение в декодированном потоке от начала файла до начала ключевого слова xref в последнем разделе перекрестных ссылок.
Объекты PDF
Файл PDF включает несколько различных типов объектов следующих типов:
- Логические значения, представляющие условное истина или ложь
- Числа — целые и действительные значения
- Строки — содержат символы в круглых скобках
- Имена — начать с вперед / символа, например / ASomewhatLongerName приводит к ASomewhatLongerName
- Массивы — PDF поддерживает одномерные массивы. Массивы более высоких измерений могут быть построены с использованием массивов в качестве вложенных элементов.
- Словари — коллекция объектов в виде пар ключ-значение.Он может иметь нулевые записи.
- Streams — представляет последовательность байтов, которая также может иметь неограниченную длину.
- Null Object — представляет нулевое значение.
. Могут быть другие объекты, такие как комментарии, которые представлены знаком% и могут содержать 8-битные символы. .
Косвенные объекты
Любой объект в файле PDF может быть помечен как косвенный объект. Косвенным объектам присваивается уникальный идентификатор объекта, по которому другие объекты могут ссылаться на него.Перекрестные ссылки на них поддерживаются в индексной таблице и помечаются ключевым словом xref, которое следует за основным телом и дает байтовое смещение каждого косвенного объекта от начала файла.
Линейные и нелинейные макеты PDF
Макеты PDF подразделяются на близкие и нелинейные в зависимости от целевых приложений и других факторов.
Нелинейный — Нелинейные PDF-файлы занимают меньше места на диске по сравнению с линейными PDF-файлами. PDF-страницы документа находятся в разрозненном виде по всему PDF-файлу, поэтому нелинейные файлы работают медленнее по сравнению с линейными файлами.
Линейный PDF-файл — предназначен для онлайн-просмотра PDF-файлов. Файлы линейного PDF-файла построены таким образом, что они записываются на диск в линейном режиме. При этом не требуются плагины браузера для загрузки всего документа перед отображением.
Обзор объектов
Как уже упоминалось, тело PDF-файла представляет собой набор объектов, упомянутых выше. PDF в значительной степени основан на PostScript без функций управления языков программирования, таких как команды if и loop. Команды, выдаваемые кодом Postscript для создания графического содержимого, собираются и токенизируются в дополнение к любым файлам, графике или шрифтам, на которые ссылается документ.Все это содержимое накапливается в одном файле, в результате чего получается скомпонованный вывод PostScript.
Текст
Текст в PDF представлен текстовыми элементами, которые фактически отображаются с глифами из шрифтов. Глиф — это графическая форма, с которой можно выполнять все графические манипуляции, например преобразование координат. Из-за важности текста в большинстве описаний страниц PDF предоставляет возможности более высокого уровня для удобного и эффективного описания, выбора и визуализации глифов.
Графика
Графические операторы, используемые в потоках содержимого PDF, описывают внешний вид страниц, которые должны воспроизводиться на устройстве вывода растров. Оборудование предназначено как для принтеров, так и для дисплеев. Графические операторы образуют шесть основных групп:
- Операторы графического состояния манипулируют структурой данных, называемой графическим состоянием, глобальной структурой, в которой выполняются другие графические операторы. Состояние графики включает в себя текущую матрицу преобразования (CTM), которая отображает координаты пользовательского пространства, используемые в потоке содержимого PDF, в координаты устройства вывода.Он также включает текущий цвет, текущий контур обрезки и многие другие параметры, которые являются неявными операндами операторов рисования.
- Операторы построения пути задают пути, которые определяют формы, траектории линий и области различных типов. Они включают в себя операторы для начала нового пути, добавления к нему отрезков линий и кривых и закрытия его.
- Операторы рисования контура заполняют контур цветом, рисуют обводку вдоль него или используют в качестве границы отсечения.
- Другие операторы рисования рисуют определенные графические объекты с самоописанием.К ним относятся образцы изображений, геометрически определенные оттенки и целые потоки контента, которые, в свою очередь, содержат последовательности графических операторов.
- Текстовые операторы выбирают и отображают глифы символов из шрифтов (описания гарнитур для представления текстовых символов). Поскольку PDF рассматривает глифы как общие графические формы, многие текстовые операторы можно сгруппировать с помощью операторов состояния графики или рисования. Однако структуры данных и механизмы для работы с описаниями глифов и шрифтов достаточно специализированы.
- Операторы маркированного содержимого связывают логическую информацию более высокого уровня с объектами в потоке содержимого. Эта информация не влияет на визуализированный внешний вид контента; это полезно для приложений, использующих PDF для обмена документами.
Ссылки
Формат файла PDF: Базовая структура [обновлено в 2020 г.]
Все мы знаем, что существует ряд атак, при которых злоумышленник включает некоторый шелл-код в документ PDF. Этот шелл-код использует некоторую уязвимость в том, как документ PDF анализируется и представляется пользователю для выполнения вредоносного кода в целевой системе.
На следующем изображении показано количество уязвимостей, обнаруженных в популярной программе чтения PDF-файлов Adobe Acrobat Reader DC, выпущенной в 2015 году и ставшей единственной поддерживаемой версией Acrobat Reader после прекращения поддержки Acrobat XI в октябре 2017 года. Количество уязвимостей растет. с годами. Наиболее важные уязвимости — это уязвимости выполнения кода, которые злоумышленник может использовать для выполнения произвольного кода в целевой системе (если Acrobat Reader еще не исправлен).
Рисунок 1: Уязвимости Adobe Acrobat Reader DC
Это важный показатель того, что мы должны регулярно обновлять нашу программу чтения PDF-файлов, поскольку количество недавно обнаруженных уязвимостей весьма устрашающе.
Структура файла PDF
Каждый раз, когда мы хотим обнаружить новые уязвимости в программном обеспечении, мы должны сначала понять протокол или формат файла, в котором мы пытаемся обнаружить новые уязвимости. В нашем случае мы должны сначала подробно разобраться в формате файла PDF.В этой статье мы рассмотрим формат файла PDF и его внутреннее устройство.
PDF — это переносимый формат документов, который можно использовать для представления документов, содержащих текст, изображения, мультимедийные элементы, ссылки на веб-страницы и многое другое. Он имеет широкий спектр функций. Спецификация формата файла PDF общедоступна здесь и может использоваться всеми, кто интересуется форматом файла PDF. Только для формата PDF-файлов имеется почти 800 страниц документации, так что читать ее — не то, что нужно делать по прихоти.
PDF имеет больше функций, чем просто текст: он может включать изображения и другие мультимедийные элементы, быть защищенным паролем, выполнять JavaScript и так далее. Базовая структура файла PDF представлена на рисунке ниже:
Рисунок 2: Структура PDF
Каждый PDF-документ содержит следующие элементы:
Заголовок
Это первая строка файла PDF, в которой указывается номер версии используемой спецификации PDF, которая используется в документе.Если мы хотим это выяснить, мы можем использовать шестнадцатеричный редактор или просто использовать команду xxd , как показано ниже:
[простой]
# xxd temp.pdf | head -n 1
0000000: 2550 4446 2d31 2e33 0a25 c4e5 f2e5 eba7% PDF-1.3.% ……
[/ plain]
В PDF-документе temp.pdf используется спецификация PDF 1.3. Символ «%» является комментарием в PDF, поэтому в приведенном выше примере первая и вторая строки фактически представляют собой комментарии, что верно для всех документов PDF. Следующие байты взяты из вывода ниже: 2550 4446 2d31 2e33 0a25 c4e5 и соответствуют тексту ASCII «% PDF-1.3.% ». Ниже приведены некоторые символы ASCII, в которых используются непечатаемые символы (обратите внимание на точки ‘.’), Которые обычно используются, чтобы сообщить некоторым программным продуктам, что файл содержит двоичные данные и не должен рассматриваться как 7-битный ASCII. текст. В настоящее время номера версий имеют вид 1.N, где N находится в диапазоне 0-7.
Кузов
В теле документа PDF есть объекты, которые обычно включают в себя текстовые потоки, изображения, другие мультимедийные элементы и т. Д. Раздел «Тело» используется для хранения всех данных документа, показываемых пользователю.
таблица внешних ссылок
Это таблица перекрестных ссылок, которая содержит ссылки на все объекты в документе. Назначение таблицы перекрестных ссылок состоит в том, что она обеспечивает произвольный доступ к объектам в файле, поэтому нам не нужно читать весь документ PDF, чтобы найти конкретный объект. Каждый объект представлен одной записью в таблице перекрестных ссылок, которая всегда имеет длину 20 байт. Покажем пример:
[обычный]
xref
0 1
0000000023 65535 f
3 1
0000025324 00000 n
21 4
0000025518 00002 n
0000025632 00000 n
0000000024 00001 f
0000000000 00001 f
3627 1
1
]
Мы можем отобразить таблицу перекрестных ссылок документа PDF, просто открыв PDF-файл в текстовом редакторе и прокрутив его до конца документа.В приведенном выше примере мы видим, что у нас есть четыре подраздела (обратите внимание на четыре строки, содержащие только два числа). Первое число в этих строках соответствует номеру объекта, а вторая строка указывает количество объектов в текущем подразделе. Каждый объект представлен одной записью длиной 20 байт (включая CRLF).
Первые 10 байтов — это смещение объекта от начала документа PDF до начала этого объекта. Далее следует разделитель пробелом с другим числом, указывающим номер поколения объекта.После этого идет еще один разделитель пробела, за которым следует буква «f» или «n», чтобы указать, свободен ли объект или используется.
Первый объект имеет идентификатор 0 и всегда содержит одну запись с номером поколения 65535, которая находится во главе списка свободных объектов (обратите внимание на букву «f», которая означает «свободный»). Последний объект в таблице перекрестных ссылок использует номер поколения 0.
Второй подраздел имеет идентификатор объекта 3 и содержит один элемент, объект 3, который начинается со смещения 25324 байта от начала документа.Третий подраздел состоит из четырех объектов, первый из которых имеет идентификатор 21 и начинается со смещения 25518 от начала файла. Остальные объекты имеют следующие номера 22, 23 и 24.
Все объекты отмечены флажком «f» или «n». Флаг «f» означает, что объект может все еще присутствовать в файле, но помечен как свободный, поэтому его не следует использовать. Эти объекты содержат ссылку на следующий свободный объект и номер поколения, который будет использоваться, если объект снова станет действительным. Флаг «n» используется для представления действительных и используемых объектов, которые содержат смещение от начала файла и номер поколения объекта.
Обратите внимание, что нулевой объект указывает на следующий свободный объект в таблице, объект 23. Поскольку объект 23 также свободен, он сам указывает на следующий свободный объект в таблице, объект 24. Но объект 24 является последним свободным объектом в таблице. файл, так что он указывает обратно на нулевой объект. Если представить приведенную выше таблицу перекрестных ссылок с каждым номером объекта, она будет выглядеть следующим образом:
[простой]
xref
0 1
0000000023 65535 f
3 1
0000025324 00000 n
21 1
0000025518 00002 n
22 1
0000025632 00000 n
23 1
0000000024 00001 f
000000 240000 1 9027 1
0000026900 00000 n
[/ простой]
Номер поколения объекта увеличивается, когда объект освобождается, поэтому, если объект снова становится действительным (изменяет флаг с «f» на «n»), номер поколения остается действительным без необходимости его увеличения.Номер поколения объекта 23 равен 1, поэтому, если он снова станет действительным, номер поколения по-прежнему будет 1, но если он снова будет удален, номер поколения увеличится до 2.
В документах PDF, которые постепенно обновлялись, обычно присутствует несколько подразделов, в противном случае должен присутствовать только один подраздел, начинающийся с нуля.
Прицеп
Трейлер PDF определяет, как приложение, читающее документ PDF, должно найти таблицу перекрестных ссылок и другие специальные объекты.Все программы чтения PDF-файлов должны начинать чтение PDF-файла с конца файла. Пример трейлера представлен ниже:
трейлер
& amp; lt; & amp; lt;
/ Размер 22
/ Корень 2 0 R
/ Информация 1 0 R
& amp; gt; & amp; gt;
startxref
24212
%% EOF
Последняя строка документа PDF содержит конец строки файла «%% EOF». Перед концом тега файла находится строка со строкой startxref , которая указывает смещение от начала файла до таблицы перекрестных ссылок.В нашем случае таблица перекрестных ссылок начинается со смещения 24212 байт. Перед этим находится строка трейлер , которая определяет начало раздела трейлера. Содержимое разделов трейлера заключено в символы << и >> (это словарь, который принимает пары ключ-значение).
Мы видим, что раздел трейлера определяет несколько клавиш, каждая из которых предназначена для определенного действия. В разделе трейлера можно указать следующие ключи:
- / Размер [целое число]: указывает количество записей в таблице перекрестных ссылок (включая также количество объектов в обновленных разделах).Используемый номер не должен быть косвенной ссылкой.
- / Prev [целое число]: указывает смещение от начала файла до предыдущего раздела перекрестной ссылки, которое используется, если имеется несколько разделов перекрестных ссылок. Номер должен быть перекрестной ссылкой.
- / Root [словарь]: указывает объект ссылки для объекта каталога документов, который представляет собой специальный объект, содержащий различные указатели на различные типы других специальных объектов (подробнее об этом позже).
- / Encrypt [dictionary]: указывает словарь шифрования документа.
- / Info [dictionary]: указывает объект ссылки для информационного словаря документа.
- / ID [массив]: Задает массив двухбайтовых незашифрованных строк, образующих идентификатор файла.
- / XrefStm [integer]: указывает смещение от начала файла до потока перекрестных ссылок в декодированном потоке. Это присутствует только в файлах гибридных ссылок, которые указываются, если мы также хотим открывать документы, даже если приложения не поддерживают сжатые потоки ссылок.
Мы должны помнить, что первоначальная структура может быть изменена, если мы обновим документ PDF позже. Обновление обычно добавляет дополнительные элементы в конец файла.
Дополнительные обновления
PDF-файл был разработан с учетом инкрементальных обновлений, так как мы можем добавлять некоторые объекты в конец PDF-файла, не перезаписывая файл целиком. Благодаря этому изменения в PDF-документе можно быстро сохранить. Новую структуру PDF-документа можно увидеть на картинке ниже:
Рисунок 3: Структура PDF
Мы видим, что документ PDF по-прежнему содержит исходный заголовок, тело, таблицу перекрестных ссылок и трейлер.Кроме того, в PDF-документ были добавлены другие разделы основного текста, перекрестных ссылок и трейлера. Дополнительные разделы перекрестных ссылок будут содержать только записи для объектов, которые были изменены, заменены или удалены. Удаленные объекты останутся в файле, но будут отмечены флажком «f». Каждый трейлер должен заканчиваться тегом «%% EOF» и содержать запись / Prev, которая указывает на предыдущий раздел перекрестных ссылок.
В PDF версиях 1.4 и выше мы можем указать запись версии в словаре каталога документа, чтобы заменить версию по умолчанию из заголовка PDF.
Пример
Давайте представим простой пример PDF-файла и проанализируем его. Давайте загрузим отсюда образец PDF-документа и проанализируем его. При открытии этого PDF-документа он выглядит, как показано ниже:
Рисунок 4: PDF-документ, образец
Перекрестные ссылки и концевые разделы представлены на картинке ниже:
Рисунок 5: Перекрестная ссылка и раздел прицепа
Раздел с перекрестными ссылками был уменьшен для ясности.Раздел перекрестных ссылок содержит один подраздел, который содержит 223 объекта. Раздел трейлера начинается со смещения байта 50291, включает 223 объекта, где корневой элемент указывает на объект 221, а информационный элемент указывает на объект 222.
В следующем разделе мы рассмотрим основные типы данных структуры PDF.
Типы данных PDF
PDF-документ содержит восемь основных типов объектов, описанных ниже. Эти типы: логические, числа, строки, имена, массивы, словари, потоки и нулевой объект.Объекты могут быть помечены, чтобы на них могли ссылаться другие объекты. Помеченный объект также называется косвенным объектом.
Логические
Есть два ключевых слова: true и false , которые представляют логические значения.
Номера
В документе PDF есть два типа чисел: целые и действительные. Целое число состоит из одной или нескольких цифр, которым может предшествовать знак плюс или минус. Пример целочисленных объектов можно увидеть ниже:
Действительное значение может быть представлено одной или несколькими цифрами, с дополнительным знаком и ведущей, конечной или встроенной десятичной точкой (точкой).Пример действительных чисел можно увидеть ниже:
- 123,0 -123,0 +123,0 123. -,123
Имена
Имена в документах PDF представлены последовательностью символов ASCII в диапазоне 0x21 — 0x7E. Исключением являются символы:%, (,), <,>, [,], {,}, / и #, которым должна предшествовать косая черта. Альтернативное представление символов — их шестнадцатеричный эквивалент, которому предшествует символ «#». Существует ограничение на длину элемента имени, которая может составлять всего 127 байт.
При написании имени необходимо использовать косую черту для обозначения имени; косая черта не является частью имени, а является префиксом, указывающим, что далее следует последовательность символов, представляющих имя. Если мы хотим использовать пробел или любой другой специальный символ как часть имени, он должен быть закодирован в двузначной шестнадцатеричной системе счисления.
Примеры имен можно увидеть в таблице ниже:
Рисунок 6: Имена PDF-файлов (источник)
Струны
Строки в документе PDF представлены как последовательность байтов, заключенных в круглые или угловые скобки, но могут иметь длину не более 65535 байтов.Любой символ может быть представлен в виде ASCII, а также в восьмеричном или шестнадцатеричном представлении. Восьмеричное представление требует, чтобы символ был записан в форме ддд, где ддд — восьмеричное число. Шестнадцатеричное представление требует, чтобы символ был записан в форме
Пример представления строки, заключенной в круглые скобки, можно увидеть ниже:
Пример представления строки, заключенной в угловые скобки, можно увидеть ниже (шестнадцатеричное представление ниже такое же, как и выше, и читается как «mystring»):
Мы также можем использовать специальные хорошо известные символы при представлении строки.Это: n для новой строки, r для возврата каретки, t для горизонтального табулятора, b для возврата, f для подачи формы, (для левой скобки) для правой скобки и для обратной косой черты.
Массивы
Массивы в документах PDF представлены как последовательность объектов PDF, которые могут быть разных типов и заключены в квадратные скобки. Вот почему массив в документе PDF может содержать любые типы объектов, такие как числа, строки, словари и даже другие массивы. В массиве также могут быть нулевые элементы.Массив обозначается квадратной скобкой. Пример массива представлен ниже:
- 123 123.0 true (mystring) / myname]
Словари
Словари в PDF-документе представлены в виде таблицы пар ключ / значение. Ключ должен быть объектом имени, тогда как значением может быть любой объект, включая другой словарь. Максимальное количество статей в словаре — 4096 статей. Словарь может быть представлен статьями, заключенными в двойные угловые скобки << и >>.Пример словаря представлен ниже:
& lt; & lt; / mykey1 123
/ mykey2 0,123
/ mykey3 & lt; & lt; / mykey4 правда
/ mykey5 (mystring)
& gt; & gt;
& gt; & gt;
Потоки
Объект потока представлен последовательностью байтов и может быть неограниченной по длине, поэтому изображения и другие блоки больших данных обычно представляются как потоки.Объект потока представлен объектом словаря, за которым следует поток ключевых слов, за которым следует новая строка и конечный поток.
Пример объекта потока можно увидеть ниже:
& lt; & lt;
/ Тип / Страница
/ Длина 23 0 R
/ Фильтр / LZWDecode
& gt; & gt;
поток
…
endstream
Все объекты потока должны быть косвенными объектами, а словарь потока должен быть прямым объектом. Словарь потока указывает точное количество байтов потока.После данных должна быть новая строка и ключевое слово endstream.
Общие ключевые слова, используемые во всех словарях потоков, следующие (обратите внимание, что запись Length является обязательной):
- Длина: сколько байтов файла PDF используется для данных потока. Если поток содержит запись фильтра, длина должна указывать количество байтов закодированных данных.
- Тип: Тип объекта PDF, описываемого в словаре.
- Фильтр: имя фильтра, который будет применяться при обработке данных потока.Можно указать несколько фильтров в порядке их применения.
- DecodeParms: словарь или массив словарей, используемых фильтрами, указанными в Filter. Это значение определяет параметры, которые необходимо передать фильтрам при их применении. В этом нет необходимости, если фильтры используют значения по умолчанию.
- F: указывает файл, содержащий данные потока.
- FFilter: имя фильтра, который будет применяться при обработке данных, обнаруженных во внешнем файле потока.
- FDecodeParms: словарь или массив словарей, используемых фильтрами, указанными FFilter.
- DL: указывает количество байтов в декодируемом потоке. Это можно использовать, если на диске достаточно места для записи потока в файл.
- N: количество косвенных объектов, хранящихся в потоке.
- Первый: смещение в декодированном потоке первого сжатого объекта.
- Extends: указывает ссылку на другие потоки объектов, которые образуют дерево наследования.
Данные потока в потоке объектов будут содержать N пар целых чисел, где первое целое число представляет номер объекта, а второе целое число представляет смещение в декодированном потоке этого объекта. Объекты в потоках объектов являются последовательными, и их не нужно сохранять в порядке возрастания относительно номера объекта. Первая запись в словаре идентифицирует первый объект в потоке объектов.
Нельзя хранить следующую информацию в потоке объектов:
- Потоковые объекты
- Объекты с номером поколения, отличным от нуля
- Словарь шифрования документа
- Косвенный объект записи Length в словаре потока объектов
- Каталог документов, словарь линеаризации, объекты страниц
В PDF 1.5, информация о перекрестных ссылках может храниться в потоке перекрестных ссылок вместо таблицы перекрестных ссылок. Каждый поток перекрестных ссылок содержит информацию, эквивалентную таблице перекрестных ссылок и трейлеру.
Нулевой объект
Нулевой объект представлен ключевым словом «null».
Косвенные объекты
Прежде всего, мы должны знать, что любой объект в документе PDF может быть помечен как косвенный объект. Это дает объекту уникальный идентификатор объекта, который другие объекты могут использовать для ссылки на косвенный объект.Косвенный объект — это пронумерованный объект, представленный ключевыми словами «obj» и «endobj». Endobj должен присутствовать в отдельной строке, но obj должен находиться в конце строки идентификатора объекта, которая является первой строкой косвенного объекта. Строка идентификатора объекта состоит из номера объекта, номера поколения и ключевого слова «obj». Пример косвенного объекта выглядит следующим образом:
2 1 obj
12345
endobj
В приведенном выше примере мы создаем новый косвенный объект, который содержит объект с номером 12345.Объявляя объект косвенным объектом, мы можем использовать его в таблице перекрестных ссылок документа PDF и повторно использовать его на любой странице, в словаре и т. Д. В документе. Поскольку каждый косвенный объект имеет свою собственную запись в таблице перекрестных ссылок, к косвенным объектам можно получить доступ очень быстро.
Идентификатор косвенного объекта состоит из двух частей; первая часть — это номер текущего косвенного объекта. Непрямые объекты не нужно нумеровать последовательно в документе PDF.Вторая часть — это номер поколения, который устанавливается равным нулю для всех объектов во вновь созданном файле. Это число позже увеличивается при обновлении объектов.
Мы можем ссылаться на косвенные объекты с помощью косвенной ссылки, которая состоит из номера объекта, номера поколения и ключевого слова R. Чтобы ссылаться на вышеупомянутый косвенный объект, мы должны написать что-то вроде ниже:
Если мы пытаемся сослаться на неопределенный объект, мы фактически ссылаемся на нулевой объект.
Структура документа
Документ PDF состоит из объектов, содержащихся в основной части файла PDF. Большинство объектов в документе PDF — это словари. Каждая страница документа представлена объектом страницы, который представляет собой словарь, включающий ссылки на содержимое страницы. Объекты страниц связаны между собой и образуют дерево страниц, которое объявляется с косвенной ссылкой в каталоге документов.
Вся структура документа PDF может быть представлена на картинке ниже [1]:
Рисунок 7: Структура документа PDF (источник)
На картинке выше мы видим, что каталог документов содержит ссылки на дерево страниц, иерархию контуров, цепочки статей, именованные места назначения и интерактивную форму.Мы не будем вдаваться в подробности того, что делает каждый из этих разделов, но представим только самый важный раздел — дерево страниц.
Каталог документов
Из рисунка выше мы видим, что Каталог документов является корнем объектов в документе PDF. Мы уже говорили, что это элемент / Root в разделе Trailer PDF, который определяет каталог документов. Каталог документов содержит ссылки на другие объекты, которые определяют содержание документа. Он также содержит информацию о том, как документ будет отображаться на экране.Записи в каталоге документов следующие:
- / Тип: Тип объекта PDF, описываемого каталогом (в нашем случае это Каталог, поскольку это объект каталога документов).
- / Версия: Версия спецификации PDF, на основе которой был создан документ.
- / Extensions: Информация о расширениях для разработчиков в этом документе.
- / Pages: косвенная ссылка на объект, являющийся корнем дерева страниц документа.
- / Dests: косвенная ссылка на объект, который является корнем указанного объекта назначения.
- / Outlines: косвенная ссылка на объект каталога структуры, который является корнем иерархии структуры документа.
- / Threads: косвенная ссылка на массив словарей потоков, которые представляют цепочки статей документа.
- / Метаданные: косвенная ссылка на поток метаданных, который содержит метаданные для документа.
Есть много других записей, которые мы видим как часть каталога документов, но не будем описывать их здесь.Подробности читатель может почитать в наших источниках. Пример каталога документов представлен ниже:
1 0 obj
& lt; & lt; / Тип / Каталог
/ Страницы 2 0 R
/ PageMode / UseOutlines
/ Контуры 3 0 R
& gt; & gt;
эндобдж
Дерево страниц
Доступ к страницам документа осуществляется через дерево страниц, которое определяет все страницы в документе PDF. Дерево содержит узлы, которые представляют страницы документа PDF, которые могут быть двух типов: промежуточные и листовые узлы.Промежуточные узлы также называются узлами дерева страниц, а конечные узлы — объектами страницы.
Простейшая древовидная структура страницы может состоять из одного узла дерева страниц, который напрямую ссылается на все объекты страницы (так что все объекты страницы являются листами).
Каждый узел в дереве страниц должен иметь следующие записи:
- / Тип: тип объекта PDF, описываемого этим объектом (в нашем случае это страницы, , поскольку мы говорим об узлах дерева страниц).
- / Родитель: должен присутствовать во всех узлах дерева страниц, кроме корневого, где эта запись не должна присутствовать. Эта запись указывает своего родителя.
- / Kids: Должен присутствовать во всех узлах дерева страниц, кроме листьев, и указывает все дочерние элементы, непосредственно доступные из текущего узла.
- / Count: указывает количество конечных узлов, которые являются потомками этого узла в последующем дереве страниц.
Мы должны помнить, что дерево страниц не имеет отношения ни к чему в документе PDF, например к страницам или главам.
Базовый пример дерева страниц можно увидеть ниже:
2 0 obj
& lt; & lt; / Тип / Страницы
/ Дети [4 0 R
10 0 р
24 0 R
]
/ Количество 3
& gt; & gt;
эндобдж
4 0 объект
& lt; & lt; / Тип / Страница
…
& gt; & gt;
эндобдж
10 0 объект
& lt; & lt; / Тип / Страница
…
& gt; & gt;
эндобдж
24 0 obj
& lt; & lt; / Тип / Страница
…
& gt; & gt;
endobj
Дерево страниц выше определяет объект Root с идентификатором 2, который имеет трех дочерних объектов, объекты 4, 10 и 20.Мы также можем видеть, что листья дерева страниц — это словари, определяющие атрибуты отдельной страницы документа. Есть несколько атрибутов, которые мы можем использовать при их определении для каждой страницы документа.
Мы рассмотрели базовую структуру документа PDF и типы данных. Если мы хотим начать поиск уязвимостей в программах для чтения PDF-файлов, нам необходимо изменить PDF-документ таким образом, чтобы программа для чтения PDF-файлов не могла с этим справиться и вылетела из строя. Обычно, если нам удается вызвать сбой программы чтения PDF-файлов, мы обнаруживаем уязвимость системы безопасности, которую можем использовать для выполнения произвольного кода на целевой машине.
Пример
В этой статье мы рассмотрим очень простой пример документа PDF. Сначала нам нужно создать PDF-документ, чтобы затем мы попытались его проанализировать. Чтобы создать документ PDF, давайте сначала создадим очень простой документ .tex, содержащий то, что показано на рисунке ниже:
Рисунок 8: Простой документ
Мы видим, что документ .tex действительно не содержит большого количества файлов. Сначала мы определяем документ как статью, а затем включаем содержимое статьи в начальный и конечный документ.Мы добавляем новый раздел с заголовком (Введение) и статическим текстом «Hello World!».
Мы можем скомпилировать документ .tex в документ PDF с помощью команды pdflatex и указав имя файла .tex в качестве аргумента. Полученный PDF-файл будет выглядеть так, как показано на рисунке ниже:
Рисунок 9: Результат
Мы видим, что документ PDF на самом деле не содержит очень много, только текст, который мы фактически включили, и никаких изображений, JavaScript или других элементов.
Пример 1
Давайте посмотрим на структуру документа PDF, которая представлена в выходных данных ниже:
% PDF-1.5
% ÐÔÅØ
3 0 объект & lt; & lt;
/ Длина 138
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
эндобдж
10 0 объект & lt; & lt;
/ Длина2 1526
/ Длина3 7193
/ Длина4 0
/ длина 8194
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
эндобдж
12 0 объект & lt; & lt;
/ Длина2 1509
/ Длина3 9410
/ Длина4 0
/ длина 10422
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
эндобдж
15 0 объект & lt; & lt;
/ Производитель (pdfTeX-1.40,12)
/ Создатель (TeX)
/ CreationDate (D: 20121012175007 + 02’00 ’)
/ ModDate (D: 20121012175007 + 02’00 ’)
/ В ловушке / Ложь
/PTEX.Fullbanner (Это pdfTeX, версия 3.1415926-2.3-1.40.12 (TeX Live 2011) kpathsea версия 6.0.1)
& gt; & gt; эндобдж
6 0 объект & lt; & lt;
/ Тип / ObjStm
/ № 10
/ Первые 65
/ Длина 761
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
эндобдж
16 0 объект & lt; & lt;
/ Тип / XRef
/ Индекс [0 17]
/ Размер 17
/ Вт [1 2 1]
/ Корень 14 0 R
/ Инфо 15 0 R
/ ID [& lt; 1DC2E3E09458C9B4BEC8B67F56B57B63 & gt; & lt; 1DC2E3E09458C9B4BEC8B67F56B57B63 & gt;]
/ Длина 60
/ Фильтр / FlateDecode
& gt; & gt;
поток
…
конечный поток
эндобдж
startxref
20215
%% EOF
Для создания такого простого PDF-документа достаточно много элементов, поэтому мы можем представить, как будет выглядеть действительно сложный PDF-документ.Мы также должны помнить, что все потоки закодированных данных были удалены и заменены тремя точками для ясности и краткости.
Давайте представим каждый из разделов PDF. Заголовок можно увидеть на картинке ниже:
Рисунок 10: Заголовок PDF
Тело видно на картинке ниже:
Рисунок 11: Корпус PDF
Раздел xref можно увидеть на картинке ниже:
Рисунок 11: PDF xref
И, наконец, раздел Trailer представлен ниже:
Рисунок 12: PDF-трейлер
Мы представили все разделы PDF-документа, но нам еще предстоит их проанализировать.Заголовок PDF-документа стандартный, и нам не нужно об этом говорить, поэтому оставим текст на потом.
Вот почему мы должны сначала взглянуть на раздел xref. Мы видим, что смещение от начала файла до таблицы внешних ссылок составляет 20215 байт, что в шестнадцатеричной форме равно 0x4ef7. Если мы посмотрим на шестнадцатеричное представление файла, которое мы можем получить с помощью инструмента xxd, мы увидим то, что представлено на рисунке ниже:
Рисунок 13: Шестнадцатеричное представление файла
Выделенные байты лежат точно в начале смещения 20125 байтов от начала файла.Предыдущие байты 0x0a — это новая строка, а текущие байты 0x31 представляют собой число 1, которое в точности является началом таблицы внешних ссылок. Вот почему таблица xref представлена косвенным объектом с идентификатором 16 и номером поколения 0. (Это должно быть так для всех объектов, поскольку мы только что создали документ PDF и ни один из объектов еще не был изменен. Если мы посмотрите на весь PDF-документ, и мы увидим, что это действительно так; все объекты имеют нулевой номер поколения.)
/ Тип косвенного объекта классифицирует его как таблицу внешних ссылок.Массив / Index содержит пару целых чисел для каждого подраздела этого раздела. Первое целое число указывает номер первого объекта в подразделе, а второе целое число указывает количество записей в подразделе. В нашем примере номер объекта равен нулю, и в этом подразделе 17 записей. Это также указывается в директиве / Size. Обратите внимание, что это число на единицу больше наибольшего числа любого номера объекта в подразделе. Атрибут / W определяет массив целых чисел, представляющих размер полей в записи перекрестной ссылки, что означает, что поля являются одним байтом, двумя байтами и одним байтом.
После этого идет элемент / Root, который указывает каталог каталога для документа PDF как объект номер 14. / Info — это каталог информации документа PDF, который содержится в объекте номер 15. Массив / ID требуется, потому что Зашифрованная запись присутствует и содержит две строки, составляющие идентификатор файла. Эти две строки используются в качестве входных данных для алгоритма шифрования.
Параметр / Length указывает длину ключа шифрования в битах; значение должно быть кратным 8 в диапазоне от 40 до 128 (значение по умолчанию — 40).В нашем случае длина ключа шифрования составляет 60 бит. / Filter указывает имя обработчика безопасности для этого документа; это также обработчик безопасности, который использовался для шифрования документа. В нашем случае это FlateDecode, который кодирует данные с помощью метода сжатия zlib / deflate.
Мы видим, что другая часть таблицы внешних ссылок сжата, поэтому мы не можем ее прочитать. Конечно, мы могли бы применить какой-нибудь алгоритм распаковки zlib к сжатым данным, но есть вариант получше.Зачем нам писать программу для этого, если инструмент уже существует? С помощью pdftk мы можем восстановить поврежденную таблицу внешних ссылок PDF-файла с помощью следующей команды:
- # pdftk in.pdf output out.pdf
После этого файл out.pdf будет содержать следующие разделы внешних ссылок и трейлеров:
Рисунок 14: xref и трейлер
Очевидно, что номера объектов / Root и / Info изменились, а также другие вещи, но мы получили ключевые слова трейлера и xref, которые определяют таблицу xref.Мы видим, что в таблице внешних ссылок 14 объектов.
Мы могли бы продолжить и попытаться расшифровать и другие разделы, но это выходит за рамки данной статьи. Затем мы проверим документ, который не закодирован.
Пример 2
Давайте взглянем на образец документа PDF, доступный здесь. Некоторые объекты потока зашифрованы, но сейчас они не так важны. Поскольку мы уже знаем, как работать с PDF-документами, мы не потеряем слишком много слов в простых вещах.
Давайте откроем этот PDF-файл в текстовом редакторе, таком как gvim, и посмотрим на раздел трейлера.К настоящему моменту мы должны знать, что все документы PDF следует читать от конца до начала. Прицеп представлен на картинке ниже:
Рисунок 15: PDF-трейлер
Давайте также представим Xref всего с несколькими объектами (остальные были отброшены для ясности):
Рисунок 16: PDF xref
Мы видим, что корневой каталог / документа PDF содержится в объекте с ID 221, а в объекте 222 есть дополнительная информация.Объект 221 — самый важный объект во всем документе, поэтому давайте представим его:
Рисунок 17: Объект 221
Мы видим, что объект действительно является Каталогом документов. Объект дерева страниц — 212, объект Outlines — 213, объект Names — 220, а объект OpenAction — 58. Мы не говорили ни о каких других типах, кроме объекта дерева страниц, поэтому продолжим разговор о дереве страниц. Только.
Объект Page Tree с ID 212 представлен на рисунке ниже:
Рисунок 18: Объект дерева страниц
Итак, объект 212 содержит фактические страницы документа PDF.Он содержит 10 страниц, что совершенно верно (мы можем проверить это, если откроем PDF-файл с помощью любого PDF-ридера и проверим количество страниц).
Мы знаем, что атрибут Kids определяет все дочерние элементы, непосредственно доступные из текущего узла. В нашем случае есть два прямых дочерних узла с идентификаторами объектов 66 и 135. Объект 66 представлен ниже:
Рисунок 19: Объект 66
Объект 66 содержит другие дочерние элементы с ID 57, 69, 75, 97, 108 и 120.
Рисунок 20: Объект 135
Объект 135 дополнительно определяет объекты 129, 138, 133 и 158.
Если мы посчитаем все элементы, мы увидим, что есть ровно 10 элементов, что означает 10 страниц из 10 страниц. Это также подразумевает, что все представленные объекты на самом деле являются фактическими страницами документа PDF и не содержат дополнительных дочерних узлов.
Все представленные объекты объявлены одинаково, поэтому мы не будем рассматривать каждый из них по очереди.Вместо этого мы просто рассмотрим один объект, а именно объект 57. Объект 57 содержит, объявлен следующим образом:
Рисунок 21: Объект 57
Мы видим, что тип объекта — / Page, что напрямую подразумевает, что это листовой узел, представляющий одну из страниц документа PDF. Содержимое этой страницы PDF можно найти в объекте 62:
.
Рисунок 22: Объект 62
Мы видим, что фактическое содержимое страницы PDF кодируется с помощью FlateDecode, который представляет собой простой алгоритм кодирования zlib.
Заключение
Мы видели два примера создания PDF-документов. Обладая полученными знаниями, мы можем начать создавать неправильные PDF-документы и передавать их различным программам для чтения PDF-файлов. Если при чтении определенного PDF-документа происходит сбой определенного PDF-ридера, этот документ содержит что-то, что программа PDF-ридера не может обработать. Это подразумевает возможность уязвимости, которую необходимо изучить дополнительно.
В конце концов, если обнаружится наличие уязвимости, мы даже можем написать PDF-документ, содержащий вредоносный код, который запускается, когда жертва открывает PDF-документ с помощью уязвимого PDF-ридера на своей целевой машине.В таких случаях вся машина может быть скомпрометирована, поскольку произвольный вредоносный код может быть запущен, просто открыв вредоносный документ PDF.
Источники
Статистика уязвимостей, сведения о CVE
Политики поддержки Adobe: поддерживаемые версии продуктов, Adobe
Управление документами — Формат переносимых документов — Часть 1: PDF 1.7, Adobe (Archive.org)
Артикул:
[1]: формат файла PDF, доступный по адресу: http: //wwwimages.adobe.com / www.adobe.com / content / dam / Adobe / en / devnet / pdf / pdfs / PDF32000_2008.pdf.
Когда использовать формат PDF
18
Сен
в Работа с PDF
Вы когда-нибудь задумывались, в каких ситуациях лучше всего использовать PDF-файлы вместо Microsoft Word или других форматов? Что ж, не волнуйтесь, мы дадим вам знать, когда использовать формат PDF в повседневной жизни.
Для некоторых документов требуется герметичное форматирование, идеальный макет или даже распознавание символов для текста, заблокированного в изображениях или отсканированных документах.К счастью для вас, формат PDF — идеальный формат для этих обстоятельств (и многих других!). Наряду с мощным программным обеспечением для работы с PDF, таким как Soda PDF, важные задачи выполняются легко и быстро!
В этой статье мы познакомим вас с тремя идеальными ситуациями для использования PDF.
1 — Совместное использование важных файлов
Когда вам нужно поделиться важными бумагами или контрактами, беспокоитесь ли вы о том, что получатель может изменить текст? Или поиграться с деталями контракта (разве его зарплата не была 40к, а не 45к?)?
Как и изображения, PDF-файлы можно «заблокировать».Защитите свои документы паролем или установите разрешения, чтобы квитанции не редактировали, не удаляли, не печатали или не делились документами! Ознакомьтесь с нашим полным сообщением в блоге о безопасности PDF здесь. Когда агентства и специалисты делятся важными документами с клиентами или партнерами, они могут быть уверены, что их работа не будет подвергнута плагиату или редактированию без их разрешения
Согласно «совету Legal Scans», юридические документы »должны быть созданы в формате файла, который нельзя изменить, не оставив электронного следа.«Надежный формат PDF попадает в эту категорию! Вот почему файлы PDF на 100% принимаются в суд! По сути, при работе с юридическими документами стоит использовать PDF.
2 — Сохранение формата документа
Нравится ли вам формат вашего резюме?
Этот рецепт выглядит идеально согласованным?
Достаточно ли впечатляюще выглядит этот счет, чтобы произвести впечатление на вашего сотрудника?
Затем сохраните документ в формате PDF и спите спокойно, зная, что независимо от того, какую операционную систему кто-либо использует для просмотра вашего PDF-файла, его макет и содержимое останутся нетронутыми.
Как следует из названия, Portable Document Format (PDF) — это формат файла, который представляет документы способом, независимым от прикладного программного обеспечения, оборудования и операционных систем (какой цивилизованный формат!).
Поскольку технология продолжает развиваться, мы ожидаем, что документ будет выглядеть одинаково независимо от того, как и где мы его просматриваем. От различных операционных систем до приложений для чтения и даже мобильных устройств и планшетов.
Когда форматирование и стиль ваших документов имеют первостепенное значение, это когда использовать PDF в качестве предпочтительного формата файла.
3 — Создание портфолио PDF
Мы склонны забывать о легкости, с которой мы можем объединять и разделять документы в формате PDF. Текст и страницы в PDF-документах упорядочены и проиндексированы в формате, который позволяет разделять и объединять страницы без нарушения содержимого, макета или качества исходного документа.
Просто объединив разные PDF-файлы в один документ, вы можете создать портфолио PDF из нескольких частей.Создайте портфолио кандидатов из нашего резюме, сопроводительного письма, рекомендательных писем и даже образцов ваших работ! Потенциальные работодатели будут благодарить вас за возможность получить доступ ко всем вашим файлам, не копаясь в пучине электронных писем.
Портфолио
PDF также полезны, если учесть, что размер файлов PDF-файлов остается относительно небольшим, и поэтому их легко сохранить и поделиться. Таким образом, ваши документы ограничены только вашим воображением!
Сталкиваетесь ли вы с какой-либо из этих ситуаций ежедневно? Если вы еще не были уверены, что вам нужно начать использовать формат PDF, тогда вам следует это сделать.
Загрузите Soda PDF и попробуйте сами. Как только вы начнете использовать PDF, вам больше никогда не понадобится другой формат.
PDF (формат переносимого документа) Определение
означает «Формат переносимого документа». PDF — это формат файла, предназначенный для единообразного представления документов на нескольких устройствах и платформах. Он был разработан Adobe в 1992 году и с тех пор стал одним из наиболее широко используемых форматов для сохранения и обмена документами.
Файл PDF может хранить широкий спектр данных, включая форматированный текст, векторную графику и растровые изображения. Он также содержит информацию о макете страницы, которая определяет расположение каждого элемента на странице, а также размер и форму страниц в документе. Вся эта информация сохраняется в стандартном формате, поэтому документ выглядит одинаково, независимо от того, какое устройство или программа используется для его открытия. Например, если вы сохраните PDF-файл на Mac, он будет выглядеть так же в Windows, Android и iOS.
Формат PDF также поддерживает метаданные, такие как название документа, автор, тема и ключевые слова. Он может хранить встроенные шрифты, поэтому вам не нужно устанавливать соответствующие шрифты для правильного просмотра документа. PDF-документы также могут быть зашифрованы, поэтому только авторизованные пользователи могут их открывать.
Создание и просмотр PDF-файлов
PDF-файлов редко создаются с нуля. Вместо этого они обычно создаются из существующего документа. Например, вы можете сохранить документ Word в формате PDF или отсканировать бумажную копию и сохранить ее в формате PDF.Хотя формат PDF изначально был проприетарным, Adobe открыла его другим разработчикам, поэтому многие программы теперь включают опцию «Сохранить как PDF» или «Экспорт в PDF». macOS предоставляет функцию «Сохранить как PDF» в стандартном диалоговом окне «Печать», поэтому вы можете сохранить любой документ для печати в формате PDF.
Для просмотра PDF вы можете использовать Adobe Reader или любую программу или дополнительный модуль, поддерживающий формат PDF. Вы можете редактировать PDF-файлы с помощью Adobe Acrobat или стороннего редактора PDF. Например, многие редакторы включают функцию «Заполнить и подписать», которая позволяет заполнять поля и подписывать документ.Программы, поддерживающие OCR, позволяют сканировать документ в цифровом виде на наличие текста, а затем редактировать или удалять его. Вы также можете добавлять изображения и блоки текста в PDF. Большинство редакторов PDF также позволяют объединить несколько PDF-файлов в один документ.
ПРИМЕЧАНИЕ: Поскольку формат Portable Document Format предназначен для обмена, возможности редактирования PDF ограничены по сравнению с другими форматами. Поэтому при разработке документа лучше всего создать его с помощью редактора, такого как Microsoft Word, CorelDRAW или Adobe InDesign, а затем сохранить документ как PDF.
Обновлено: 5 апреля 2018 г.
TechTerms — Компьютерный словарь технических терминов
Эта страница содержит техническое определение PDF. Он объясняет в компьютерной терминологии, что означает PDF, и является одним из многих терминов о форматах файлов в словаре TechTerms.
Все определения на веб-сайте TechTerms составлены так, чтобы быть технически точными, но также простыми для понимания. Если вы сочтете это определение PDF полезным, вы можете сослаться на него, используя приведенные выше ссылки для цитирования.Если вы считаете, что термин следует обновить или добавить в словарь TechTerms, отправьте электронное письмо в TechTerms!
Подпишитесь на рассылку TechTerms, чтобы получать избранные термины и тесты прямо в свой почтовый ящик. Вы можете получать электронную почту ежедневно или еженедельно.
Подписаться
Что в PDF? Проблемы популярного формата переносимых документов | Американский фонд для слепых
Примечание редактора: AccessWorld Solutions, консалтинговое подразделение Американского фонда для слепых, работает с Adobe с августа 2003 года, помогая им улучшить и улучшить доступность и удобство использования некоторых продуктов Adobe для людей с ограниченными возможностями. включая продукты Adobe Acrobat и Reader 6.0 и 7.0 версии. Джамал Мазруи не связан с AccessWorld Solutions или Американским фондом помощи слепым.
Portable Document Format (PDF) — это формат электронных файлов, разработанный Adobe Systems из Сан-Хосе, Калифорния. PDF стал одним из самых популярных форматов файлов для публикации документов в Интернете и, таким образом, является обычным средством распространения знаний. В этой статье определяются особенности популярности PDF, анализируется их влияние на доступность и обсуждается использование программы Adobe Reader с программами чтения с экрана, такими как JAWS или Window-Eyes.
Популярные функции
Adobe публикует официальную спецификацию PDF, которая с годами эволюционировала до версии 1.6 в настоящее время. По сравнению с другими форматами, которые могут использоваться для хранения и распространения документов в электронном виде, такими как HTML или Microsoft Word, PDF отличается как минимум четырьмя характеристиками: визуальная точность, компактность хранения, настройки безопасности и кроссплатформенная переносимость.
Визуальная точность
Подготовив документ в формате PDF, можно быть достаточно уверенным в том, что читателю будет представлен точный визуальный вид, который должен быть представлен, включая макет, шрифты, цвета и изображения.Это верно независимо от того, отображается ли результат на экране компьютера или распечатывается в виде бумажной копии. Поскольку файл PDF внутренне разделен на страницы вывода, каждая страница работы автора будет иметь вид и ощущение, которое он или она хочет передать. Эта визуальная точность является причиной того, что PDF широко используется для распространения публикаций в электронной форме.
Компактное хранилище
Документ в формате HTML обычно делится на несколько файлов, которые представлены в виде отдельных страниц на веб-сайте.Более того, изображения далее разделяются как графические файлы, которые связаны с текстовыми страницами. Таким образом, распространение документа в формате HTML обычно включает в себя сбор различных файлов в источнике и их размещение в соответствующем порядке в месте назначения, чтобы документ был согласован.
Если документ подготовлен в формате PDF, с другой стороны, весь текст и графика связаны в один файл. Кроме того, этот файл сжат: используются методы более компактного хранения повторяющихся последовательностей данных, что позволяет уменьшить общий размер.Программа для просмотра PDF-файла автоматически распаковывает данные, поскольку представляет их содержимое в удобочитаемой форме. Это компактное хранилище означает, что веб-сайт может хранить публикации в одном файле, соответствующем каждому документу, пользователь может загружать их быстрее, а отправка и получение становятся проще.
Настройки безопасности
PDF содержит дополнительные настройки, которые автор может включить, чтобы ограничить использование файла PDF. Без таких ограничений программа Adobe Reader позволяет пользователю просматривать файл PDF на экране, распечатывать его, копировать в буфер обмена и сохранять на диск в текстовом формате.Однако с настройками безопасности любое использование, кроме просмотра на экране, может быть полностью или ограничено каким-либо образом. Например, только часть может быть скопирована в буфер обмена или только диапазон страниц может быть напечатан один раз в неделю. Более строгие настройки могут помешать просмотру PDF-файла на любом компьютере, не содержащем лицензионного ключа для конкретного PDF-файла. Механизм аналогичен тем, которые иногда используются для предотвращения несанкционированного копирования программного обеспечения на другие компьютеры. Эти настройки безопасности означают, что авторы могут ограничивать, кто и как использует их документы.
Кроссплатформенность
Неотъемлемой частью поддержки PDF является бесплатное программное обеспечение, которое Adobe также разрабатывает для просмотра файлов PDF на нескольких различных компьютерных платформах или операционных системах, включая Microsoft Windows, Apple Macintosh, UNIX и карманные персональные цифровые помощники. Программа Adobe Reader гарантирует, что файл PDF можно просматривать с одинаковой визуальной точностью практически на любом типе компьютера. Поскольку эти программы можно получить бесплатно, стоимость программного обеспечения Adobe Reader не является препятствием для просмотра документа, доступного в формате PDF.Эта кроссплатформенная переносимость означает, что авторы могут широко распространять свои работы.
Проблемы доступности
Популярность PDF как средства распространения публикаций приносит пользу слепым или слабовидящим людям. В общем, электронные публикации предлагают больше возможностей для доступного, независимого чтения, чем печатные публикации, поскольку компьютерные программы могут создавать выходные данные гибкими и альтернативными способами, включая синтетическую речь, шрифт Брайля и увеличенный текст.Это означает, что зрячий помощник-посредник не нужен, что обеспечивает удобство и конфиденциальность. Ранее обсуждавшиеся преимущества PDF помогают увеличить количество материалов для чтения, публикуемых в электронной форме. Кроме того, слабовидящий получает прямую выгоду, как и другие, от определенных функций PDF, таких как компактное хранилище.
Тем не менее, некоторые функции PDF, которые предоставляют преимущества общего характера, имели непреднамеренные неблагоприятные побочные эффекты для невизуальных читателей.Чтобы понять почему, в этом разделе объясняются некоторые технические внутренние механизмы PDF. Спецификация для текущей версии 1.6 занимает более 1200 страниц. Чтобы не выходить за рамки этой статьи, обсуждение обязательно упростит техническое объяснение формата, сосредоточив внимание на концепциях, наиболее важных для доступности.
Язык PostScript
PDF основан на специализированном языке программирования PostScript, разработанном Adobe в 1980-х годах. Возможности PostScript отчасти объясняются его гибкостью в отношении порядка, в котором части вывода размещаются на странице.Порядок не обязательно должен быть слева направо и сверху вниз. Принтер с поддержкой PostScript выводит на печать страницу за раз. Каждая страница вывода передается пакетом после завершения всех операций рисования с ней. Наблюдатель визуальной страницы может догадываться, но на самом деле не знает, в каком порядке был нарисован вывод.
Три компонента вывода
Выходные данные можно разделить на три компонента: текстовые символы, векторную графику и фотографические изображения.Как будет объяснено ниже, то, как эти разные объекты используются и объединяются, влияет на доступность.
текстовых символов
Текстовые символы основаны на таблице шрифтов: наборе ассоциаций между видимой формой символа и его числовым значением в системе, называемой Unicode. Исторически популярный код под названием ASCII (Американский стандартный код для обмена информацией) определяет около 250 возможных символов, которых обычно достаточно для выражения английского и других европейских языков.Для сравнения, Unicode определяет десятки тысяч символов для поддержки множества письменных языков мира, а также многих специализированных символов, используемых в определенных предметных областях. Программа PostScript рисует строку символов на странице, используя значение Unicode для каждого символа и просматривая связанную с ним форму в таблице шрифтов.
Векторная графика
Помимо текстовых символов, на основе математических вычислений на странице могут быть нарисованы многие другие виды фигур.Такие формы, называемые векторной графикой, могут быть прямыми или изогнутыми линиями, геометрическими фигурами, такими как круги или квадраты, или заполненными областями в соответствии с узором. Фактически, PostScript может рисовать векторную графику для создания изображения практически всего на странице.
Фотографических изображений
Третьим компонентом вывода является фотографическое изображение, которое можно представить как массив цветных точек, создающих буквальное изображение. PostScript не знает внутренней структуры изображения, поэтому по сути копирует, а не генерирует его в определенное место на странице.Такие изображения обычно определяются в формате, называемом TIFF (формат файла изображения тега).
PDF Тип файла
Adobe построила PDF как тип файла на основе PostScript как языка печати. PDF — это способ, с помощью которого документы можно просматривать на экране и обмениваться ими между пользователями, а не просто печатать на бумаге. PDF использует ту же «модель изображения», что и PostScript, для описания внешнего вида страницы. Файл PDF содержит сокращенный набор инструкций PostScript: в основном, последовательность операций рисования без других программных конструкций, таких как условия и циклы.
Следовательно, документ PDF — это файл, содержащий инструкции PostScript и данные, которые они используют. Команды и данные подчиняются определенным правилам, которые Adobe определила как спецификацию для формата переносимых документов. В отличие от формата файла, внутренняя структура которого известна только его разработчикам, спецификация PDF является опубликованной и открытой, а не частной и частной. Он защищен авторским правом и контролируется Adobe, но любой может свободно использовать его для разработки программного обеспечения, которое создает или просматривает файлы PDF в рамках общих условий лицензирования.Adobe также выпускает бесплатную программу просмотра и печати для множества различных устройств, чтобы все понимали PDF одинаково. Поэтому Adobe создала комбинацию формата файла и программного интерпретатора, которая позволяет авторам публиковать документы с определенным внешним видом для потенциальных читателей в самых разных средах.
Три типа файлов PDF
PDF-файлы можно разделить на три типа: только изображения, изображения с возможностью поиска и форматированный текст и графика.Эти типы различаются использованием только что описанных компонентов — текстовых символов, векторной графики и фотографических изображений.
PDF только для изображений
PDF-файл, содержащий только изображения, содержит фотографическое изображение, представляющее каждую страницу, и практически не содержит текстовых символов или векторной графики. Хотя текст может отображаться на странице, на самом деле текст является поверхностным изображением без нижележащих символов. Для перевода в речь или шрифт Брайля необходимы отдельные символы, поэтому PDF-файл, содержащий только изображения, недоступен.
Файлы PDF только с изображениями обычно создаются путем сканирования бумажных документов на компьютер с подключенным сканирующим оборудованием. По сути, система делает снимок каждой напечатанной страницы, а затем упаковывает страницы в файл PDF. Можно использовать программное обеспечение оптического распознавания символов (OCR) для создания текстовых символов в файле PDF, но часто этого не делается, потому что процесс занимает гораздо больше времени: минуты для OCR по сравнению с секундами для фотографических снимков. Еще одна причина, по которой следует избегать OCR, заключается в том, что получаемый текст обычно содержит ошибки распознавания, которые требуют ручной корректуры и исправления для обеспечения точности, что требует больше времени и навыков персонала.
Сканирование документов в PDF-файлы, содержащие только изображения, было обычным способом хранения информации для архивных целей, поскольку электронные носители намного меньше и менее громоздки, чем бумажные хранилища. Чем чаще документы создаются в электронной, а не в бумажной форме, тем меньше вероятность того, что документы нужно будет сканировать для архивирования. Таким образом, поскольку авторы все больше полагаются на компьютеры как на исходный источник документов, проблема доступности PDF-файлов на основе изображений может со временем уменьшиться.
Изображение с возможностью поиска
PDF-файл с изображениями с возможностью поиска также содержит изображение для каждой страницы, но этот тип также включает текстовый слой.Текстовые символы создаются в процессе распознавания текста, который анализирует каждое изображение на предмет того, что выглядит как символы. Везде, где на изображении распознаются символы, программа рисует под ними слой текста. Наблюдатель страницы видит только изображение поверхности, как и в случае PDF-файла только с изображениями.
Текстовый слой позволяет искать в файле PDF фразы, интересующие читателя, просматривающего документ. Этот текст также позволяет индексировать файлы PDF по ключевым словам в коллекции электронных документов, что позволяет исследователю находить конкретные из них, заслуживающие дальнейшего изучения.
Добавление текстового слоя увеличивает размер файла PDF, поэтому текст может быть опущен, если компактность имеет первостепенное значение. Однако обычно возможность поиска как для зрячих, так и для слабовидящих читателей перевешивает затраты на дополнительный размер, особенно с учетом того, что текст сжимается, как упоминалось ранее. Поскольку для невизуального доступа к содержимому PDF требуется текст, добавление возможности поиска в файл PDF также улучшает доступность.
Форматированный текст и графика
Третий тип PDF, называемый форматированным текстом и графикой, сводит к минимуму использование фотографических изображений в пользу текстовых символов и векторной графики.Никакой слой изображения не лежит поверх текстового слоя. Вместо этого текстовые символы и векторная графика рисуются везде, где они могут представлять содержимое страницы. Фотографические изображения используются только в том случае, если они представляют собой рисунки, которые нельзя создать из строительных блоков текстовых символов и векторной графики. Этот тип PDF-файла обычно является результатом преобразования из другого электронного формата файла, такого как Microsoft Word. Этот тип является наиболее компактным (часто 10% файла, состоящего только из изображений, с таким же содержимым).Кроме того, поскольку этот тип построен из более структурированных компонентов, его можно более гибко использовать для других целей. Например, такой PDF-файл может быть преобразован в HTML для отображения в виде веб-страниц или преобразован в Microsoft Word для редактирования как части другого документа.
PDF-файл, составленный как форматированный текст и графика, вероятно, будет более доступным, чем файл, составленный как доступное для поиска изображение. Хотя оба типа содержат текстовые символы, качество текста почти всегда лучше в последнем типе, поскольку он служит как цели представления, так и возможности поиска.Если файл PDF был создан путем сканирования, вероятно, было проделано больше работы, чем с типом изображения с возможностью поиска, чтобы исправить ошибки OCR и добиться презентабельного текста. Если файл PDF был создан путем преобразования другого электронного формата, то текстовые компоненты, вероятно, будут более полными, поскольку они происходят непосредственно из символьных шрифтов, а не косвенно из распознанных изображений. Однако, несмотря на потенциал доступности этого типа PDF, другие проблемы структурного характера могут создавать значительные проблемы доступности, как будет объяснено ниже.
Расшифровка символов
Текстовые символы являются необходимым условием доступности PDF, но их недостаточно. Некоторые инструменты для создания PDF-файлов не оставляют достаточно информации о шрифтах, используемых в программе просмотра PDF-файлов, чтобы расшифровать все символы в терминах хорошо понятного компьютерного алфавита. Программа просмотра видит фигуры, которые, как ей известно, являются персонажами, нарисованными на странице. Затем программа должна выполнить обратный перевод своих операций рисования, найти значение Unicode для каждой формы и отобразить его как стандартный экранный символ.Если исходная таблица шрифтов встроена в файл PDF, программа просмотра может декодировать символы. Расшифровка также возможна, если использовался общий шрифт, например, встроенный в операционную систему. Однако без доступной таблицы шрифтов программа просмотра не знает, какие текстовые символы существуют, потому что она выполняет быстрый поиск в таблице, а не сложное распознавание текста.
Порядок чтения
Даже если полное декодирование символов возможно, файл PDF может быть недоступен из-за проблем с «порядком чтения».«Этот термин относится к порядку слов, предложений и абзацев. Могут ли они быть извлечены из текста файла PDF в последовательном, линейном порядке, или они смешаны вместе несвязными, запутанными способами?
Например, текст файла PDF может визуально выглядеть как газетные столбцы, где линия заканчивается посередине страницы и продолжается под ней, а не продолжается до правого поля. Визуально на экране или распечатке структура документа очевидна из-за дополнительных интервалов или границы, которая указывает, где заканчивается один столбец текста и начинается другой.Однако информация об этой структуре документа должна быть представлена в файле PDF, чтобы порядок чтения был понятным и понятным с помощью вспомогательных технологий. Без структурной информации, которая группирует и разделяет области страницы, документ может быть недоступен для невизуальных читателей.
Поскольку PDF часто выбирают для публикаций, которые должны выглядеть красивее, чем текст с одним столбцом, файлы PDF часто содержат нестандартные макеты страниц с несколькими столбцами, боковыми панелями и подписями к изображениям.Если у этих файлов отсутствует внутренняя структура, невизуальная их интерпретация обязательно предполагает предположения о порядке чтения, а ошибки могут серьезно подорвать понимание их содержания.
Специальные возможности
Добавление тегов к файлам PDF
Для решения таких проблем с доступностью Adobe представила расширение для PDF, называемое «тегами». Концепция аналогична тегам в формате HTML. В качестве фона Консорциум World Wide Web (W3C) провел новаторскую работу с тегами HTML, чтобы включить структуру документа, которая была необходима для доступности по мере развития стандарта HTML.
HTML включает части текста с маркерами, которые указывают структуру или цель текста. Например, фраза может быть помечена как заголовок раздела, заголовок изображения или ячейка в таблице. Некоторые теги необходимы для правильного визуального отображения в веб-браузере, который интерпретирует файлы HTML, тогда как другие теги — хотя и являются стандартной частью языка HTML — рекомендуются специально для облегчения доступа. Например, теги специальных возможностей включают в себя указание меток строк и столбцов таблицы, что позволяет средству чтения с экрана сообщать пользователю о контексте каждой ячейки.Информация о ячейках может быть бесполезной или сбивающей с толку без знания связанных меток строк и столбцов. В совокупности теги HTML, необходимые для обеспечения доступности, иногда называют «доступной разметкой».
PDF-файл с тегами, разработанный Adobe, обладает аналогичными функциями. Теги отмечают части содержимого PDF и организованы в последовательности, которая передает предлагаемый порядок чтения. В то время как файлы HTML представляют собой читаемый текст с тегами в виде слов, заключенных в скобки, однако файлы PDF имеют сжатую двоичную форму с тегами, которые можно просматривать только с помощью специального программного обеспечения, такого как Adobe Acrobat.
Стандарты доступности и стимулы
W3C определил стандарты для доступной разметки, названные «Руководством по доступности веб-контента» (WCAG 1.0). Правительство США также определило стандарты доступности для веб-сайтов, программного обеспечения и других информационных технологий в нормативных актах, которые были впервые опубликованы в 2001 году для реализации Раздела 508 Закона о реабилитации с поправками. (См. Дополнительную информацию в конце этой статьи для ссылки на эти правила.Раздел 508 требует, чтобы федеральные агентства предоставляли информацию людям с ограниченными возможностями в порядке, сопоставимом с тем, что предоставляется людям без инвалидности.
Раздел 508 не требует, чтобы производители программного обеспечения делали доступные продукты, но он предоставляет им значительные рыночные стимулы для этого, поскольку федеральное правительство является крупным заказчиком, который заинтересован в продуктах, соответствующих минимальным стандартам доступности. Действительно, Конгресс принял Раздел 508 отчасти с заявленной целью создания добровольных рыночных стимулов для разработки технологий, которые приносят пользу людям с широким спектром физических характеристик, а не только людям с типичным уровнем зрения, слуха, ловкостью рук и другими качествами.
Adobe, как и другие компании, продающие продукцию федеральному правительству, за последние годы заметно увеличила доступность своих продуктов, а на ее веб-сайте есть информация о соответствии стандартам Раздела 508. Формат PDF с тегами — это нововведение в области специальных возможностей, которое компания представила в 2001 году. Помимо бесплатной программы для просмотра файлов PDF под названием Adobe Reader, Adobe продает коммерческую программу для создания файлов PDF, включая файлы PDF с тегами, под названием Adobe Acrobat.Программа доступна как в стандартной, так и в профессиональной версии, причем последняя имеет наибольшее количество функций тегов и рекомендована Adobe клиентам, заинтересованным в доступности.
Adobe Acrobat
Основное содержимое и макет документа PDF обычно создается и редактируется с помощью программы обработки текста, такой как Microsoft Word или Corel WordPerfect, а затем преобразуется в PDF для создания окончательной формы с использованием таких функций, как визуальная точность, компактное хранение , настройки безопасности и кроссплатформенность, как описано ранее.Adobe Acrobat позволяет конвертировать документ в PDF из других форматов, включая обычный текст, HTML и популярные программы обработки текста. Он позволяет объединить несколько исходных документов в один файл PDF, например отчет, состоящий из описательной части Microsoft Word и электронной таблицы Microsoft Excel. Затем это позволяет автору или дизайнеру подправить внешний вид для точной презентации, которая требуется.
Adobe Acrobat включает функцию, которая анализирует доступность файла PDF.Он сообщает о потенциальных проблемах, например о неидентифицируемых символах, неоднозначной структуре или изображениях без маркировки. Связанная функция добавляет теги, когда это можно сделать с высокой степенью уверенности в том, какая разметка подходит в контексте документа. Например, он может связать нижний колонтитул каждой страницы с соответствующим тегом, когда анализ обнаруживает значительное пространство между остальной частью страницы и последней строкой текста, и эта строка содержит номер страницы.
Adobe Acrobat не может определить, что содержит изображение, поэтому автору необходимо ввести тег подписи к изображению вручную.Таблицы также представляют собой проблему. Состоит ли левый столбец таблицы из меток для строк справа или он состоит из фактических данных в таблице с метками столбцов, но без меток строк?
Отчет о специальных возможностях, создаваемый Acrobat, выявляет потенциальные проблемы, которые обычно исправляются путем выбора части документа и выбора тега, указывающего на его назначение. Этот процесс добавления тегов вручную может потребовать значительного времени и навыков, в зависимости от сложности документа.
Использование Adobe Reader
Adobe и устройства чтения с экрана
Компании, занимающиеся вспомогательными технологиями, такие как Freedom Scientific, разработчик JAWS, и GW Micro, разработчик Window-Eyes, работали с Adobe, чтобы их программы чтения с экрана понимали теги файла PDF, который просматривается в Adobe Reader (или Acrobat) и тем самым сделать более доступным вывод в речи или шрифте Брайля. На момент написания последней версии Adobe Reader была версия 7.0.3, для которой требуется Windows 2000 или XP.При запуске Adobe Reader определяет, запущена ли программа чтения с экрана. Если это так, он представляет диалоговое окно с параметрами конфигурации, которые влияют на доступность, и устанавливает варианты по умолчанию, которые, по мнению Adobe Reader, с наибольшей вероятностью будут работать лучше всего.
Самая важная настройка специальных возможностей называется «выводить порядок чтения из документа». Если этот параметр активен, Adobe Reader проанализирует немаркированный PDF-файл и добавит временные теги для оптимизации порядка чтения. В ходе анализа исследуются интервалы между блоками текста, например, чтобы решить, имеется ли несколько столбцов информации.
Хотя процесс автоматической маркировки удобен для порядка чтения, у него есть три недостатка. Во-первых, с большим файлом PDF, содержащим более 50 страниц, процесс может занять несколько минут или больше, в зависимости от сложности документа и скорости компьютера. Во-вторых, во время тегирования документа может оказаться невозможным работать с другими программами, поскольку процесс тегирования может замедлить работу других программ до невозможности сканирования. В-третьих, процесс добавления тегов не сигнализирует о завершении, поэтому нужно постоянно проверять с помощью программы чтения с экрана, чтобы определить, готов ли файл к чтению.
Из-за недостатков автоматического добавления тегов Adobe Reader просит пользователя подтвердить, следует ли добавлять теги, прежде чем запускать процесс каждый раз, когда он открывает файл. Обычно пользователю нужна маркировка для лучшего порядка чтения. Однако, если дополнительный шаг подтверждения кажется неэффективным или раздражающим, его можно отключить. Обратной стороной является то, что компьютер станет непригодным для использования в течение нескольких минут всякий раз, когда открывается большой файл PDF, и автоматическая пометка выполняется для всего файла. Этот процесс тегирования происходит, даже если тот же файл был открыт ранее — такие теги являются временными и не сохраняются Adobe Reader из одного сеанса в другой.
Если параметр подтверждения включен, а пользователь отказывается добавлять теги ко всему файлу заранее, пользователь все равно может читать большой файл PDF на странице за раз. Однако всякий раз, когда пользователь переходит на новую страницу, происходит пауза в несколько секунд, пока Adobe Reader добавляет временные теги для этой страницы и передает их программе чтения с экрана.
Многие параметры конфигурации Adobe Reader находятся в диалоговом окне «Настройки» в меню «Правка». Горячая клавиша для этого диалогового окна — Control-K.Пользователи версий JAWS до 6.1 должны помнить, что перед нажатием Control-K может потребоваться нажатие клавиши обхода Insert-3, поскольку JAWS использует Control-K для других целей.
Настройки Adobe Reader, относящиеся к специальным возможностям, расположены в основном на двух вкладках диалогового окна «Настройки», которые называются «Специальные возможности» и «Чтение». Adobe Reader также группирует большинство настроек специальных возможностей в другом диалоговом окне, которое называется Ассистент настройки специальных возможностей, которое можно выбрать в меню «Справка».В этом удобном диалоговом окне можно настроить параметры программы чтения с экрана, параметры увеличения экрана или и то, и другое. Он позволяет либо принять все рекомендуемые параметры, либо настроить параметры с помощью ряда страниц мастера. Рекомендуется сначала принять все рекомендуемые настройки, а затем изучить возможные изменения позже, если ваши результаты неудовлетворительны.
Поскольку пользователи программ чтения с экрана полагаются на обычные горячие клавиши, а не на указание и щелчки мышью, приложение может быть более сложным, если оно включает нестандартные нажатия клавиш.Отчасти это относится к интерфейсу программы чтения с экрана для Adobe Reader. Например, нужно узнать, что Control-Shift-PageUp, а не Control-Home идет в начало документа. Параметры конфигурации находятся в меню «Правка», а не в меню «Просмотр» или «Инструменты». Могут существовать некоторые нетрадиционные элементы интерфейса, потому что Adobe делает версии своего программного обеспечения Reader для нескольких операционных систем, поэтому может торговать некоторыми соглашениями Windows для обеспечения межплатформенной согласованности.
Проблема нетрадиционного интерфейса, однако, также связана с настройками программы чтения с экрана, сделанными для соответствия двум различным доступным режимам тегов: отдельной странице или целому документу.Используя приведенный выше пример, Control + Home фактически является горячей клавишей для перехода к началу документа в Adobe Reader, как и другие программы Windows. Однако, когда программа чтения с экрана запущена, она использует Control + Home для перехода либо к верхней части документа, либо к верхней части страницы, в зависимости от того, активен ли режим документа или страницы. Поэтому Control + Shift + PageUp реализован как способ всегда переходить в начало документа.
Полезные горячие клавиши
Вот несколько нестандартных, но полезных горячих клавиш Adobe Reader:
- Control-PageDown или Control-PageUp: переход к следующей или предыдущей странице
- Control-Shift-PageDown или Control-Shift-PageUp: переход к нижней или верхней части документа
- Control-K: перейти к диалоговому окну «Настройки»
- Control-D: отображение свойств документа, включая параметры безопасности и статус тегов, которые влияют на доступность
- Control-Shift + 6: проверить доступность порядка чтения
- Alt-F, затем V: сохранить в текст
- Alt-H, затем T: Ассистент настройки специальных возможностей
JAWS vs.Окно-Глаза
Сравнение доступности между JAWS и Window-Eyes часто бывает затруднительным, потому что каждая программа может адаптировать и добавить к функциям, которые другая запустила за шесть месяцев до этого. Обе компании заявляют, что предоставляют поддержку Adobe Reader, сопоставимую с их поддержкой Internet Explorer. С JAWS 6.20 и Window-Eyes 5.0 мы заметили прогресс в этом направлении.
Команды навигации по таблицам JAWS, которые ранее работали с веб-страницами в Internet Explorer, теперь также работают с файлами PDF в Adobe Reader.Команда Adobe Reader Find, вызываемая с помощью Control-F, не работает с JAWS. Он работает с Window-Eyes, но с заметной задержкой. Однако в обоих программах чтения с экрана реализованы альтернативные команды поиска, которые работают лучше: Control-Insert-F с использованием JAWS или Control-Shift-F с использованием Window-Eyes. Ни один из программ чтения с экрана не может полностью определить параметры безопасности в окне «Свойства документа» без необходимости навигации по окну с помощью клавиш имитации мыши.
В целом, оба средства чтения с экрана работают в Adobe Reader медленно, и этого достаточно, чтобы мы иногда чувствовали себя разочарованными из-за неэффективности (при запуске под Windows 2000 на компьютере Pentium 4 на уровне 1.9 ГГц).
Итог
PDF-файлы широко распространены и необходимы для доступа слепым или слабовидящим людям. Хотя исходный формат затруднял доступность, новый формат с тегами является многообещающим, и последние версии Adobe Reader лучше работают с программами чтения с экрана.
Для получения дополнительной информации
Страница специальных возможностей
Adobe Systems:
Страница Adobe о соответствии Разделу 508:
Страница загрузки
Adobe Reader:
Использование документов PDF со специальными возможностями в Adobe Reader 7.0: Руководство для людей с ограниченными возможностями :