Что такое база данных TrID?
База данных TrID содержит сигнатуры файлов более 10 000 типов. Подпись файла может использоваться для определения формата файла, будь то файл .DOC или файл .TXT.
База данных постоянно обновляется и расширяется. Благодаря большой базе данных неизвестный файл может быть проанализирован очень точно. Для этого также доступен «Онлайн-идентификатор файла TrID», который считывает анализируемый файл и сравнивает его с базой данных. Результаты представлены в порядке наибольшей вероятности.
TrID был запущен в 2004 году Марко Понтелло (Италия).
Определение типа файла по сигнатуре файла является более точным, чем по расширению файла. Пожалуйста, прочтите также следующий абзац:
Как определить формат файла
Формат файла, т. е. тип файла, можно определить по следующим трем характеристикам:
- Имя файла (расширение файла)
Чаще всего формат файла определяется расширением файла. Идентификатор формата файла находится после последней точки в имени файла. Поскольку эти расширения имен файлов в старых операционных системах были ограничены тремя символами, даже сегодня большинство форматов файлов идентифицируются идентификатором от одной до трех цифр, например. .H или .DOC.
Определение типа файла с помощью расширения файла не всегда точно, так как разные форматы используют одно и то же расширение файла, пользователь может случайно переименовать расширение файла, а текущие версии Windows маскируют расширение файла и вирусы (например, «photo.jpg.exe») могут скрываться под «photo.jpg». - Содержимое файла (подпись файла)
Часто содержимое файла всегда начинается с одной и той же строки. Если вы откроете, например. файл PDF с помощью текстового редактора, файл начинается с «% PDF-1». С другой стороны, первыми символами в файле PNG являются «* PNG». Поскольку на основе таких определенных строк символов можно диагностировать тип файла гораздо точнее, чем расширение файла, эти строки также называются сигнатурами файлов или «магическими числами».
TrID база данных содержит сигнатуры файлов и связанные типы файлов. - Метаданные (тип MIME)
Определение типа файла с помощью Mуниверсального интернетаMail Exstentions действительно является наиболее точным, но метаданные должны передаваться отдельно в заголовке.
Каким образом могут отображаться подписи файлов?
Подписи файлов — это данные, используемые для идентификации или проверки типа файла. Такие подписи также известны как магические числа и могут быть представлены в одном из следующих форматов:
- HEX: один байт (8 бит) представлен как двузначное число из 16 цифр (0, ..., 9, A, ..., F) (шестнадцатеричная система )
Если вы открываете файл PDF в HEX-редакторе, он начинается со строки 25 50 44 46 2D 31 2E. - ISO 8859-1: текст в 8-битной кодировке
Если вы открываете файл PDF в обычном текстовом редакторе, он начинается со строки % PDF-1. - ASCII: 7-битная кодировка символов, которая точно соответствует нижнему диапазону ISO 8859-1 (от 32 до 126).
Если вы открываете файл PDF в текстовом редакторе ASCII. , он начинается со строки % PDF-1.