Что такое метаданные

Что такое метаданные

Уже несколько лет термин «метаданные» у всех на слуху. Сегодня миллиарды людей во всем мире используют цифровые носители, и при этом постоянно генерируются большие объемы метаданных. Термин «прозрачный гражданин» иногда используется для описания возникающего риска защиты данных.

Оценка метаданных искусственным интеллектом позволяет прогнозировать поведение пользователя. В перспективе это представляет серьезную угрозу частной жизни граждан. Тем не менее, метаданные - хорошая вещь. В этой статье мы объясним, что на самом деле представляют собой метаданные.

В чем разница между данными и метаданными?

Метаданные: термин относится к информации, которая дополняет реальные данные. Часто метаданные предоставляют более подробную информацию о контексте содержимого файла или дают инструкции о том, как обрабатывать данные. Таким образом, метаданные играют важную роль как в вычислениях, так и в традиционной обработке данных (включая такие вещи, как библиотечные каталоги или почтовая система).

Чтобы лучше понять термин «метаданные», представьте простой пример: вы отправляете письмо по почте. Теперь документ, содержащийся в конверте, соответствует реальным и первичным данным. Эти данные являются конфиденциальными и защищены законом от доступа третьих лиц, к которым применяется принцип свободы и конфиденциальности переписки.

Конверт содержит метаданные письма, то есть дополнительные данные, сопровождающие первичные данные:

  • Адрес и отправитель
  • Штемпель и почтовая марка
  • При необходимости дополнительные идентификаторы, такие как штрих-коды

Как видите, в целом вторичные данные - это то, что позволяет отправить письмо. Однако метаданные письма видны всем. Они не особо защищены принципом секретности почты, даже если применяется секретность.

В чем тогда опасность метаданных? Если можно прочитать отдельные метаданные, это не проблема. Если третье лицо узнает о существовании одного конверта, обычно нет причин для беспокойства. Однако, когда на карту поставлено больше данных, ситуация меняется, как в случае массивного хранения и оценки данных. В таких масштабах появляются шаблоны, которые говорят о поведении человека: например, кто с кем общался и когда? Фактически с помощью этих моделей можно идентифицировать сети и связи.

Разница между данными и метаданными очевидна. Классификация зависит от контекста и перспективы. Предлагаем другой пример: книга содержит первичные данные, такие как название книги и ее содержание. Кроме того, доступен набор метаданных, которые пригодятся для публикации самой книги:

  • Автор
  • Издатель
  • Время и место публикации книги
  • Версия
  • Код ISBN

Представим, что метаданные нескольких публикаций собраны в базе данных. Для этого типа базы данных информация о публикации является первичными. Кроме того, для каждой публикации будет новый набор метаданных. Например, для каждой публикации база данных может запомнить, когда запись была добавлена ​​и каким пользователем.

Какие типы метаданных существуют и как они используются?

Метаданные можно найти во всех областях хранения и обработки данных. Использование их невозможно описать окончательно. Однако есть три основных области использования:

1. Обеспечить контекст для информации.

Метаданные часто описывают процесс, который приводит к созданию информации. Подумайте, например, о географических координатах, которыми помечены цифровые фотографии. Будучи потерянным, этот контекст не может быть восстановлен и поэтому сохраняется.

2. Предоставлять информацию, которую иначе было бы трудно найти.

Например, рассмотрите длину видео. Эта длина встроена в виде таймера в видеофайл. Без сохранения длительности видео длину следует рассчитывать вручную. Один из возможных подходов - подсчитать количество кадров и разделить его на частоту кадров, что потребует относительно больших усилий.

3. Свяжите информацию, чтобы ее было легко найти.

Основная цель - поддержать читаемую человеком информацию машиночитаемыми данными. Цель состоит в том, чтобы использовать автоматизированные процессы для установления взаимосвязей между частями информации. В частности, мы рассматриваем структурированные данные, которые при связывании создают так называемую «семантическую сеть».

Метаданные, описывающие изображения

Изображения, сделанные цифровыми камерами и смартфонами, содержат большое количество метаданных. С одной стороны, это технические данные, такие как размер изображения, используемая камера, фокусное расстояние и т. д. Эти коэффициенты определены стандартом EXIF и автоматически создаются камерой. Кроме того, стандарт IPTC определяет метаданные, которые описывают содержание фотографии и вводятся пользователем.

 Стандарт  Метаданные изображения  Творчество
 EXIF  Информация об изображении, такая как размер, цветовое пространство, цветовые каналы и т. д.; фотографическая информация, такая как выдержка, диафрагма, ISO и т. д.  Автоматически во время записи
 IPTC  Ключевые слова, авторские права, информация о местоположении и времени, описание контента и т. д.  Вводится пользователем вручную

Соблюдайте осторожность при обмене цифровыми изображениями. Это связано с тем, что метаданные изображения могут содержать личную информацию об авторе. Многие приложения и социальные сети автоматически удаляют эти данные с изображений при их загрузке. Однако лучше не полагаться только на эти механизмы. В некоторых случаях лучше использовать специальный инструмент для стирания информации об изображении.

Метаданные, встроенные в цифровые видео

Файл в цифровой системе содержит две основные данные: содержание файла и имя. Кроме того, каждый файл имеет набор метаданных, который управляются операционной системой и также известны как «атрибуты файлов». Вот обзор некоторых распространенных метаданных:

Метаданные файла  Описание
Отметка времени При создании, изменении и последнего доступа к файлу
Сохранение местоположения Путь к файлу в системе данных
Принадлежность Владелец и группа
Разрешения на файл Читать, правила, исполнение: для пользователей, групп и др.

Помимо атрибутов файлов, некоторые типы файлов включают определенные метаданные, которыми управляет соответствующее приложение. Даже с этими метаданными существует риск раскрытия конфиденциальной информации при их совместном использовании.

Метаданные создаются при отправке электронного письма

Электронное письмо, как и классическое почтовое письмо, состоит из двух основных частей:

  • Тело письма
  • Заголовок письма

 Тело электронного письма содержит фактическое сообщение, которое в случае реального письма соответствует документу в конверте. Как и конверт, заголовок содержит адреса отправителя и получателя. Опять же, некоторая информация в шапке может быть легко сфальсифицирована. Таким образом, получателю может показаться, что письмо пришло от другого отправителя. Это уловка, которая часто используется в атаках со спуфингом.

Заголовок электронного письма обычно содержит множество других метаданных , таких как:

  • Различные отметки времени
  • Информация о форматировании и кодировке сообщений
  • Информация о действиях, предпринятых электронным письмом во время передачи
  • Оценка электронной почты спам-фильтрами
  • Примечание, указывающее, было ли письмо проверено антивирусом

Метаданные заголовка электронной почты записываются и читаются серверным программным обеспечением и прикладными программами. Информация, полученная в процессе, многое раскрывает об электронном письме и его путешествии по Интернету. Кроме того, могут быть сделаны претензии относительно подлинности и конфиденциальности электронного письма . Заголовок может содержать имя хоста устройства пользователя и указывать на место, из которого было отправлено электронное письмо.

Метаданные, генерируемые при посещении веб-сайта

С технической точки зрения посещение веб-сайта означает получение HTML-документаБраузер пользователя получает документ с сервера по указанному адресу. Для этого используется протокол HTTP или HTTPS.

Помимо фактического HTML-документа, отображаемого в браузере, передаются хорошо известные метаданные, такие как заголовки HTTP , сравнимые с полями заголовка электронной почтыОни содержат информацию о кодировке, передаче, шифровании и сжатии HTTP-соединения.

Кроме того, метаданные генерируются во время передачи и накапливаются на сервереК ним относятся файлы журналов, в которых записываются обращения к серверу и которые необходимы для анализа журналовДля каждого доступа в файл журнала записывается отдельная строка. Кроме того, браузер обычно отправляет дополнительные запросы на DNS-серверМетаданные также генерируются и, возможно, хранятся и анализируются менеджером сервера.

В дополнение к уже упомянутому HTTP-заголовку существует также HTML-заголовок. В то время как первое относится к соединению, второе содержит метаданные, описывающие содержимое документаНиже приведен обзор типичного ответа HTTP-сервера. Вступительные строки соответствуют заголовку HTTP. Далее следует исходный код HTML с элементами заголовка и тела HTML:

Метаданные страницы

Что означают метаданные для интернет-маркетинга и поисковой оптимизации

В этом разделе мы сосредоточимся на метаданных, встроенных в документ HTML . Мы опустим уже упомянутые метаданные HTTP, а также метаданные сервера, такие как файлы журналов. Обычно метаданные HTML встраиваются в раздел заголовка документа HTML.

Многие элементы, используемые в заголовке HTML, напрямую используются для поисковой оптимизации. Боты поисковых систем сканируют содержимое HTML-документа. Читаемая человеком часть, присутствующая в теле HTML, извлекается и индексируется. Кроме того, существуют специальные метаданные, предназначенные исключительно для ботовСреди них необходимо дальнейшее различие между «классическим» и «современным» вариантами.

Метаданные веб-сайта проиллюстрированы классическими элементами заголовка HTML

Классические элементы заголовка HTML включают заголовок и несколько ключевых метатегов . Заголовок также виден пользователю в различных формах. Например, он отображается в закладках или в заголовке вкладки браузера. Остальные классические теги « » используются исключительно для поисковой оптимизации . Ниже мы представляем наиболее важные классические элементы заголовка HTML:

 

Новости в области цифровых технологий

Цифровые технологии развиваются в неумолимой гонке со временем и против самих себя. За несколько десятилетий произошла полная цифровизация всех аспектов жизни : невозможно вести нормальную жизнь, если у вас нет компьютера или смартфона. Банковские счета, пенсии, текущие счета, налоги, школьные взносы, официальные сообщения, участие в открытых тендерах: вы обязательно должны быть знакомы с новыми технологиями.