آموزش

متادیتا

با متادیتا بیشتر آشنا شویم

متادیتا چیست ؟

متادیتا یکی از مهم‌ترین منابع اطلاعاتی در هنگام جستجوی وب است. این اصطلاح به مجموعه‌ی اطلاعاتی گفته می‌شود که داخل یک فایل ذخیره شده و ویژگی‌های متعددی مثل زمان ایجاد، سازنده، نرم‌افزار استفاده شده و… را مشخص می‌کند. می‌توان متادیتا‌ را با فهرست‌نویسی شروع کتاب‌ها مقایسه کرد که در آن اطلاعات مختلفی راجع به نویسنده، ناشر و خود کتاب وجود دارد. متادیتا یکی از منابع خام و دست‌نخورده‌ی اطلاعات آزاد به شمار می‌رود. در اسناد آفیس، PDFها، تصاویر، ویدئو‌ها، کتاب‌ها، صفحات وب و … همگی نوعی از متادیتا وجود دارد. به طور کلی هر فایل تولیدی در رایانه نوعی از متادیتا را در خود دارد. این اطلاعات نیز به سادگی قابل استخراج هستند. از سوی دیگر با استفاده از نرم‌افزارهای مخصوص قابل حذف یا تغییر هستند.

پروژه‌ای تحت عنوان Immersion از دانشگاه MIT اطلاعات مربوط به تمام ایمیل‌های یک کاربر را دریافت کرده و نقشه‌ای از روابط را در کسری از ثانیه ترسیم می‌کند. شاید مشاهده‌ی نمایش این پروژه که از طریق همان سایت در دسترس است، اهمیت این داده‌ها را مشخص کند.

نمونه‌ای از پروژه‌ی immersion
نمونه‌ای از پروژه‌ی immersion

این پروژه صرفا به فرستنده، تحویل گیرنده و زمان ارسال ایمیل توجه دارد. این پروژه با استفاده از سرویس‌هایی مثل جیمیل، یاهو و MSExchange و بررسی ایمیل‌ها در مدت زمان معین (مثلا ۱۰ ساله) مشخص می‌کند که کاربر چند ایمیل دریافت کرده، چند نفر دوست دارد و به پیش‌بینی نسبت به دوستان و تغییرات در ادامه می‌پردازد. تمام این کارها را صرفا با اطلاعات زمان، فرستنده و گیرنده انجام می‌دهد.

دسترسی به متادیتای ایمیل ساده است و حذف کردن آن مشکل. در مورد متادیتای ایمیل‌ها به جز غیرفعال کردن سرویس‌های مکان‌یابی در تلفن‌های همراه کار زیادی نمی‌توان کرد. اما متادیتای فایل‌های پیوست شده مثل اسناد آفیس، پی‌دی‌اف و تصاویر که هر یک مجموعه‌ای از اطلاعات را به همراه دارند، ترفندهای پیشگیرانه‌ی زیادی وجود دارد.

اطلاعات قالب فایل تصویری تعویض‌پذیر(EXIF)

یکی از مهم‌ترین نمونه‌های متادیتا، اطلاعات مخفی EXIF است. EXIF مخفف (Exchangeable image file format) است. این اطلاعات شامل خصوصیاتی است که برای یک فایل تصویری از سوی دوربین‌های دیجیتال، اسکنرها و حتی نرم‌افزارهای ویرایش عکس ذخیره می‌شود. به طور کلی هر عکس شامل اطلاعات EXIF است. این خصوصیات در قالب‌های مختلف مثل TIFF، JPG، RIFF، WAV و… استفاده می‌شود. این استانداردها از سوی انجمن توسعه‌ی صنایع الکترونیک ژاپن (JEIDA) ایجاد شد و پس از آن بدون هیچ نظارت یا اعمال حاکمیت دولتی، به صورت گسترده از سوی تولید کنندگان دوربین و نرم‌افزارها استفاده می‌شود.

متادیتا یا فراداده هایی که از یک عکس استخراج می‌شوند شامل موارد زیر هستند:

  • اطلاعات تاریخ و زمان. دوربین‌های دیجیتال اطلاعات تاریخ و زمان عکسبرداری را ضبط و بعنوان فراداده ذخیره می‌کنند.
  • تنظیمات دوربین. این تنظیمات شامل اطلاعات ثابتی مانند مدل و شرکت سازنده‌ی دوربین و همچنین اطلاعات متغیری که ممکن است در هر تصویر متفاوت باشد مانند چرخش عکس، لنز، زمان نوردهی، فاصله کانونی عدسی، سنجش نور و سرعت فیلم می‌شود.
  • یک Thumbnail (تصویر بندانگشتی) برای پیش‌نمایش مانند چیزی که در صفحهٔ LCD دوربین دیده می‌شود. این تصویر کوچک در مدیر فایل یا نرم‌افزار مدیریت تصاویر بعنوان پیش‌نمایش عکس استفاده می‌شود.
  • توضیحات یا حقوق کپی مربوط به تصویر
  • در صورت وجود GPS در دستگاه دوربین یا موبایل: اطلاعات مکانی عکس گرفته شده (در گوشی های آیفون بطور پیش فرض روشن است ولی در گوشی‌های اندروید در صورت روشن بودن Geotag موقعیت مکانی ثبت می‌شود).
نمونه‌ی GeoTag در اطلاعات Exif
نمونه‌ی GeoTag در اطلاعات Exif

برای حذف یا تغییر متادیتا‌ی تصاویر ابزارهای متعددی وجود دارد. یکی از ساده‌ترین راه‌ها، استفاده از فرمت PNG است. این فرمت اطلاعاتی با جزئیات فراوان EXIF ذخیره نمی‌کند. راه دیگر (در صورتی که از فتوشاپ استفاده می‌کنید.) ذخیره نکردن متادیتا‌ها در هنگام ذخیره‌کردن فایل ادیت شده است. اما اگر امکان استفاده از روش‌های ذکر شده برایتان فراهم نیست، ابزارهای آنلاین متعددی برای این منظور وجود دارد. تنها کافیست در گوگل دنبالشان باشید.

متادیتای فایل‌های آفیس

فایل‌های آفیس هم متادیتای گوناگونی ذخیره می‌کنند. یکی از ساده‌ترین اطلاعاتی که در یک فایل آفیس (مثلا ورد) ذخیره می‌شود، اطلاعات افرادی است که در تهیه‌ی آن نقش داشتند. خوش‌بختانه خود نرم‌افزار امکان شناسایی و حذف اطلاعات دلخواه را فراهم کرده است. برای حذف این متادیتا‌ها، کافیست در تب info به دنبال گزینه‌ی Inspect document باشید. در نهایت باید پنجره‌ای مثل تصویر زیر باز شود:

پنجره‌ی بررسی متادیتا در آفیس
بررسی متادیتا در آفیس

متادیتا در شبکه‌های اجتماعی 

یکی دیگر از انواع متادیتا که در بسیاری از موارد راه‌گشای بررسی‌های مختلف در فضای مجازی است، متادیتای ذخیره شده در شبکه‌های اجتماعی است. در توییتر این متادیتا شامل زمان ارسال توییت، دستگاه ارسال توییت و در صورت فعال بودن، موقعیت جغرافیایی ارسال‌کننده‌ی توییت است.

سایر شبکه‌های اجتماعی، مثل اینستاگرام نیز معمولا اطلاعات EXIF از تصاویر پاک می‌کنند. اما اینکه این اطلاعات کامل پاک می‌شود یا در یک سرور و بدون آگاهی کاربران ذخیره می‌شد یا نه، موضوع دیگری است. در مورد اینستاگرام، تصاویر بر اساس موقعیت مکانی نیز ذخیره می‌شود. به این ترتیب شما می‌توانید تصاویری که در برج نگار تهران گرفته شده را مشاهده کنید. 

اطلاعات خارج از متادیتا

هرچند که متادیتای تصاویر اطلاعات باارزشی در خود دارد، اما تمام اطلاعات در متادیتا ذخیره نمی‌شود. در بسیاری از موارد اطلاعات باارزشی در ویژگی‌های تصویر وجود دارد. مثلا موقعیت مکانی یک تصویر یا فیلم با توجه به پس‌زمینه و سایر ویژگی‌های موجود در تصویر ( و فیلم) قابل استخراج است. به صورت مشابه امکان تخمین زمان هیه‌ی آن نیز وجود دارد. این موارد می‌توانند در یک بررسی اوسینتی به شدت مفید واقع شوند.

گاهی از اوقات نیز اطلاعات نه در خود تصویر، بلکه در زیر‌نویس آن یا سایر پست‌های مرتبط با آن قابل شناسایی است. در یک شبکه‌ی اجتماعی که هزاران یا میلیون‌ها نفر فعال هستند، بالاخره کسی وجود دارد که یک تصویر ( یا مشابه یک تصویر) را قبلا دیده باشد. این نوع جستجو (جمع سپاری) در حال حاضر در بسیاری از سازمان‌ها استفاده می‌شود.

برچسب ها

brightness intrested

زندگی من در 3 کلمه: مطالعه، گشتن و فکر کردن...! و اوسینت به طرز عجیبی هر سه تای این‌ها رو یه جا جمع می کنه. پس فعلا اوسینت کارم!

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *