
متادیتا چیست ؟
متادیتا یکی از مهمترین منابع اطلاعاتی در هنگام جستجوی وب است. این اصطلاح به مجموعهی اطلاعاتی گفته میشود که داخل یک فایل ذخیره شده و ویژگیهای متعددی مثل زمان ایجاد، سازنده، نرمافزار استفاده شده و… را مشخص میکند. میتوان متادیتا را با فهرستنویسی شروع کتابها مقایسه کرد که در آن اطلاعات مختلفی راجع به نویسنده، ناشر و خود کتاب وجود دارد. متادیتا یکی از منابع خام و دستنخوردهی اطلاعات آزاد به شمار میرود. در اسناد آفیس، PDFها، تصاویر، ویدئوها، کتابها، صفحات وب و … همگی نوعی از متادیتا وجود دارد. به طور کلی هر فایل تولیدی در رایانه نوعی از متادیتا را در خود دارد. این اطلاعات نیز به سادگی قابل استخراج هستند. از سوی دیگر با استفاده از نرمافزارهای مخصوص قابل حذف یا تغییر هستند.
پروژهای تحت عنوان Immersion از دانشگاه MIT اطلاعات مربوط به تمام ایمیلهای یک کاربر را دریافت کرده و نقشهای از روابط را در کسری از ثانیه ترسیم میکند. شاید مشاهدهی نمایش این پروژه که از طریق همان سایت در دسترس است، اهمیت این دادهها را مشخص کند.

این پروژه صرفا به فرستنده، تحویل گیرنده و زمان ارسال ایمیل توجه دارد. این پروژه با استفاده از سرویسهایی مثل جیمیل، یاهو و MSExchange و بررسی ایمیلها در مدت زمان معین (مثلا 10 ساله) مشخص میکند که کاربر چند ایمیل دریافت کرده، چند نفر دوست دارد و به پیشبینی نسبت به دوستان و تغییرات در ادامه میپردازد. تمام این کارها را صرفا با اطلاعات زمان، فرستنده و گیرنده انجام میدهد.
دسترسی به متادیتای ایمیل ساده است و حذف کردن آن مشکل. در مورد متادیتای ایمیلها به جز غیرفعال کردن سرویسهای مکانیابی در تلفنهای همراه کار زیادی نمیتوان کرد. اما متادیتای فایلهای پیوست شده مثل اسناد آفیس، پیدیاف و تصاویر که هر یک مجموعهای از اطلاعات را به همراه دارند، ترفندهای پیشگیرانهی زیادی وجود دارد.
اطلاعات قالب فایل تصویری تعویضپذیر(EXIF)
یکی از مهمترین نمونههای متادیتا، اطلاعات مخفی EXIF است. EXIF مخفف (Exchangeable image file format) است. این اطلاعات شامل خصوصیاتی است که برای یک فایل تصویری از سوی دوربینهای دیجیتال، اسکنرها و حتی نرمافزارهای ویرایش عکس ذخیره میشود. به طور کلی هر عکس شامل اطلاعات EXIF است. این خصوصیات در قالبهای مختلف مثل TIFF، JPG، RIFF، WAV و… استفاده میشود. این استانداردها از سوی انجمن توسعهی صنایع الکترونیک ژاپن (JEIDA) ایجاد شد و پس از آن بدون هیچ نظارت یا اعمال حاکمیت دولتی، به صورت گسترده از سوی تولید کنندگان دوربین و نرمافزارها استفاده میشود.
متادیتا یا فراداده هایی که از یک عکس استخراج میشوند شامل موارد زیر هستند:
- اطلاعات تاریخ و زمان. دوربینهای دیجیتال اطلاعات تاریخ و زمان عکسبرداری را ضبط و بعنوان فراداده ذخیره میکنند.
- تنظیمات دوربین. این تنظیمات شامل اطلاعات ثابتی مانند مدل و شرکت سازندهی دوربین و همچنین اطلاعات متغیری که ممکن است در هر تصویر متفاوت باشد مانند چرخش عکس، لنز، زمان نوردهی، فاصله کانونی عدسی، سنجش نور و سرعت فیلم میشود.
- یک Thumbnail (تصویر بندانگشتی) برای پیشنمایش مانند چیزی که در صفحهٔ LCD دوربین دیده میشود. این تصویر کوچک در مدیر فایل یا نرمافزار مدیریت تصاویر بعنوان پیشنمایش عکس استفاده میشود.
- توضیحات یا حقوق کپی مربوط به تصویر
- در صورت وجود GPS در دستگاه دوربین یا موبایل: اطلاعات مکانی عکس گرفته شده (در گوشی های آیفون بطور پیش فرض روشن است ولی در گوشیهای اندروید در صورت روشن بودن Geotag موقعیت مکانی ثبت میشود).

برای حذف یا تغییر متادیتای تصاویر ابزارهای متعددی وجود دارد. یکی از سادهترین راهها، استفاده از فرمت PNG است. این فرمت اطلاعاتی با جزئیات فراوان EXIF ذخیره نمیکند. راه دیگر (در صورتی که از فتوشاپ استفاده میکنید.) ذخیره نکردن متادیتاها در هنگام ذخیرهکردن فایل ادیت شده است. اما اگر امکان استفاده از روشهای ذکر شده برایتان فراهم نیست، ابزارهای آنلاین متعددی برای این منظور وجود دارد. تنها کافیست در گوگل دنبالشان باشید.
متادیتای فایلهای آفیس
فایلهای آفیس هم متادیتای گوناگونی ذخیره میکنند. یکی از سادهترین اطلاعاتی که در یک فایل آفیس (مثلا ورد) ذخیره میشود، اطلاعات افرادی است که در تهیهی آن نقش داشتند. خوشبختانه خود نرمافزار امکان شناسایی و حذف اطلاعات دلخواه را فراهم کرده است. برای حذف این متادیتاها، کافیست در تب info به دنبال گزینهی Inspect document باشید. در نهایت باید پنجرهای مثل تصویر زیر باز شود:

متادیتا در شبکههای اجتماعی
یکی دیگر از انواع متادیتا که در بسیاری از موارد راهگشای بررسیهای مختلف در فضای مجازی است، متادیتای ذخیره شده در شبکههای اجتماعی است. در توییتر این متادیتا شامل زمان ارسال توییت، دستگاه ارسال توییت و در صورت فعال بودن، موقعیت جغرافیایی ارسالکنندهی توییت است.
سایر شبکههای اجتماعی، مثل اینستاگرام نیز معمولا اطلاعات EXIF از تصاویر پاک میکنند. اما اینکه این اطلاعات کامل پاک میشود یا در یک سرور و بدون آگاهی کاربران ذخیره میشد یا نه، موضوع دیگری است. در مورد اینستاگرام، تصاویر بر اساس موقعیت مکانی نیز ذخیره میشود. به این ترتیب شما میتوانید تصاویری که در برج نگار تهران گرفته شده را مشاهده کنید.
اطلاعات خارج از متادیتا
هرچند که متادیتای تصاویر اطلاعات باارزشی در خود دارد، اما تمام اطلاعات در متادیتا ذخیره نمیشود. در بسیاری از موارد اطلاعات باارزشی در ویژگیهای تصویر وجود دارد. مثلا موقعیت مکانی یک تصویر یا فیلم با توجه به پسزمینه و سایر ویژگیهای موجود در تصویر ( و فیلم) قابل استخراج است. به صورت مشابه امکان تخمین زمان هیهی آن نیز وجود دارد. این موارد میتوانند در یک بررسی اوسینتی به شدت مفید واقع شوند.
گاهی از اوقات نیز اطلاعات نه در خود تصویر، بلکه در زیرنویس آن یا سایر پستهای مرتبط با آن قابل شناسایی است. در یک شبکهی اجتماعی که هزاران یا میلیونها نفر فعال هستند، بالاخره کسی وجود دارد که یک تصویر ( یا مشابه یک تصویر) را قبلا دیده باشد. این نوع جستجو (جمع سپاری) در حال حاضر در بسیاری از سازمانها استفاده میشود.