مقالات ترجمه شده

آیا مدل‌های زبانی بزرگ (LLMها) سرانجام در مکان‌یابی جغرافیایی مهارت یافته‌اند؟

 

یک خیابان شهری مبهم، یک مزرعه تازه چمن‌زده شده و یک خودروی زرهی پارک‌شده، از جمله عکس‌های نمونه‌ای بودند که ما برای به چالش کشیدن مدل‌های زبان بزرگ (LLM) از شرکت‌های OpenAI، Google، Anthropic، Mistral و xAI در تعیین موقعیت جغرافیایی انتخاب کردیم.

در ژوئیه ۲۰۲۳، وب‌سایت Bellingcat عملکرد مدل‌های OpenAI و Google را در زمینه تعیین موقعیت جغرافیایی بررسی کرد. هر دو چت‌بات در شناسایی تصاویر مشکل داشتند و به شدت مستعد خطا بودند. با این حال، از آن زمان تاکنون این مدل‌ها به سرعت پیشرفت کرده‌اند.

برای ارزیابی اینکه مدل‌های زبان بزرگ از OpenAI، Google، Anthropic، Mistral و xAI امروزه چگونه با هم مقایسه می‌شوند، ما ۵۰۰ آزمون تعیین موقعیت جغرافیایی انجام دادیم، به طوری که ۲۰ مدل هر کدام همان مجموعه ۲۵ تصویر را تحلیل کردند.

تصویر ۱- ما ۲۵ عکس سفر خودمان را انتخاب کردیم که در میزان دشواری برای تعیین موقعیت جغرافیایی متفاوت بودند و هیچ‌کدام قبلاً به‌صورت آنلاین منتشر نشده بودند

تحلیل ما شامل نسخه‌های قدیمی‌تر و نسخه‌های «پژوهش عمیق» مدل‌ها نیز بود تا ببینیم توانایی‌های تعیین موقعیت جغرافیایی آن‌ها چگونه در طول زمان پیشرفت کرده است. همچنین Google Lens را هم گنجاندیم تا مقایسه کنیم آیا مدل‌های زبان بزرگ واقعاً پیشرفتی نسبت به جستجوی معکوس تصویر سنتی ارائه می‌دهند یا نه. در حالی که ابزارهای جستجوی معکوس تصویر متفاوت از LLMها عمل می‌کنند، اما هنوز یکی از مؤثرترین روش‌ها برای محدود کردن موقعیت یک تصویر هنگام شروع از صفر هستند.

آزمون

ما از ۲۵ عکس سفر خودمان استفاده کردیم تا مجموعه‌ای از مناظر بیرونی، شامل مناطق روستایی و شهری، هم با نشانه‌های قابل تشخیص مثل ساختمان‌ها، کوه‌ها، تابلوها یا جاده‌ها و هم بدون آن‌ها را آزمایش کنیم. این تصاویر از تمام قاره‌ها، از جمله قطب جنوب، جمع‌آوری شده بودند.

اکثر این تصاویر اینجا بازتولید نشده‌اند، چون قصد داریم همچنان از آن‌ها برای ارزیابی مدل‌های جدیدتر در آینده استفاده کنیم. انتشار آن‌ها اینجا می‌توانست یکپارچگی آزمون‌های بعدی را به خطر بیندازد.

به هر مدل زبان بزرگ، یک عکس داده شد که قبلاً آنلاین منتشر نشده بود و هیچ داده متادیتایی نداشت. سپس همه مدل‌ها همان پرسش «این عکس کجا گرفته شده؟» را همراه با تصویر دریافت کردند. اگر مدلی درخواست اطلاعات بیشتری می‌کرد، پاسخ یکسان بود: «هیچ اطلاعات دیگری وجود ندارد. فقط از همین عکس استفاده کن.»

مدل‌های زیر را آزمودیم:

توسعهدهنده

مدل

توضیح توسعهدهنده

Anthropic

Claude Haiku 3.5

سریع‌ترین مدل برای کارهای روزمره

Claude Sonnet 3.7

هوشمندترین مدل ما تا به امروز

Claude Sonnet 3.7 (حالت تفکر پیشرفته)

قابلیت استدلال تقویت‌شده برای وظایف پیچیده

Claude Sonnet 4.0

مدلی هوشمند و کارآمد برای استفاده روزانه

Claude Opus 4.0

مدل قدرتمند و بزرگ برای چالش‌های پیچیده

Google

Gemini 2.0 Flash

مناسب برای وظایف روزمره با ویژگی‌های بیشتر

Gemini 2.5 Flash

دارای قابلیت استدلال پیشرفته

Gemini 2.5 Pro

بهترین مدل برای وظایف پیچیده

Gemini Deep Research

ارائه پاسخ‌های عمیق و تحلیلی

Mistral

Pixtral Large

درک تصویری در سطح پیشرفته

OpenAI

ChatGPT 4o

مناسب برای بیشتر وظایف

ChatGPT Deep Research

طراحی‌شده برای پژوهش‌های چندمرحله‌ای و عمیق با استفاده از داده‌های وب عمومی

ChatGPT 4.5

مناسب برای نگارش و ایده‌پردازی

ChatGPT o3

بهره‌مند از استدلال پیشرفته

ChatGPT o4-mini

سریع‌ترین در استدلال پیشرفته

ChatGPT o4-mini-high

عالی در برنامه‌نویسی و استدلال تصویری

xAI

Grok 3

باهوش‌ترین مدل

Grok 3 DeepSearch

جست‌وجو و استدلال پیشرفته

Grok 3 DeeperSearch

جست‌وجوی گسترده‌تر و استدلال بیشتر

 

این بررسی جامع همه مدل‌های موجود نبود، علتش هم به دلیل سرعت بالای انتشار مدل‌ها و نسخه‌های جدید بود. برای مثال، ما مدل DeepSeek را ارزیابی نکردیم چون در حال حاضر فقط متن را از تصاویر استخراج می‌کند. همچنین توجه داشته باشید که درChatGPT ، فارغ از اینکه کدام مدل را انتخاب کنید، قابلیت «پژوهش عمیق» در حال حاضر توسط نسخه‌ای از o4-mini پشتیبانی می‌شود.

مدل‌های Gemini در قالب‌های «پیش‌نمایش» و «آزمایشی» منتشر شده‌اند، همچنین نسخه‌های تاریخی مانند «03-25» و «05-06» وجود دارند. برای مدیریت بهتر مقایسه‌ها، این نسخه‌های مختلف را زیر مدل‌های پایه مربوطه‌شان دسته‌بندی کردیم، مثلاً Gemini 2.5 Pro»».

ما همچنین هر آزمایش را با ۱۰ نتیجه اول ویژگی «مطابقت بصری» Google Lens مقایسه کردیم تا درجه سختی تست‌ها و مفید بودن LLMها در حل آن‌ها را بسنجیم.

تمام پاسخ‌ها را روی مقیاسی از ۰ تا ۱۰ رتبه‌بندی کردیم، که ۱۰ نشان‌دهنده تشخیص دقیق و مشخص، مانند یک محله، مسیر یا نقطه دیدنی بود و ۰ نشان‌دهنده عدم تلاش برای شناسایی محل عکس بود.

و اما برنده کیست…

ChatGPT برنده‌ی رقابت با Google Lens شد.

در آزمایش‌های ما، مدل‌های ChatGPT o3، o4-mini و o4-mini-high تنها مدل‌هایی بودند که در شناسایی موقعیت صحیح عکس، از Google Lens بهتر عمل کردند، هرچند این برتری زیاد چشمگیر نبود. سایر مدل‌ها در زمینه مکان‌یابی عکس‌های آزمایشی ما عملکرد ضعیف‌تری داشتند.

تصویر ۲- ما ۲۰ مدل را در برابر ۲۵ عکس امتیازدهی کردیم و هر کدام را از ۰ (قرمز) تا ۱۰ (سبز تیره) بر اساس دقت در مکان‌یابی تصاویر نمره دادیم

حتی مدل LLM خود گوگل، یعنی Gemini، عملکردی بدتر از Google Lens داشت. جالب اینکه، امتیاز آن حتی پایین‌تر از Grok از شرکت xAI بود، با اینکه Grok به دلیل تمایل شناخته‌شده‌اش به توهم‌زایی معروف است. حالت Deep Research مدل Gemini تقریباً امتیازی مشابه سه مدل Grok که آزمایش کردیم داشت، و مدل DeeperSearch اثربخش‌ترین مدل LLM از xAI بود.

مدل‌های با بالاترین امتیاز از Anthropic و Mistral به طور قابل توجهی عقب‌تر از رقبای کنونی‌شان از OpenAI، گوگل و xAI قرار داشتند. در چند مورد، حتی پیشرفته‌ترین مدل‌های Claude تنها توانستند قاره را تشخیص دهند، در حالی که مدل‌های دیگر توانستند پاسخ‌های خود را به بخش‌های خاصی از یک شهر محدود کنند. جدیدترین مدل Claude، یعنی Opus 4، عملکردی در سطح مشابه با Gemini 2.5 Pro داشت.

در ادامه، چند نکته برجسته از پنج تست ما آورده شده است.

جاده‌ای در کوه‌های ژاپن

 

عکس زیر در جاده‌ای بین تاکایاما و شیرکاوا در ژاپن گرفته شده است. علاوه بر جاده و کوه‌ها، تابلوها و ساختمان‌هایی نیز در تصویر دیده می‌شوند.

تصویر ۳- آزمون «بزرگراه برفی» تصویری از جاده‌ای نزدیک تاکایاما در ژاپن بود

پاسخ Gemini 2.5 Pro چندان مفید نبود. این مدل ژاپن را ذکر کرد، اما همچنین اروپا، آمریکای شمالی و جنوبی و آسیا را هم نام برد. پاسخ آن چنین بود:

«بدون وجود نشانه‌های واضح و قابل شناسایی، تابلوهای متمایز به زبان قابل فهم، یا سبک‌های معماری منحصربه‌فرد، تعیین دقیق کشور یا محل خاص بسیار دشوار است.»

در مقابل، مدل o3 هم سبک معماری و هم تابلوها را شناسایی کرد و پاسخ داد:

«حدس بهتر: یک بخش کوهستانی برفی در مرکز هونشو، ژاپن — جایی در حوالی ناگانو/تویاما. (خانه‌های به سبک ژاپنی، کانجی روی بیلبورد و موانع معمول بزرگراه این مکان را مشخص می‌کنند.)»

مزرعه‌ای در فلات سوئیس

این عکس در نزدیکی زوریخ گرفته شده است. جز کوه‌های دوردست، هیچ ویژگی قابل شناسایی مشخصی در تصویر دیده نمی‌شد. جستجوی معکوس تصویر با Google Lens نیز بلافاصله به زوریخ منتهی نشد. بدون هیچ زمینه یا اطلاعات اضافی، شناسایی دستی مکان این عکس می‌تواند زمان‌بر باشد.

 

پس عملکرد مدل‌های زبان بزرگ (LLMها) چگونه بود؟

تصویر ۴-آزمون «دشت-تپه ­ها»  نمایی از یک مزرعه در نزدیکی زوریخ را نشان می‌داد

مدل Gemini 2.5 Pro اظهار داشت که این منظره در بسیاری از نقاط جهان رایج است و بدون زمینه یا اطلاعات اضافی نمی‌تواند مکان دقیق را مشخص کند.

در مقابل، ChatGPT در این آزمون عملکرد بسیار خوبی داشت. مدل o4-mini «دامنه‌های یورا در شمال سوئیس» را شناسایی کرد، در حالی که مدل o4-mini-high این صحنه را «بین زوریخ و کوه‌های یورا» قرار داد.

این پاسخ‌ها در تضاد آشکار با پاسخ مدل Grok Deep Research بودند؛ مدلی که با وجود کوه‌های قابل مشاهده در تصویر، با اطمینان اعلام کرد که عکس در هلند گرفته شده است. به نظر می‌رسد این نتیجه‌گیری بر اساس نام هلندی حساب کاربری Foeke Postma) ) انجام شده باشد، با این فرض که چون نام کاربری هلندی است، عکس نیز باید در آن کشور گرفته شده باشد، و این نتیجه را «استنباطی معقول و مستند» توصیف کرد.

کوچه‌ای درون‌شهری پر از سرنخ‌های بصری در سنگاپور

 

این عکس از یک کوچه باریک در خیابان Circular سنگاپور، طیف گسترده‌ای از پاسخ‌ها را از سوی مدل‌های زبانی بزرگ (LLMها) و Google Lens برانگیخت. امتیاز پاسخ‌ها از ۳ (کشور مجاور) تا ۱۰ (مکان دقیق) متغیر بود.

تصویر ۵- آزمون «کوچه تاریک» – عکسی از یک کوچه در سنگاپور

 

این آزمون نمونه خوبی از این بود که چگونه مدل‌های زبانی می‌توانند با تمرکز روی جزئیات کوچک در تصویر، بهتر از Google Lens عمل کرده و مکان دقیق را شناسایی کنند. آن دسته از مدل‌هایی که پاسخ درستی دادند، به نوشته روی صندوق پستی در سمت چپ تصویر (در پیش‌زمینه) اشاره کردند، که آدرس دقیق را نشان می‌داد.

در حالی که Google Lens نتایجی از سراسر سنگاپور و مالزی ارائه داد، بخشی از پاسخ ChatGPT o4-mini این‌گونه بود:

«این به نظر می‌رسد که یک راهروی شاپ‌خانه سنتی در سنگاپور باشد — در واقع، اگر به صندوق‌های پستی سمت چپ نگاه کنید، می‌توانید برچسب ‘[آدرس صحیح]’ را ببینید.»

برخی دیگر از مدل‌ها متوجه صندوق پستی شدند اما نتوانستند آدرسی را که در تصویر دیده می‌شد بخوانند و به‌اشتباه نتیجه‌گیری کردند که تصویر متعلق به مکان‌های دیگری است. مدل Gemini 2.5 Flash پاسخ داد:

«طراحی صندوق‌های پستی در سمت چپ، به‌ویژه حرف G برای Geylang، به‌وضوح به سنگاپور اشاره دارد.»

اما مدل دیگر گوگل، یعنی Gemini 2.5 Pro، صندوق پستی را دید ولی به‌جای آن بر نوشته‌ای روی مغازه تمرکز کرد که آن را به‌اشتباه به‌عنوان خط تایلندی تفسیر کرد و با اطمینان پاسخ داد:

«شواهد تصویری به‌وضوح نشان می‌دهند که این عکس در یک کوچه در تایلند، احتمالاً در بانکوک گرفته شده است.»

ساحل کاستاریکا

یکی از آزمون‌های سخت‌تری که برای تعیین موقعیت جغرافیایی به مدل‌ها دادیم، عکسی بود که از پلیا لانگوستا در ساحل اقیانوس آرام کاستاریکا، در نزدیکی تاماریندو گرفته شده بود.

تصویر ۶- آزمون «ساحل-جنگل» تصویری از Playa Longosta در کاستاریکا را نشان می‌داد

مدل‌های Gemini و Claude در این آزمون بدترین عملکرد را داشتند. بیشتر مدل‌ها یا از پاسخ دادن خودداری کردند یا پاسخ‌های نادرست دادند. مدل Claude 3.7 Sonnet به درستی کشور کاستاریکا را تشخیص داد، اما در کنارش به مکان‌های دیگری مانند آسیای جنوب‌شرقی نیز اشاره کرد تا ریسک را کاهش دهد.

در میان مدل‌ها، تنها Grok بود که مکان دقیق را درست حدس زد. چندین مدل از ChatGPT  از جمله Deep Research، o3 و o4-mini‌ها نیز توانستند موقعیت عکس را با دقتی در حدود ۱۶۰ کیلومتری ساحل تشخیص دهند.

یک خودروی زرهی در خیابان‌های بیروت

این عکس در خیابان‌های بیروت گرفته شده است و چندین جزئیات مفید برای تعیین موقعیت جغرافیایی دارد، از جمله نشان مخصوص روی بدنه‌ی نفربر زرهی و پرچم لبنان که به‌طور ناقص در پس‌زمینه دیده می‌شود.

تصویر ۷- آزمون «خیابان-نظامی» تصویری از یک نفربر زرهی در خیابان‌های بیروت را نشان می‌داد

به‌طور شگفت‌انگیزی، بیشتر مدل‌ها در این آزمون دچار مشکل شدند. مدل Claude 4 Opus که به‌عنوان یک «مدل قدرتمند و بزرگ برای چالش‌های پیچیده» معرفی شده، مکان تصویر را «جایی در اروپا» حدس زد، به دلیل «مبلمان شهری و طراحی ساختمان‌ها با سبک اروپایی».

مدل‌های Gemini و Grok نیز تنها توانستند موقعیت را تا سطح کشور لبنان محدود کنند.

نیمی از مدل‌های ChatGPT پاسخ درست داده و مستقیماً به بیروت اشاره کردند. تنها دو مدل – که هر دو از سری ChatGPT بودند – به پرچم لبنان در تصویر اشاره کردند.

آیا مدل‌های زبانی بزرگ (LLMها) بالاخره در تعیین موقعیت جغرافیایی (ژئولکیشن) مهارت یافته‌اند؟

مدل‌های زبانی بزرگ بدون شک می‌توانند به پژوهشگران در شناسایی جزئیاتی کمک کنند که یا Google Lens یا حتی خود انسان ممکن است از آن‌ها غافل شوند.

یکی از مزایای برجسته LLMها توانایی آن‌ها در جست‌وجو و تحلیل در زبان‌های مختلف است. همچنین، این مدل‌ها به‌خوبی می‌توانند از سرنخ‌های ظریف مانند پوشش گیاهی، سبک معماری یا تابلوهای نوشتاری استفاده کنند. در یکی از آزمایش‌ها، مدلی توانست مکان دقیق عکس مردی با جلیقه نجات در برابر کوهستان را تعیین کند، زیرا بخشی از نام شرکت روی جلیقه را تشخیص داد و آن را به یک اپراتور محلی تور قایق‌سواری مرتبط کرد.

 

در مناطق توریستی و مناظر طبیعی، Google Lens همچنان از بیشتر مدل‌ها عملکرد بهتری داشت. برای مثال، در مواجهه با عکسی از دریاچه‌ی Schluchsee در جنگل سیاه آلمان، Google Lens آن را به‌عنوان اولین نتیجه نمایش داد، در حالی‌که تنها مدل ChatGPT توانست نام دقیق دریاچه را تشخیص دهد.

در مقابل، در محیط‌های شهری، LLMها در تطبیق و تحلیل جزئیات ظریف عملکرد درخشانی داشتند؛ در حالی که Google Lens بیشتر روی سازه‌های بزرگ و مشابه تمرکز می‌کرد – مانند ساختمان‌ها یا چرخ‌وفلک‌ها – که در بسیاری مکان‌های مختلف یافت می‌شوند.

جمع­ بندی

در این تحقیق، مدل‌های زبانی بزرگ (LLM) از شرکت‌های OpenAI، Google، Anthropic، Mistral و xAI در زمینه تشخیص مکان جغرافیایی تصاویر مورد آزمایش قرار گرفتند. ۲۵ عکس با درجه سختی متفاوت و بدون اطلاعات جانبی (metadata)  انتخاب شد که قبلاً در اینترنت منتشر نشده بودند.

نتایج نشان داد که برخی مدل‌های ChatGPT  (نسخه‌های o3 و o4-mini) بهتر از Google Lens عمل کردند و توانستند مکان‌ها را دقیق‌تر شناسایی کنند. سایر مدل‌ها، از جمله مدل‌های گوگل (Gemini)  و Anthropic (Claude)، در مقایسه ضعیف‌تر بودند و حتی گاهی به اشتباه می‌افتادند.

برخی عکس‌ها مانند یک کوچه در سنگاپور یا مناظر طبیعی در سوئیس توسط مدل‌های ChatGPT به‌خوبی مکان‌یابی شدند، در حالی که عکس‌های پیچیده‌تر مانند ساحل کاستاریکا یا خیابان‌های بیروت برای همه مدل‌ها چالش‌برانگیز بود.

یکی از مزیت‌های LLMها نسبت به Google Lens، توانایی آن‌ها در استفاده از جزئیات کوچک و متن‌های چند زبانه برای تشخیص بهتر مکان است. اما در مواردی، مدل‌ها دچار «توهم» شدند و مکان‌های اشتباهی را پیشنهاد کردند، مخصوصاً وقتی تصویر شامل تغییرات موقتی بود.

در نهایت، مدل‌های زبان بزرگ هنوز کاملاً به مهارت کامل در مکان‌یابی نرسیده‌اند، اما به سرعت در حال پیشرفت‌اند و در آینده نقش مهم‌تری در تحقیقات منبع باز خواهند داشت.

[1] https://www.bellingcat.com/resources/how-tos/2025/06/06/have-llms-finally-mastered-geolocation/

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا