آیا مدلهای زبانی بزرگ (LLMها) سرانجام در مکانیابی جغرافیایی مهارت یافتهاند؟

یک خیابان شهری مبهم، یک مزرعه تازه چمنزده شده و یک خودروی زرهی پارکشده، از جمله عکسهای نمونهای بودند که ما برای به چالش کشیدن مدلهای زبان بزرگ (LLM) از شرکتهای OpenAI، Google، Anthropic، Mistral و xAI در تعیین موقعیت جغرافیایی انتخاب کردیم.
در ژوئیه ۲۰۲۳، وبسایت Bellingcat عملکرد مدلهای OpenAI و Google را در زمینه تعیین موقعیت جغرافیایی بررسی کرد. هر دو چتبات در شناسایی تصاویر مشکل داشتند و به شدت مستعد خطا بودند. با این حال، از آن زمان تاکنون این مدلها به سرعت پیشرفت کردهاند.
برای ارزیابی اینکه مدلهای زبان بزرگ از OpenAI، Google، Anthropic، Mistral و xAI امروزه چگونه با هم مقایسه میشوند، ما ۵۰۰ آزمون تعیین موقعیت جغرافیایی انجام دادیم، به طوری که ۲۰ مدل هر کدام همان مجموعه ۲۵ تصویر را تحلیل کردند.

تحلیل ما شامل نسخههای قدیمیتر و نسخههای «پژوهش عمیق» مدلها نیز بود تا ببینیم تواناییهای تعیین موقعیت جغرافیایی آنها چگونه در طول زمان پیشرفت کرده است. همچنین Google Lens را هم گنجاندیم تا مقایسه کنیم آیا مدلهای زبان بزرگ واقعاً پیشرفتی نسبت به جستجوی معکوس تصویر سنتی ارائه میدهند یا نه. در حالی که ابزارهای جستجوی معکوس تصویر متفاوت از LLMها عمل میکنند، اما هنوز یکی از مؤثرترین روشها برای محدود کردن موقعیت یک تصویر هنگام شروع از صفر هستند.
آزمون
ما از ۲۵ عکس سفر خودمان استفاده کردیم تا مجموعهای از مناظر بیرونی، شامل مناطق روستایی و شهری، هم با نشانههای قابل تشخیص مثل ساختمانها، کوهها، تابلوها یا جادهها و هم بدون آنها را آزمایش کنیم. این تصاویر از تمام قارهها، از جمله قطب جنوب، جمعآوری شده بودند.
اکثر این تصاویر اینجا بازتولید نشدهاند، چون قصد داریم همچنان از آنها برای ارزیابی مدلهای جدیدتر در آینده استفاده کنیم. انتشار آنها اینجا میتوانست یکپارچگی آزمونهای بعدی را به خطر بیندازد.
به هر مدل زبان بزرگ، یک عکس داده شد که قبلاً آنلاین منتشر نشده بود و هیچ داده متادیتایی نداشت. سپس همه مدلها همان پرسش «این عکس کجا گرفته شده؟» را همراه با تصویر دریافت کردند. اگر مدلی درخواست اطلاعات بیشتری میکرد، پاسخ یکسان بود: «هیچ اطلاعات دیگری وجود ندارد. فقط از همین عکس استفاده کن.»
مدلهای زیر را آزمودیم:
|
توسعهدهنده |
مدل |
توضیح توسعهدهنده |
|
Anthropic |
Claude Haiku 3.5 |
سریعترین مدل برای کارهای روزمره |
|
Claude Sonnet 3.7 |
هوشمندترین مدل ما تا به امروز |
|
|
Claude Sonnet 3.7 (حالت تفکر پیشرفته) |
قابلیت استدلال تقویتشده برای وظایف پیچیده |
|
|
Claude Sonnet 4.0 |
مدلی هوشمند و کارآمد برای استفاده روزانه |
|
|
Claude Opus 4.0 |
مدل قدرتمند و بزرگ برای چالشهای پیچیده |
|
|
|
Gemini 2.0 Flash |
مناسب برای وظایف روزمره با ویژگیهای بیشتر |
|
Gemini 2.5 Flash |
دارای قابلیت استدلال پیشرفته |
|
|
Gemini 2.5 Pro |
بهترین مدل برای وظایف پیچیده |
|
|
Gemini Deep Research |
ارائه پاسخهای عمیق و تحلیلی |
|
|
Mistral |
Pixtral Large |
درک تصویری در سطح پیشرفته |
|
OpenAI |
ChatGPT 4o |
مناسب برای بیشتر وظایف |
|
ChatGPT Deep Research |
طراحیشده برای پژوهشهای چندمرحلهای و عمیق با استفاده از دادههای وب عمومی |
|
|
ChatGPT 4.5 |
مناسب برای نگارش و ایدهپردازی |
|
|
ChatGPT o3 |
بهرهمند از استدلال پیشرفته |
|
|
ChatGPT o4-mini |
سریعترین در استدلال پیشرفته |
|
|
ChatGPT o4-mini-high |
عالی در برنامهنویسی و استدلال تصویری |
|
|
xAI |
Grok 3 |
باهوشترین مدل |
|
Grok 3 DeepSearch |
جستوجو و استدلال پیشرفته |
|
|
Grok 3 DeeperSearch |
جستوجوی گستردهتر و استدلال بیشتر |
این بررسی جامع همه مدلهای موجود نبود، علتش هم به دلیل سرعت بالای انتشار مدلها و نسخههای جدید بود. برای مثال، ما مدل DeepSeek را ارزیابی نکردیم چون در حال حاضر فقط متن را از تصاویر استخراج میکند. همچنین توجه داشته باشید که درChatGPT ، فارغ از اینکه کدام مدل را انتخاب کنید، قابلیت «پژوهش عمیق» در حال حاضر توسط نسخهای از o4-mini پشتیبانی میشود.
مدلهای Gemini در قالبهای «پیشنمایش» و «آزمایشی» منتشر شدهاند، همچنین نسخههای تاریخی مانند «03-25» و «05-06» وجود دارند. برای مدیریت بهتر مقایسهها، این نسخههای مختلف را زیر مدلهای پایه مربوطهشان دستهبندی کردیم، مثلاً Gemini 2.5 Pro»».
ما همچنین هر آزمایش را با ۱۰ نتیجه اول ویژگی «مطابقت بصری» Google Lens مقایسه کردیم تا درجه سختی تستها و مفید بودن LLMها در حل آنها را بسنجیم.
تمام پاسخها را روی مقیاسی از ۰ تا ۱۰ رتبهبندی کردیم، که ۱۰ نشاندهنده تشخیص دقیق و مشخص، مانند یک محله، مسیر یا نقطه دیدنی بود و ۰ نشاندهنده عدم تلاش برای شناسایی محل عکس بود.
و اما برنده کیست…
ChatGPT برندهی رقابت با Google Lens شد.
در آزمایشهای ما، مدلهای ChatGPT o3، o4-mini و o4-mini-high تنها مدلهایی بودند که در شناسایی موقعیت صحیح عکس، از Google Lens بهتر عمل کردند، هرچند این برتری زیاد چشمگیر نبود. سایر مدلها در زمینه مکانیابی عکسهای آزمایشی ما عملکرد ضعیفتری داشتند.

حتی مدل LLM خود گوگل، یعنی Gemini، عملکردی بدتر از Google Lens داشت. جالب اینکه، امتیاز آن حتی پایینتر از Grok از شرکت xAI بود، با اینکه Grok به دلیل تمایل شناختهشدهاش به توهمزایی معروف است. حالت Deep Research مدل Gemini تقریباً امتیازی مشابه سه مدل Grok که آزمایش کردیم داشت، و مدل DeeperSearch اثربخشترین مدل LLM از xAI بود.
مدلهای با بالاترین امتیاز از Anthropic و Mistral به طور قابل توجهی عقبتر از رقبای کنونیشان از OpenAI، گوگل و xAI قرار داشتند. در چند مورد، حتی پیشرفتهترین مدلهای Claude تنها توانستند قاره را تشخیص دهند، در حالی که مدلهای دیگر توانستند پاسخهای خود را به بخشهای خاصی از یک شهر محدود کنند. جدیدترین مدل Claude، یعنی Opus 4، عملکردی در سطح مشابه با Gemini 2.5 Pro داشت.
در ادامه، چند نکته برجسته از پنج تست ما آورده شده است.
جادهای در کوههای ژاپن
عکس زیر در جادهای بین تاکایاما و شیرکاوا در ژاپن گرفته شده است. علاوه بر جاده و کوهها، تابلوها و ساختمانهایی نیز در تصویر دیده میشوند.

پاسخ Gemini 2.5 Pro چندان مفید نبود. این مدل ژاپن را ذکر کرد، اما همچنین اروپا، آمریکای شمالی و جنوبی و آسیا را هم نام برد. پاسخ آن چنین بود:
«بدون وجود نشانههای واضح و قابل شناسایی، تابلوهای متمایز به زبان قابل فهم، یا سبکهای معماری منحصربهفرد، تعیین دقیق کشور یا محل خاص بسیار دشوار است.»
در مقابل، مدل o3 هم سبک معماری و هم تابلوها را شناسایی کرد و پاسخ داد:
«حدس بهتر: یک بخش کوهستانی برفی در مرکز هونشو، ژاپن — جایی در حوالی ناگانو/تویاما. (خانههای به سبک ژاپنی، کانجی روی بیلبورد و موانع معمول بزرگراه این مکان را مشخص میکنند.)»
مزرعهای در فلات سوئیس
این عکس در نزدیکی زوریخ گرفته شده است. جز کوههای دوردست، هیچ ویژگی قابل شناسایی مشخصی در تصویر دیده نمیشد. جستجوی معکوس تصویر با Google Lens نیز بلافاصله به زوریخ منتهی نشد. بدون هیچ زمینه یا اطلاعات اضافی، شناسایی دستی مکان این عکس میتواند زمانبر باشد.
پس عملکرد مدلهای زبان بزرگ (LLMها) چگونه بود؟

مدل Gemini 2.5 Pro اظهار داشت که این منظره در بسیاری از نقاط جهان رایج است و بدون زمینه یا اطلاعات اضافی نمیتواند مکان دقیق را مشخص کند.
در مقابل، ChatGPT در این آزمون عملکرد بسیار خوبی داشت. مدل o4-mini «دامنههای یورا در شمال سوئیس» را شناسایی کرد، در حالی که مدل o4-mini-high این صحنه را «بین زوریخ و کوههای یورا» قرار داد.
این پاسخها در تضاد آشکار با پاسخ مدل Grok Deep Research بودند؛ مدلی که با وجود کوههای قابل مشاهده در تصویر، با اطمینان اعلام کرد که عکس در هلند گرفته شده است. به نظر میرسد این نتیجهگیری بر اساس نام هلندی حساب کاربری Foeke Postma) ) انجام شده باشد، با این فرض که چون نام کاربری هلندی است، عکس نیز باید در آن کشور گرفته شده باشد، و این نتیجه را «استنباطی معقول و مستند» توصیف کرد.
کوچهای درونشهری پر از سرنخهای بصری در سنگاپور
این عکس از یک کوچه باریک در خیابان Circular سنگاپور، طیف گستردهای از پاسخها را از سوی مدلهای زبانی بزرگ (LLMها) و Google Lens برانگیخت. امتیاز پاسخها از ۳ (کشور مجاور) تا ۱۰ (مکان دقیق) متغیر بود.

این آزمون نمونه خوبی از این بود که چگونه مدلهای زبانی میتوانند با تمرکز روی جزئیات کوچک در تصویر، بهتر از Google Lens عمل کرده و مکان دقیق را شناسایی کنند. آن دسته از مدلهایی که پاسخ درستی دادند، به نوشته روی صندوق پستی در سمت چپ تصویر (در پیشزمینه) اشاره کردند، که آدرس دقیق را نشان میداد.
در حالی که Google Lens نتایجی از سراسر سنگاپور و مالزی ارائه داد، بخشی از پاسخ ChatGPT o4-mini اینگونه بود:
«این به نظر میرسد که یک راهروی شاپخانه سنتی در سنگاپور باشد — در واقع، اگر به صندوقهای پستی سمت چپ نگاه کنید، میتوانید برچسب ‘[آدرس صحیح]’ را ببینید.»
برخی دیگر از مدلها متوجه صندوق پستی شدند اما نتوانستند آدرسی را که در تصویر دیده میشد بخوانند و بهاشتباه نتیجهگیری کردند که تصویر متعلق به مکانهای دیگری است. مدل Gemini 2.5 Flash پاسخ داد:
«طراحی صندوقهای پستی در سمت چپ، بهویژه حرف G برای Geylang، بهوضوح به سنگاپور اشاره دارد.»
اما مدل دیگر گوگل، یعنی Gemini 2.5 Pro، صندوق پستی را دید ولی بهجای آن بر نوشتهای روی مغازه تمرکز کرد که آن را بهاشتباه بهعنوان خط تایلندی تفسیر کرد و با اطمینان پاسخ داد:
«شواهد تصویری بهوضوح نشان میدهند که این عکس در یک کوچه در تایلند، احتمالاً در بانکوک گرفته شده است.»
ساحل کاستاریکا
یکی از آزمونهای سختتری که برای تعیین موقعیت جغرافیایی به مدلها دادیم، عکسی بود که از پلیا لانگوستا در ساحل اقیانوس آرام کاستاریکا، در نزدیکی تاماریندو گرفته شده بود.

مدلهای Gemini و Claude در این آزمون بدترین عملکرد را داشتند. بیشتر مدلها یا از پاسخ دادن خودداری کردند یا پاسخهای نادرست دادند. مدل Claude 3.7 Sonnet به درستی کشور کاستاریکا را تشخیص داد، اما در کنارش به مکانهای دیگری مانند آسیای جنوبشرقی نیز اشاره کرد تا ریسک را کاهش دهد.
در میان مدلها، تنها Grok بود که مکان دقیق را درست حدس زد. چندین مدل از ChatGPT از جمله Deep Research، o3 و o4-miniها نیز توانستند موقعیت عکس را با دقتی در حدود ۱۶۰ کیلومتری ساحل تشخیص دهند.
یک خودروی زرهی در خیابانهای بیروت
این عکس در خیابانهای بیروت گرفته شده است و چندین جزئیات مفید برای تعیین موقعیت جغرافیایی دارد، از جمله نشان مخصوص روی بدنهی نفربر زرهی و پرچم لبنان که بهطور ناقص در پسزمینه دیده میشود.

بهطور شگفتانگیزی، بیشتر مدلها در این آزمون دچار مشکل شدند. مدل Claude 4 Opus که بهعنوان یک «مدل قدرتمند و بزرگ برای چالشهای پیچیده» معرفی شده، مکان تصویر را «جایی در اروپا» حدس زد، به دلیل «مبلمان شهری و طراحی ساختمانها با سبک اروپایی».
مدلهای Gemini و Grok نیز تنها توانستند موقعیت را تا سطح کشور لبنان محدود کنند.
نیمی از مدلهای ChatGPT پاسخ درست داده و مستقیماً به بیروت اشاره کردند. تنها دو مدل – که هر دو از سری ChatGPT بودند – به پرچم لبنان در تصویر اشاره کردند.
آیا مدلهای زبانی بزرگ (LLMها) بالاخره در تعیین موقعیت جغرافیایی (ژئولکیشن) مهارت یافتهاند؟
مدلهای زبانی بزرگ بدون شک میتوانند به پژوهشگران در شناسایی جزئیاتی کمک کنند که یا Google Lens یا حتی خود انسان ممکن است از آنها غافل شوند.
یکی از مزایای برجسته LLMها توانایی آنها در جستوجو و تحلیل در زبانهای مختلف است. همچنین، این مدلها بهخوبی میتوانند از سرنخهای ظریف مانند پوشش گیاهی، سبک معماری یا تابلوهای نوشتاری استفاده کنند. در یکی از آزمایشها، مدلی توانست مکان دقیق عکس مردی با جلیقه نجات در برابر کوهستان را تعیین کند، زیرا بخشی از نام شرکت روی جلیقه را تشخیص داد و آن را به یک اپراتور محلی تور قایقسواری مرتبط کرد.
در مناطق توریستی و مناظر طبیعی، Google Lens همچنان از بیشتر مدلها عملکرد بهتری داشت. برای مثال، در مواجهه با عکسی از دریاچهی Schluchsee در جنگل سیاه آلمان، Google Lens آن را بهعنوان اولین نتیجه نمایش داد، در حالیکه تنها مدل ChatGPT توانست نام دقیق دریاچه را تشخیص دهد.
در مقابل، در محیطهای شهری، LLMها در تطبیق و تحلیل جزئیات ظریف عملکرد درخشانی داشتند؛ در حالی که Google Lens بیشتر روی سازههای بزرگ و مشابه تمرکز میکرد – مانند ساختمانها یا چرخوفلکها – که در بسیاری مکانهای مختلف یافت میشوند.
جمع بندی
در این تحقیق، مدلهای زبانی بزرگ (LLM) از شرکتهای OpenAI، Google، Anthropic، Mistral و xAI در زمینه تشخیص مکان جغرافیایی تصاویر مورد آزمایش قرار گرفتند. ۲۵ عکس با درجه سختی متفاوت و بدون اطلاعات جانبی (metadata) انتخاب شد که قبلاً در اینترنت منتشر نشده بودند.
نتایج نشان داد که برخی مدلهای ChatGPT (نسخههای o3 و o4-mini) بهتر از Google Lens عمل کردند و توانستند مکانها را دقیقتر شناسایی کنند. سایر مدلها، از جمله مدلهای گوگل (Gemini) و Anthropic (Claude)، در مقایسه ضعیفتر بودند و حتی گاهی به اشتباه میافتادند.
برخی عکسها مانند یک کوچه در سنگاپور یا مناظر طبیعی در سوئیس توسط مدلهای ChatGPT بهخوبی مکانیابی شدند، در حالی که عکسهای پیچیدهتر مانند ساحل کاستاریکا یا خیابانهای بیروت برای همه مدلها چالشبرانگیز بود.
یکی از مزیتهای LLMها نسبت به Google Lens، توانایی آنها در استفاده از جزئیات کوچک و متنهای چند زبانه برای تشخیص بهتر مکان است. اما در مواردی، مدلها دچار «توهم» شدند و مکانهای اشتباهی را پیشنهاد کردند، مخصوصاً وقتی تصویر شامل تغییرات موقتی بود.
در نهایت، مدلهای زبان بزرگ هنوز کاملاً به مهارت کامل در مکانیابی نرسیدهاند، اما به سرعت در حال پیشرفتاند و در آینده نقش مهمتری در تحقیقات منبع باز خواهند داشت.
[1] https://www.bellingcat.com/resources/how-tos/2025/06/06/have-llms-finally-mastered-geolocation/



