همه دارن درباره AI Agent حرف میزنن، تقریباً هیچکسی که غیرحرفهای باشه یکی نساخته. خوب دلیلش سادهست، یه راهنمای کامل و قابل فهم وجود نداشت که یه آدم غیربرنامهنویس بتونه باهاش از صفر شروع کنه.
این شد که رفتم همه مستندات Anthropic و OpenAI رو خوندم. پستها و ویدیوهای متخصصهایی که تکهتکه اطلاعات مفید داده بودن رو جمع کردم. بعد همهشون رو ساختاردهی کردم و یه راهنمای یکپارچه ازش درآوردم.
نه برای توسعهدهنده حرفهای. برای کسی مثل خودم. معمار، بازاریاب، کارآفرین، یا هرکسی که میخواد AI رو از سطح «چت کردن» ببره به سطح «ساختن سیستم».
حالا چرا این مهمه؟
چون Agent فقط یه ربات چت نیست. Agent یه سیستمه که فکر میکنه، تصمیم میگیره، ابزار استفاده میکنه و کار رو تمام میکنه. و ساختنش اونقدر که فکر میکنی سخت نیست.
توی این مقاله از صفر شروع میکنیم. از اینکه Agent اصلاً چیه و چطور کار میکنه، تا اینکه چطور اولین Agent خودت رو بسازی، بهش ابزار بدی، حافظه بدی، تستش کنی و توی دنیای واقعی ازش استفاده کنی.
هفت بخش داره، طولانیه، ولی اگه تا آخرش بخونی، میتونی امروز اولین Agent خودت رو بسازی.
ایجنت چیه و چطور کار میکنه؟
یه AI Agent در سادهترین شکلش یه حلقه تکراریه:
کاربر یه چیزی میگه ← مدل زبانی (مثل Claude یا GPT) فکر میکنه ← تصمیم میگیره جواب بده یا یه ابزار رو صدا بزنه ← اگه ابزار صدا زد، نتیجه رو میگیره و دوباره فکر میکنه ← این چرخه تکرار میشه تا کار تموم بشه.
سه جزء اصلی داره:
مغز یعنی مدل زبانی که فکر و تصمیمگیری میکنه.
دستها یعنی ابزارها (Tools) مثل جستجوی وب، ماشینحساب، خوندن فایل، ارسال ایمیل و هرچیزی که مدل باهاش «عمل» انجام بده.
دفترچه یادداشت یعنی حافظه (Memory) که ثبت میکنه که تا الان چه اتفاقی افتاده.
هر فریمورکی که اسمش رو شنیدی (LangGraph، CrewAI، Anthropic SDK، OpenAI SDK) فقط یه لایه روی همین حلقه ساده میذاره. ذات کار عوض نمیشه.
مدل زبانی معمولی در مقابل تقویتشده؛ مدل معمولی فقط متن میگیره و متن برمیگردونه. اما وقتی بهش سه قابلیت اضافه کنی، میشه مدل تقویتشده:
اول، ابزارها: توابعی که مدل میتونه صداشون بزنه. مثلاً یه تابع ماشینحساب، یه API برای گرفتن قیمت سهام، یا دسترسی به دیتابیس. این ابزارها با فرمت JSON تعریف میشن.
دوم، بازیابی اطلاعات (Retrieval): توانایی رفتن و آوردن اطلاعات از منابع بیرونی مثل موتور جستجو، اسناد شرکت، یا پایگاه داده برداری (Vector Database).
سوم، حافظه: نگهداشتن اطلاعات بین مکالمات مختلف، چه با تاریخچه پیامها و چه با ذخیرهسازی دائمی.
فرق Workflow با Agent واقعی
ورکفلو، سیرکار و یا Workflow مثل یه خط تولید کارخانهست. مراحلش از قبل مشخصه، همیشه همون مسیر رو طی میکنه، و ارزونتره چون تعداد فراخوانی مدل کمتره. برای کارهای تکراری و مشخص عالیه.
از طرفی، Agent مثل یه کارمند باهوشه که خودش تصمیم میگیره قدم بعدی چیه. ممکنه چند بار ابزار مختلف صدا بزنه، مسیرش از قبل معلوم نیست، و طبیعتاً گرونتره.
قانون طلایی: همیشه اول با Workflow ساده شروع کن. فقط اگه واقعاً لازم شد، برو سراغ Agent مستقل.
پنج الگوی اصلی Workflow
بیشتر مشکلات رو بدون Agent کامل میشه حل کرد. این پنج الگو تقریباً همه حالتهای رایج رو پوشش میدن:
الگوی اول: زنجیره پرامپت (Prompt Chaining)
کار رو به چند مرحله پشت سر هم بشکن. خروجی هر مرحله ورودی مرحله بعده. بین مراحل یه چک کیفیت برنامهنویسیشده بذار.
مثال: اول یه متن بازاریابی بنویس، بعد ترجمهاش کن. یا اول outline بنویس، چکش کن، بعد متن کامل رو بنویس.
بهترین وقت استفاده: وقتی کار بهراحتی به زیرکارهای ثابت و مشخص تقسیم میشه.
الگوی دوم: مسیریابی (Routing)
اول ورودی رو دستهبندی کن، بعد بفرستش به بخش مخصوص خودش. هر بخش پرامپت بهینه شده مخصوص خودش رو داره.
مثال: سیستم پشتیبانی مشتری که سوال فنی رو به تیم فنی میفرسته و شکایت رو به تیم رسیدگی.
الگوی سوم: موازیسازی (Parallelisation)
چند تا فراخوانی مدل رو همزمان اجرا کن. دو روش داره:
«تقسیمبندی» یعنی کار رو به بخشهای مستقل تقسیم کنی و همزمان اجراشون کنی. «رأیگیری» یعنی یه کار رو چند بار اجرا کنی و جوابها رو مقایسه کنی تا مطمئنتر بشی.
الگوی چهارم: ارکستر و کارگران (Orchestrator-Workers)
یه مدل مرکزی (رهبر) کار رو تحلیل میکنه، در لحظه تصمیم میگیره چه زیرکارهایی لازمه، و اونا رو به مدلهای کارگر واگذار میکنه.
فرقش با موازیسازی اینه که زیرکارها از قبل مشخص نیستن. رهبر خودش تشخیص میده.
مثال: تولید کد در چند فایل مختلف، نوشتن گزارش تحقیقاتی، یا هر کاری که ساختارش قابل پیشبینی نیست.
الگوی پنجم: ارزیاب و بهینهساز (Evaluator-Optimiser)
یه مدل خروجی تولید میکنه. مدل دوم ارزیابیش میکنه و بازخورد میده. اگه قبول نشد، برمیگرده و دوباره تلاش میکنه تا کیفیت به حد مطلوب برسه.
مثال: ترجمه متن، تولید کد، یا نوشتن هر چیزی که معیار کیفیت واضح داره.
چطور Agent خودت رو بسازی
چهار سوال کلیدی؛ قبل از هر کاری این چهار سوال رو جواب بده:
1- نتیجه نهایی چی باشه؟ دقیقاً چه چیزی تولید بشه؟ یه خلاصه؟ یه ایمیل؟ یه گزارش؟ یه کد؟
2- چه اطلاعاتی لازم داره؟ آیا باید وب رو بگرده؟ فایل بخونه؟ به دیتابیس وصل بشه؟ یا فقط پیام کاربر کافیه؟
3- چه کارهایی مجازه انجام بده؟ فقط جواب بده؟ جستجو کنه؟ فایل ویرایش کنه؟ ایمیل بفرسته؟
4- چه قوانینی رعایت کنه؟ لحن صحبتش چطور باشه؟ فرمت خروجی چی باشه؟ وقتی مطمئن نیست چیکار کنه؟
اگه اینا رو واضح جواب بدی، نسخه اولت رو توی یه روز میسازی.
فرمول ساده طراحی Agent
Agent = نقش + هدف + ابزارها + قوانین + فرمت خروجی
مثال عملی:
نقش: دستیار تحقیق پروژههای کریپتو.
هدف: پیدا کردن اطلاعات دقیق و خلاصه واضح.
ابزارها: جستجوی وب، جستجوی فایل، ماشینحساب.
قوانین: منبع ذکر کن، حدس نزن، وقتی مطمئن نیستی بگو. فرمت خروجی: خلاصه + ریسکها + فرصتها + نتیجهگیری.
از کجا شروع کنیم؟
نیازی نیست ۵ تا فریمورک یاد بگیری. دو تا گزینه اصلی داری:
Anthropic (Claude): اگه میخوای Agent قدرتمندی بسازی که با فایل، شل، وب و کدنویسی کار کنه.
OpenAI: اگه SDK تمیز با ابزارهای آماده، انتقال بین Agentها (handoff)، و مسیر ساده به محصول نهایی میخوای.
روش کار گام به گام:
۱. توی یه جمله بنویس Agent چیکار کنه.
۲. مشخصات دقیقش رو بنویس (همون چهار سوال بالا).
۳. کوچکترین نسخه ممکن رو بساز.
۴. روی ۱۰ تا مثال واقعی تستش کن.
۵. یکییکی بهبود بده.
اشتباه بزرگ: سعی نکن همه چیز رو یکجا بسازی. با یه شغل مشخص، یه Agent، یه پرامپت واضح و حداکثر دو تا ابزار شروع کن.
استفاده از ابزارها (Tools)
بزرگترین اشتباه: فکر کنی ابزار بیشتر یعنی Agent باهوشتر. اشتباهه!
واقعیت: ابزار بهتر یعنی Agent باهوشتر. ابزار کمتر یعنی Agent قابلاعتمادتر.
هر ابزار باید سه ویژگی داشته باشه:
1- اسم واضح داشته باشه،
2- توضیح دقیق داشته باشه که مدل بفهمه کی و چطور ازش استفاده کنه
3- و پارامترهاش ساده باشن.
همچنین باید به مدل بگی «کِی» از هر ابزار استفاده کنه و «کِی» استفاده نکنه. بدون این راهنمایی، مدل ممکنه بیدلیل ابزار صدا بزنه.
حافظه دادن به Agent
مردم خیلی پیچیدهاش میکنن. فقط دو نوع حافظه وجود داره:
حافظه کوتاهمدت: تاریخچه همون مکالمه. این پیشفرض همه SDKها هست و نیاز به کار اضافه نداره.
حافظه بلندمدت: اطلاعاتی که بین مکالمات مختلف باقی بمونه. مثل فایلها، PDFها، یادداشتها، یا دیتابیس. فقط وقتی اضافه کن که واقعاً بهش نیاز داری.
کار کردن Agent در دنیای واقعی
سه نکته مهم:
اول؛ مثل یه کاربر واقعی تستش کن، نه مثل سازندهاش. سوالات عجیب و غریب بپرس. ببین کجا خراب میشه.
دوم؛ وقتی مشکل پیدا کردی، از خود AI کمک بگیر برای دیباگ. لاگها و خطاها رو بهش نشون بده.
سوم؛ هر بار فقط یه چیز رو فیکس کن. اگه همزمان چند چیز رو عوض کنی، نمیفهمی کدوم تغییر مشکل رو حل کرد.
چند Agent همزمان
فقط توی سه حالت واقعاً نیاز داری چند Agent داشته باشی:
۱. وقتی مهارتهای کاملاً متفاوتی لازمه (مثلاً یکی کد بنویسه، یکی تحلیل مالی کنه).
۲. وقتی یه خط لوله مشخص داری (خروجی اولی ورودی دومیه).
۳. وقتی سطح دسترسیها فرق داره.
همیشه با یه Agent شروع کن. فقط وقتی ثابت شد یه Agent کافی نیست، Agent دوم اضافه کن.
اگه چند Agent داری، یه Agent «سرپرست» (Supervisor) بذار که کار رو تقسیم کنه و نتایج رو جمع بزنه.
سه نکته نهایی:
یک؛ اول یه Agent ساده از صفر بساز تا بفهمی چطور کار میکنه.
دو؛ با سادهترین الگو شروع کن و فقط در صورت نیاز پیچیدگی اضافه کن.
سه؛ از همون اول روی طراحی خوب ابزارها و تست واقعی سرمایهگذاری کن.
حالا آمادهای اولین Agent خودت رو بسازی.
جمعبنـــــــدی
Agentها مفهومی ساده ولی عملیاتی سخت هستن. حلقه اصلی توی ۵۰ خط کد پایتون جا میشه. کار واقعی اینه که ابزارها رو خوب طراحی کنی، خطاها رو مدیریت کنی، خروجی رو ارزیابی کنی، و ساده شروع کنی.
منـــبـــــــــــــــع و نویسنده (با اندکی ویرایش): نوید طاهری در X Article
نکتـــــــــــــــه: جناب آقای نوید طاهری با تحصیلات مرتبط با معماری و MBA یک کاربر عمومی از هوش مصنوعی هستند. به همین دلیل زوایه دید ایشان با بسیاری از افراد که دانش عمیق و تخصصی در این وادی ندارند، ممکن است همراستا باشد. همچنین محتمل است که متن فوق، برای برخی از خوانندگان، غیرفنی محسوب گردد. اما بهرحال یک مقاله عمومی برچسب میخورد تا افراد غیرمتخصص نیز به زبان ساده با این حوزه آشنا شوند و بطور کلی هدف از انتشار آن ارتقای دانش عمومی در جامعه است. سپاس از نگارندهی اصلی مقاله.