راهنمای کامل ساخت ایجنت هوش مصنوعی از صفر

فهرست مطالب

همه دارن درباره AI Agent حرف می‌زنن، تقریباً هیچ‌کسی که غیرحرفه‌ای باشه یکی نساخته. خوب دلیلش ساده‌ست، یه راهنمای کامل و قابل فهم وجود نداشت که یه آدم غیربرنامه‌نویس بتونه باهاش از صفر شروع کنه.

این شد که رفتم همه مستندات Anthropic و OpenAI رو خوندم. پست‌ها و ویدیوهای متخصص‌هایی که تکه‌تکه اطلاعات مفید داده بودن رو جمع کردم. بعد همه‌شون رو ساختاردهی کردم و یه راهنمای یکپارچه ازش درآوردم.

نه برای توسعه‌دهنده حرفه‌ای. برای کسی مثل خودم. معمار، بازاریاب، کارآفرین، یا هرکسی که می‌خواد AI رو از سطح «چت کردن» ببره به سطح «ساختن سیستم».

حالا چرا این مهمه؟

چون Agent فقط یه ربات چت نیست. Agent یه سیستمه که فکر می‌کنه، تصمیم می‌گیره، ابزار استفاده می‌کنه و کار رو تمام می‌کنه. و ساختنش اونقدر که فکر می‌کنی سخت نیست.

توی این مقاله از صفر شروع می‌کنیم. از اینکه Agent اصلاً چیه و چطور کار می‌کنه، تا اینکه چطور اولین Agent خودت رو بسازی، بهش ابزار بدی، حافظه بدی، تستش کنی و توی دنیای واقعی ازش استفاده کنی.

هفت بخش داره، طولانیه، ولی اگه تا آخرش بخونی، می‌تونی امروز اولین Agent خودت رو بسازی.

ایجنت چیه و چطور کار می‌کنه؟

یه AI Agent در ساده‌ترین شکلش یه حلقه تکراریه:

کاربر یه چیزی می‌گه ← مدل زبانی (مثل Claude یا GPT) فکر می‌کنه ← تصمیم می‌گیره جواب بده یا یه ابزار رو صدا بزنه ← اگه ابزار صدا زد، نتیجه رو می‌گیره و دوباره فکر می‌کنه ← این چرخه تکرار می‌شه تا کار تموم بشه.

سه جزء اصلی داره:

مغز یعنی مدل زبانی که فکر و تصمیم‌گیری می‌کنه.
دست‌ها یعنی ابزارها (Tools) مثل جستجوی وب، ماشین‌حساب، خوندن فایل، ارسال ایمیل و هرچیزی که مدل باهاش «عمل» انجام بده.
دفترچه یادداشت یعنی حافظه (Memory) که ثبت می‌کنه که تا الان چه اتفاقی افتاده.

هر فریم‌ورکی که اسمش رو شنیدی (LangGraph، CrewAI، Anthropic SDK، OpenAI SDK) فقط یه لایه روی همین حلقه ساده می‌ذاره. ذات کار عوض نمی‌شه.

مدل زبانی معمولی در مقابل تقویت‌شده؛ مدل معمولی فقط متن می‌گیره و متن برمی‌گردونه. اما وقتی بهش سه قابلیت اضافه کنی، می‌شه مدل تقویت‌شده:

اول، ابزارها: توابعی که مدل می‌تونه صداشون بزنه. مثلاً یه تابع ماشین‌حساب، یه API برای گرفتن قیمت سهام، یا دسترسی به دیتابیس. این ابزارها با فرمت JSON تعریف می‌شن.

دوم، بازیابی اطلاعات (Retrieval): توانایی رفتن و آوردن اطلاعات از منابع بیرونی مثل موتور جستجو، اسناد شرکت، یا پایگاه داده برداری (Vector Database).

سوم، حافظه: نگه‌داشتن اطلاعات بین مکالمات مختلف، چه با تاریخچه پیام‌ها و چه با ذخیره‌سازی دائمی.

فرق Workflow با Agent واقعی

ورک‌فلو، سیرکار و یا Workflow مثل یه خط تولید کارخانه‌ست. مراحلش از قبل مشخصه، همیشه همون مسیر رو طی می‌کنه، و ارزون‌تره چون تعداد فراخوانی مدل کمتره. برای کارهای تکراری و مشخص عالیه.

از طرفی، Agent مثل یه کارمند باهوشه که خودش تصمیم می‌گیره قدم بعدی چیه. ممکنه چند بار ابزار مختلف صدا بزنه، مسیرش از قبل معلوم نیست، و طبیعتاً گرون‌تره.

قانون طلایی: همیشه اول با Workflow ساده شروع کن. فقط اگه واقعاً لازم شد، برو سراغ Agent مستقل.

پنج الگوی اصلی Workflow

بیشتر مشکلات رو بدون Agent کامل می‌شه حل کرد. این پنج الگو تقریباً همه حالت‌های رایج رو پوشش می‌دن:

الگوی اول: زنجیره پرامپت (Prompt Chaining)

کار رو به چند مرحله پشت سر هم بشکن. خروجی هر مرحله ورودی مرحله بعده. بین مراحل یه چک کیفیت برنامه‌نویسی‌شده بذار.

مثال: اول یه متن بازاریابی بنویس، بعد ترجمه‌اش کن. یا اول outline بنویس، چکش کن، بعد متن کامل رو بنویس.

بهترین وقت استفاده: وقتی کار به‌راحتی به زیرکارهای ثابت و مشخص تقسیم می‌شه.

الگوی دوم: مسیریابی (Routing)

اول ورودی رو دسته‌بندی کن، بعد بفرستش به بخش مخصوص خودش. هر بخش پرامپت بهینه‌ شده مخصوص خودش رو داره.

مثال: سیستم پشتیبانی مشتری که سوال فنی رو به تیم فنی می‌فرسته و شکایت رو به تیم رسیدگی.

الگوی سوم: موازی‌سازی (Parallelisation)

چند تا فراخوانی مدل رو همزمان اجرا کن. دو روش داره:

«تقسیم‌بندی» یعنی کار رو به بخش‌های مستقل تقسیم کنی و همزمان اجراشون کنی. «رأی‌گیری» یعنی یه کار رو چند بار اجرا کنی و جواب‌ها رو مقایسه کنی تا مطمئن‌تر بشی.

الگوی چهارم: ارکستر و کارگران (Orchestrator-Workers)

یه مدل مرکزی (رهبر) کار رو تحلیل می‌کنه، در لحظه تصمیم می‌گیره چه زیرکارهایی لازمه، و اونا رو به مدل‌های کارگر واگذار می‌کنه.

فرقش با موازی‌سازی اینه که زیرکارها از قبل مشخص نیستن. رهبر خودش تشخیص می‌ده.

مثال: تولید کد در چند فایل مختلف، نوشتن گزارش تحقیقاتی، یا هر کاری که ساختارش قابل پیش‌بینی نیست.

الگوی پنجم: ارزیاب و بهینه‌ساز (Evaluator-Optimiser)

یه مدل خروجی تولید می‌کنه. مدل دوم ارزیابیش می‌کنه و بازخورد می‌ده. اگه قبول نشد، برمی‌گرده و دوباره تلاش می‌کنه تا کیفیت به حد مطلوب برسه.

مثال: ترجمه متن، تولید کد، یا نوشتن هر چیزی که معیار کیفیت واضح داره.

چطور Agent خودت رو بسازی

چهار سوال کلیدی؛ قبل از هر کاری این چهار سوال رو جواب بده:

1- نتیجه نهایی چی باشه؟ دقیقاً چه چیزی تولید بشه؟ یه خلاصه؟ یه ایمیل؟ یه گزارش؟ یه کد؟

2- چه اطلاعاتی لازم داره؟ آیا باید وب رو بگرده؟ فایل بخونه؟ به دیتابیس وصل بشه؟ یا فقط پیام کاربر کافیه؟

3- چه کارهایی مجازه انجام بده؟ فقط جواب بده؟ جستجو کنه؟ فایل ویرایش کنه؟ ایمیل بفرسته؟

4- چه قوانینی رعایت کنه؟ لحن صحبتش چطور باشه؟ فرمت خروجی چی باشه؟ وقتی مطمئن نیست چیکار کنه؟

اگه اینا رو واضح جواب بدی، نسخه اولت رو توی یه روز می‌سازی.

فرمول ساده طراحی Agent

Agent = نقش + هدف + ابزارها + قوانین + فرمت خروجی

مثال عملی:

نقش: دستیار تحقیق پروژه‌های کریپتو.
هدف: پیدا کردن اطلاعات دقیق و خلاصه واضح.
ابزارها: جستجوی وب، جستجوی فایل، ماشین‌حساب.
قوانین: منبع ذکر کن، حدس نزن، وقتی مطمئن نیستی بگو. فرمت خروجی: خلاصه + ریسک‌ها + فرصت‌ها + نتیجه‌گیری.

از کجا شروع کنیم؟

نیازی نیست ۵ تا فریم‌ورک یاد بگیری. دو تا گزینه اصلی داری:

Anthropic (Claude): اگه می‌خوای Agent قدرتمندی بسازی که با فایل، شل، وب و کدنویسی کار کنه.

OpenAI: اگه SDK تمیز با ابزارهای آماده، انتقال بین Agentها (handoff)، و مسیر ساده به محصول نهایی می‌خوای.

روش کار گام به گام:

۱. توی یه جمله بنویس Agent چیکار کنه.
۲. مشخصات دقیقش رو بنویس (همون چهار سوال بالا).
۳. کوچک‌ترین نسخه ممکن رو بساز.
۴. روی ۱۰ تا مثال واقعی تستش کن.
۵. یکی‌یکی بهبود بده.

اشتباه بزرگ: سعی نکن همه چیز رو یکجا بسازی. با یه شغل مشخص، یه Agent، یه پرامپت واضح و حداکثر دو تا ابزار شروع کن.

استفاده از ابزارها (Tools)

بزرگ‌ترین اشتباه: فکر کنی ابزار بیشتر یعنی Agent باهوش‌تر. اشتباهه!

واقعیت: ابزار بهتر یعنی Agent باهوش‌تر. ابزار کمتر یعنی Agent قابل‌اعتمادتر.

هر ابزار باید سه ویژگی داشته باشه:
1- اسم واضح داشته باشه،
2- توضیح دقیق داشته باشه که مدل بفهمه کی و چطور ازش استفاده کنه
3- و پارامترهاش ساده باشن.

همچنین باید به مدل بگی «کِی» از هر ابزار استفاده کنه و «کِی» استفاده نکنه. بدون این راهنمایی، مدل ممکنه بی‌دلیل ابزار صدا بزنه.

حافظه دادن به Agent

مردم خیلی پیچیده‌اش می‌کنن. فقط دو نوع حافظه وجود داره:

حافظه کوتاه‌مدت: تاریخچه همون مکالمه. این پیش‌فرض همه SDKها هست و نیاز به کار اضافه نداره.

حافظه بلندمدت: اطلاعاتی که بین مکالمات مختلف باقی بمونه. مثل فایل‌ها، PDFها، یادداشت‌ها، یا دیتابیس. فقط وقتی اضافه کن که واقعاً بهش نیاز داری.

کار کردن Agent در دنیای واقعی

سه نکته مهم:

اول؛ مثل یه کاربر واقعی تستش کن، نه مثل سازنده‌اش. سوالات عجیب و غریب بپرس. ببین کجا خراب می‌شه.

دوم؛ وقتی مشکل پیدا کردی، از خود AI کمک بگیر برای دیباگ. لاگ‌ها و خطاها رو بهش نشون بده.

سوم؛ هر بار فقط یه چیز رو فیکس کن. اگه همزمان چند چیز رو عوض کنی، نمی‌فهمی کدوم تغییر مشکل رو حل کرد.

چند Agent همزمان

فقط توی سه حالت واقعاً نیاز داری چند Agent داشته باشی:

۱. وقتی مهارت‌های کاملاً متفاوتی لازمه (مثلاً یکی کد بنویسه، یکی تحلیل مالی کنه).
۲. وقتی یه خط لوله مشخص داری (خروجی اولی ورودی دومیه).
۳. وقتی سطح دسترسی‌ها فرق داره.

همیشه با یه Agent شروع کن. فقط وقتی ثابت شد یه Agent کافی نیست، Agent دوم اضافه کن.

اگه چند Agent داری، یه Agent «سرپرست» (Supervisor) بذار که کار رو تقسیم کنه و نتایج رو جمع بزنه.

سه نکته نهایی:

یک؛ اول یه Agent ساده از صفر بساز تا بفهمی چطور کار می‌کنه.

دو؛ با ساده‌ترین الگو شروع کن و فقط در صورت نیاز پیچیدگی اضافه کن.

سه؛ از همون اول روی طراحی خوب ابزارها و تست واقعی سرمایه‌گذاری کن.

حالا آماده‌ای اولین Agent خودت رو بسازی.

جمع‌بنـــــــدی

Agentها مفهومی ساده ولی عملیاتی سخت هستن. حلقه اصلی توی ۵۰ خط کد پایتون جا می‌شه. کار واقعی اینه که ابزارها رو خوب طراحی کنی، خطاها رو مدیریت کنی، خروجی رو ارزیابی کنی، و ساده شروع کنی.

منـــبـــــــــــــــع و نویسنده (با اندکی ویرایش): نوید طاهری در X Article

نکتـــــــــــــــه: جناب آقای نوید طاهری با تحصیلات مرتبط با معماری و MBA یک کاربر عمومی از هوش مصنوعی هستند. به همین دلیل زوایه دید ایشان با بسیاری از افراد که دانش عمیق و تخصصی در این وادی ندارند، ممکن است همراستا باشد. همچنین محتمل است که متن فوق، برای برخی از خوانندگان، غیرفنی محسوب گردد. اما بهرحال یک مقاله عمومی برچسب می‌خورد تا افراد غیرمتخصص نیز به زبان ساده با این حوزه آشنا شوند و بطور کلی هدف از انتشار آن ارتقای دانش عمومی در جامعه است. سپاس از نگارنده‌ی اصلی مقاله.

سایر مقالات مجموعه:

پست‌های مرتبط با این مقاله:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *