دليل الاستجابة
معدل أخطاء 5xx مرتفع
الأعراض
- نسبة أخطاء 5xx تتجاوز 5% لمدة 5 دقائق.
- Sentry يعرض موجة أخطاء جديدة في خدمة واحدة.
التحقق
check.sh
SVC=orders-service # adjust to the alerting service
# Last 100 lines of stderr
docker logs --tail=100 via_prod-$SVC 2>&1 | grep -E 'ERROR|CRITICAL|Traceback'
# Current error rate from the gateway (last 5 min)
curl -s 'http://localhost:9090/api/v1/query?query=sum(rate(http_requests_total{status=~"5..",service="'$SVC'"}[5m])) / sum(rate(http_requests_total{service="'$SVC'"}[5m]))'
# Is the DB / Redis / RabbitMQ the real source?
docker exec via_prod-$SVC curl -sf http://localhost:808X/health || echo "unhealthy"المعالجة
- حدد النمط: إذا كان خطأ قاعدة بيانات → تحقق من
db-pool-exhausted. إذا كان deploy حديث: - ارجع للإصدار الأخير المعروف:rollback.sh
cd ~/via-backend/backend/compose docker tag ghcr.io/via-logistics/$SVC:last-known-good ghcr.io/via-logistics/$SVC:latest docker compose -f docker-compose.prod.yml up -d --force-recreate $SVC
- إذا استمر بعد الرجوع: الخلل ليس في الكود. افحص تبعية خارجية (Paymob, SES, DB).
ما بعد الحادث
- أرفق رابط Sentry + stack trace في تقرير ما بعد الحادث.
- اكتب اختباراً للحالة الحدّية التي تسببت بالخطأ.