מאגר החוקים ריק. הוסף חוקים כדי לאפשר זיהוי אוטומטי.
מאגר סעיפים
מזהה
חוק
מספר סעיף
שם הסעיף / עבירה
כינויים
פעולות
מאגר הסעיפים ריק. הוסף סעיפים או השתמש בייצור אוטומטי.
איחוד ערכים
אחד ערכים דומים בשדה אחד לערך קנוני אחד. ההתאמה חלה גם על חיפוש וגם על תצוגת גרפים.
ערכים קיימים
ערך
מסמכים
טיוב נתונים
מיפוי מבנה הנתונים לפי תחום. לחץ/י "מפה מחדש" כדי לסרוק את כל המסמכים בתחום ולבנות מפת שדות.
שם שדה
סוג
התנהגות
כיסוי
ערכים
ערכים נפוצים
טווח מספרי
בחר תחום ולחץ "מפה מחדש" כדי להתחיל
דירוג חומרת ענישה
ערכים לא ממופים
סדר
דרגה
סוג עונש
ערכים גולמיים ממופים
פעולות
אין סוגי עונש מוגדרים.
הוסף סוג עונש
כל שורה היא ערך גולמי שיימופה לסוג העונש הזה
הוסף תחום
השדות שייבחרו יוצגו על כרטיסי המסמכים ברשימת החיפוש, בנוסף לשדות הבסיסיים (שם תיק, בית משפט, תאריך, תגיות, תקציר).
טוען שדות...
0 שדות נבחרו
הוסף סעיף
ייצור סעיפים אוטומטי (AI)
מייצר סעיפים... (עד דקה)
מספר סעיף
שם הסעיף
כינויים
ייבוא אוטומטי
בדיקת סיכוני סריקה רחבה
למה הבדיקה הזו קיימת: ה-court_downloader מתעלם בשקט מפילטר case_interest בשני מצבים — כשרשימת case_types ריקה, או כש-case_interest ריק אך case_types מוגדר. התוצאה: סריקה רחבה בהרבה ממה שהקונפיג נראה כמסנן. הקונפיגורציות הבאות מתאימות לדפוס הזה.
טוען...
מסך זה מנהל הגדרות ייבוא (תזמון, מקור, פרמטרים).
לתצוגה חיה של ריצות פעילות והתור של court_downloader, ראה
Worker חי
.
רצות אוטומטית בתזמון קבוע0
לחיצה על שורה מציגה את הריצות האחרונות
שם / תחום
מקור
תדירות
מצב
ריצה אחרונה
ייבוא אחרון
פעולות
הפעלה ידנית בלבד0
שם / תחום
מקור
תדירות
מצב
ריצה אחרונה
ייבוא אחרון
פעולות
ייבוא נתונים חיצוניים
העלאת קובץ Excel/CSV עם רשימת שדות ביחס לכל תיק. הנתונים נשמרים בטבלה נפרדת
(external_dataset_rows) ומחוברים למסמכים לפי עמודה שתבחר (כברירת מחדל: case_number).
יחס 1:N נתמך — תיק עם כמה שורות יקבל כמה רשומות.
שם
מזהה (key)
תחום
עמודת מזהה
שורות
תואמו
לא תואמו
תאריך ייבוא
פעולות
אין דאטה-סטים מיובאים.
ייבוא נתונים חיצוניים
משמש לייבוא חוזר ולקישור פרוגרמטי. אותיות אנגלית/מספרים/קו תחתון.
5 שורות ראשונות מהקובץ:
עמודות לדילוג (לא יישמרו ב-payload):
מעבד...
פרטי דאטה-סט
מיפוי רכיבי ענישה (פירוק payload לטבלת רכיבים)
הגדר מיפוי בפורמט JSON: type_column = שם העמודה שמכילה את סוג העונש;
value_columns = רשימת עמודות עם כמות + יחידה.
כל שינוי במיפוי מפעיל בנייה מחדש של רכיבי הענישה לכל ה‑dataset.
שמירת null מנקה את כל הרכיבים הקיימים.
טבלה זו מציגה את ההיסטוריה של משימות הגירוד.
לתצוגה חיה בזמן-אמת של מה שרץ עכשיו וה-workers המחוברים, ראה
Worker חי
.
סוג
תיאור
סטטוס CD
סטטוס ייבוא
קבצים
מקור
בוקש
הושלם
פעולות
Worker חי
Workers פעילים0
Worker ID
Caps
Last poll
Current job
User-Agent
אין workers פעילים בחלון זמן הזיהוי.
רץ עכשיו0
Type
CD job
Worker
פרמטרים
קבצים
התקדמות
שאילתות
DMS run
זמן
אין ג'ובים פעילים.
ממתינים בתור0
#
Type
CD job
פרמטרים
DMS run
נוצר
התור ריק.
משימות Workers
Download
Extract (PDF → MD)
LLM
Workers שראינו לאחרונה
worker_id
stage
executor
פעיל עכשיו?
משימות
נראה לאחרונה
lease עד
טוען…
Download — משימות הורדה
#
doc
status
executor
worker_id
provider
payload
נוצר
סיים
משך
פעולות
Extract — המרה ל-MD
#
doc
status
executor
worker_id
extractor
chars
lease
נוצר
סיים
משך
פעולות
LLM — ניתוח AI
#
doc
status
executor
worker_id
provider
שגיאה
lease
נוצר
סיים
משך
פעולות
כפילויות
סימון רך — הסתרה במקום מחיקהחדש
מסמן כפילויות במקום למחוק אותן. השורות המסומנות נשארות ב־DB אך נעלמות מכל הממשקים למשתמש.
כולל זיהוי לפי תוכן זהה — תופס מסמכים שבית המשפט מייצר מחדש כ־PDFים שונים אך עם טקסט זהה (כמו 88880/78531/59581 שלך).
מחיקה ישירה (מורשת)
ID
קובץ
עמודים
טקסט
AI
תחום
תאריך העלאה
מבנה נתונים
טבלאות
טוען...
שם
סוג
NULL
PK
עמודה
מצביע אל
שם
עמודות
UNIQUE
בונה שאילתות
אין תוצאות עדיין
מסלול המידע במערכת
מפה ויזואלית של כל מסלולי הקליטה והעיבוד — מהמקור (העלאה / יבוא / גירוד) ועד היעד הסופי (טבלאות, AI analysis, אזכורי חוק). כל שלב צבוע אחרת לפי סוג.
1
מקורות יבוא
מהיכן מסמכים מגיעים למערכת
העלאה ידנית
משתמש מעלה קובץ דרך המסך הראשי (drag-drop או דפדוף). פר קובץ, מקסימום 4 במקביל.
העלאה מרובה
דף ייעודי bulk-upload.html להעלאת מאות קבצים בבת אחת עם בדיקת כפילויות.
יבוא אוטומטי
גירוד תקופתי מאתרי בתי המשפט. רץ כל 60 שניות, מוגדר ב-import_source_config.
משימות גירוד
תור גירוד ידני — אדמין מבקש גירוד חד-פעמי של תקופה / סוג. נכנס לאותו worker.
נתונים חיצוניים (CSV/XLSX)
מטא-דאטה לשיוך למסמכים קיימים (לא קבצים). לא עובר LLM, רק שיוך לפי case_number וכו'.
Direct Import API
קלט מעיבוד מקדים חיצוני: קובץ + .md + metadata.json. אם ai_analysis כבר קיים — דילוג על LLM.
2
נקודות כניסה (HTTP / רקע)
הראוטר שמקבל את הקלט
POST /documents/upload
מקבל קובץ בודד. משמש העלאה ידנית, מרובה, ויבוא אוטומטי (קורא לעצמו אחרי גירוד).
start_import_worker()
Thread רקע שעולה ב-startup. בודק import_source_config כל 60 שניות, מוריד PDFים, ואז קורא ל-upload.
POST /admin/external-datasets
מקבל CSV/XLSX. שומר את השורות בטבלאות נפרדות, לא יוצר Document חדש ולא נוגע ב-LLM.
POST /api/direct-import
אדמין-בלבד. שומר קובץ + מטא-דאטה גמורה. אם יש ai_analysis מוכן — מדלג ישר ליעד הסופי.
3
אחסון גולמי
איפה נשמר הקובץ והשורה הראשונית
תיקיית uploads/
הקובץ המקורי (PDF / DOCX / וכו') נשמר על הדיסק. שם הקובץ: {user_id}_{timestamp}_{שם_מקורי}.
קובץ סיידקאר .md
הטקסט המחולץ מהקובץ נשמר כ-Markdown ליד הקובץ המקורי. נוצר אחרי שלב 5.
שיוך נתונים חיצוניים: מסלול CSV/XLSX לא יוצר שורה ב-documents — הוא שומר ב-external_datasets + external_dataset_rows ומחבר לדוקומנטים קיימים בזמן חיפוש.
4
תור עיבוד (processing_queue)
סדרור והקצאת priority
priority 0 — ידני
העלאה ידנית מהמסך הראשי. רץ קודם.
priority 5 — יבוא אוטומטי
גירוד בתי משפט / משימות גירוד.
priority 10 — מרובה
העלאה מרובה (bulk). רץ אחרון, לא חוסם משתמשים אחרים.
סטטוס pending → running → done/failed
retry עד 3 פעמים עם exponential backoff.
5
Worker רקע (3 threads)
חילוץ טקסט ובניית הקשר ל-LLM
1. Claim שורה
תפיסת שורת pending עם FOR UPDATE SKIP LOCKED כדי להבטיח שכל thread עובד על משהו אחר.