عربي . بايثون
تحتوي المكتبة الأساسية على مجموعة متعددة من الأدوات المعجمية بالإضافة الى ادوات خاصة في الويكيبيديا
أدوات "عربي" (ArabiTools) هي مجموعة من الحُزم البرمجية
"تم تطويرها بلغتي البايثون و الجافا"
خاصة في اللغة العربية ومعالجة المحتوى العربي.
هنالك حُزم برمجية متنوعة مثل
حُزمة الأفعال
وهي مجموعة من الأدوات تعتمد على قواعد معرفية مدققة خاصة بتحليل الأفعال العربية وتصريفاتها المختلفة وتتضمن العديد من الأدوات (استخراج مصادر الكلمات والأفعال مع تشكيل، استخراج الجذور، تصريف الأفعال المُدخلة بشكل كامل، ايجاد التشكيلات المختلفة الصحيحة والمستعملة للأفعال، ايجاد الوزن الصرفي للفعل المُدخل، استخراج المرادفات)
وحُزمة الكلمات
(تصحيح إملائي، مشتقات، محدد اللغة)
وحُزمة الأشخاص
(مستخرج أسماء الأشخاص، محدد نوع الاسم الشخصي "مذكر أو مؤنث أو عائلة" ، مترجم الاسم للغة الانجليزية )
وحُزمة الويكيبيديا العربية
(أدوات خاصة في سحب النصوص العربية، أداة خاصة في استخراج معلومات مهيكلة من مقالات الويكيبيديا، أداة أخرى تعيد صورة للمقال واخرى تعيد عنوان المقال باللغات الأخرى المتوفرة. يتوفر أيضا أداة خاصة في التصنيفات ، قادرة على إرجاع عناوين المقالات ضمن تصنيف معين و عناوين المقالات ضمن مجموعة مترابطة من التصنيفات وغيرها)
وحُزمة الشبكات الإجتماعية
(مستخرج النصوص العربية من تويتر، مستخرج النصوص حسب اللهجات ومستخرج النصوص من الإنستغرام وغيرها )
والنموذج العميق لحًزمة المشاعر
(تحديد المشاعر الإيجابية والسلبية في النص العربي)
والنموذج العميق لحًزمة اللهجات
(النسخه الحالية تميز بين اللغة العربية الفصحى الحديثة ، اللهجة النجدية، اللهجة الحجازية، اللهجة الخليجية )
وحُزمة التصنيف الآلي وحُزمة استخراج المصطلحات والكيانات الاسمية.
تحتوي المكتبة الأساسية على مجموعة متعددة من الأدوات المعجمية بالإضافة الى ادوات خاصة في الويكيبيديا
نموذج لغوي عميق خاص في تحليل المشاعر في النصوص وهو مدرب على مثات الآلاف من التغريدات العربية
نموذج لغوي عميق خاص في كشف اللهجات وحاليا يدعم اللهجات التالية :
اللغة العربية الفصحى الحديثة ، اللهجة النجدية، اللهجة الحجازية، اللهجة الخليجية
وقد تم تدريب النموذج على قاعدة بيانات صدى والتي تحتوي على اكثر من ٦٠٠ ساعة من ٨٠ برنامج ومسلسل خليجي.
تصريف أفعال، مستخرج جذوع وجذور ، مستخرج مصادر، تشكيل أفعال، مستخرج أوزان ، مرادفات
محلل مقالات ويكيبيديا، مستخرج تصنيفات، مستخرج بيانات مهيكلة، مستخرج نصوص عربية، مستخرج مقالات بنفس التصنيف، تصنيفات ذات علاقة
مستخرج أسماء الأشخاص، محدد نوع الاسم الشخصي "مذكر أو مؤنث أو عائلة" ، محول الاسماء للغة الانجليزية
تصحيح إملائي ، مشتقات الكلمات، محدد لغة
مستخرج النصوص العربية من الشبكات الإجتماعية، مستخرج النصوص حسب اللهجات وغيرها
أداة قديمة - يرجى إستعمال الأداة في حُزمة البايثون
أداة برمجية من "أدوات عربي" خاصة في تحليل المشاعر
أدوات لتصنيف النصوص العربية حسب المحتوى وتشمل التصنيفات: رياضة، طب وصحة\مختبرات، إلكترونيات وميكانيكة، حاسوب وتكنولوجيا، أدب وفنون، أخبار وسياسة، ديانات، إدارة و إقتصاد
استخراج المصطلحات والكيانات الاسمية من النصوص العربية ، مثلا تستطيع هذه الأداة استخراج أسماء الأشخاص وتميزها كعلماء ومشاهير وفنانين وغيرها و تستطيع استخراج اسماء الشركات والمناطق وغيرها
تقارير يومية مستخلصة من محتوى التغريدات العربية ضمن موضوع الكورونا.
مثال على إستعمال أدوات
عربي. أشخاص
في تطوير نموذج "إدخال بيانات تفاعلي" وهو مفيد في أنظمة التسجيل وشؤون المواطنين وغيرها.
محرك بحث يُروى يستخدم أدوات عربي لإستخراج النصوص العربية من الشبكات الإجتماعية
.
ويستخدم أدوات عربي في تحليل المنشورات للإستخراج النصوص الشعرية.
قيد التطوير- نسخة أولية بداية ٢٠٢٤
نور روبوت ونموذج ذكاء إصطناعي للدردشة وهي تعرف الكثير عن اللغة العربية