إن بيانات التدريب على الذكاء الاصطناعي لها ثمن باهظ، وهي الأنسب لشركات التكنولوجيا ذات الأموال الكبيرة. هذا هو السبب في جامعة هارفارد خطط للافراج مجموعة بيانات تتضمن مليون كتاب في المجال العام، تشمل الأنواع واللغات والمؤلفين، بما في ذلك ديكنز ودانتي وشكسبير، والتي لم تعد محمية بحقوق الطبع والنشر بسبب أعمارهم.
مجموعة البيانات الجديدة ليست متاحة بعد، وليس من الواضح متى أو كيف سيتم إصدارها. ومع ذلك، فهو يحتوي على كتب مستمدة من مشروع Google لمسح الكتب ضوئيًا، وهو مشروع Google Books، وبالتالي ستشارك Google في إطلاق “هذا الكنز الدفين على نطاق واسع”.
أثارت جامعة هارفارد لأول مرة مبادرة البيانات المؤسسية (IDI) مرة أخرى في مارس، موضحًا خططها لإنشاء “قناة موثوقة للبيانات القانونية للذكاء الاصطناعي”. ومع ذلك، لم يسمع الكثير منه حتى صدوره الإطلاق الرسمي اليوم، والذي جاء مع التأكيد على أن IDI يتضمن دعمًا ماليًا من Microsoft وOpenAI.
المدير التنفيذي لـ IDI جريج ليبيرت يقول إن مجموعة البيانات مصممة لتحقيق “تكافؤ الفرص” من خلال فتح مجموعة البيانات الضخمة هذه لأي شخص – بدءًا من مختبرات الأبحاث وحتى شركات الذكاء الاصطناعي الناشئة – الذي يرغب في تدريب نماذجه اللغوية الكبيرة (LLMs).
أحدث الأخبار
- قصة يونس عليه السلام: عبرة عظيمة في الصبر والدعاء من بطن الحوت
- أفضل دعاء لنفسي تغير الافضل مجرب | أدعية للتغيير الإيجابي وراحة البال
- رسوم دلة لتعليم القيادة للنساء: لأحدث أسعار الدورات 2025
- متى يجلس الطفل لأول مرة؟ اكتشف مراحل تطور قدرة الطفل على الجلوس
- كيفية الاشتراك في خدمة سوا من الراجحي
- كل ما تحتاج معرفته قبل استخدام تمويل تمارا في السعودية
- أسرار لزيادة التفاعل على انستغرام..كل ما يخص انستغرام
- هل قانون الزواج الجديد في الجزائر 2025 سيقلب الموازين فعلًا؟
- ما هو الفن التشكيلي المعاصر وفيما يستخدم؟
- لن تحتار…خطوات بسيطة وسهلة لانشاء حساب جيميل gmail