ظهر Datagen من التخفي لإنشاء مجموعات بيانات اصطناعية لنماذج رؤية الكمبيوتر

22

انضم إلى Transform 2021 للتعرف على أهم الموضوعات في الذكاء الاصطناعي والبيانات الخاصة بالمؤسسة. يتعلم أكثر.


Datagen ، شركة ناشئة في تل أبيب ، إسرائيل تقدم منصة لإنشاء بيانات تدريب على نظام رؤية الكمبيوتر الاصطناعية ، ظهرت اليوم من التخفي بتمويل قدره 18.5 مليون دولار من TLV Partners وفيولا فنتشرز. تقول الشركة إن العائدات ستُخصص لتنمية معمل البحث والتطوير الخاص بها أثناء توسعها في أسواق جديدة على مستوى العالم.

Datagen ، التي أسسها Ofir Chakon و Gil Elbaz في عام 2018 ، تعزز رسومات الكمبيوتر إنشاء البيانات لمحاكاة العالم الحقيقي باستخدام مجموعات البيانات التي تتضمن تعليقات توضيحية ثنائية وثلاثية الأبعاد. من خلال الجمع بين شبكات الخصومة التوليدية (GANs) وخوارزميات الحركة البشرية المدعومة بالتعلم المعزز داخل جهاز محاكاة مادي ، تقول Datagen إنها يمكن أن تقدم مجموعات بيانات واقعية وقابلة للتطوير ومناسبة للواقع المعزز والافتراضي ، وإنترنت الأشياء ، والمتجر الذكي ، والروبوتات ، واستخدام السيارات الذكية

شبكات GAN هي نماذج ذكاء اصطناعي مكونة من جزأين تتكون من مولد يقوم بإنشاء عينات ومميز يحاول التفريق بين العينات التي تم إنشاؤها وعينات العالم الحقيقي. أما بالنسبة للتعلم المعزز ، فهو أسلوب يسمح لنماذج الذكاء الاصطناعي بتعلم كيفية اتخاذ القرارات تلقائيًا من خلال التجربة والخطأ.

جمع بيانات التدريب ووضع العلامات عليها يمكن أن يكون مكلفًا للمؤسسات. على سبيل المثال ، تنفق شركات المركبات ذاتية القيادة وحدها مليارات الدولارات سنويًا في جمع بيانات التدريب ووضع العلامات عليها ، وفقًا للتقديرات.

يقوم متعاقدو الجهات الخارجية بتجنيد مئات الآلاف من واضعي البيانات البشرية لرسم التعليقات التوضيحية وتتبعها ، تحتاج نماذج التعلم الآلي إلى التعلم. (توفر مجموعة البيانات المصنفة بشكل صحيح حقيقة أساسية تستخدمها النماذج للتحقق من تنبؤاتها من أجل الدقة ومواصلة تحسين خوارزمياتها.) يصبح تنظيم مجموعات البيانات هذه لتضمين التوزيع الصحيح وتكرار العينات أكثر صعوبة مع زيادة متطلبات الأداء. وقد أكد الوباء على مدى ضعف هذه الممارسات ، حيث تم إجبار المقاولين بشكل متزايد على العمل من المنزل ، مما دفع بعض الشركات إلى اللجوء إلى البيانات التركيبية كبديل. بيانات التدريب ، تعمل Datagen مع العملاء لإنشاء متطلبات مثل مواصفات عدسة الكاميرا والإضاءة والعوامل البيئية والتوزيعات الديموغرافية والشروح والبيانات الوصفية. تبدأ العملية بنماذج أساسية ثلاثية الأبعاد للأشخاص والكائنات التي تم مسحها ضوئيًا من العالم الحقيقي أو مصممة باستخدام برامج رسومات الكمبيوتر. تقوم منصة Datagen بإنشاء تمثيلات لهذه النماذج مع الشبكات والأنسجة بالإضافة إلى البيانات الوصفية الدلالية. أخيرًا ، تستخدم Datagen شبكات GAN لأخذ عينات من هذه التمثيلات وتوليف نماذج فريدة ، وبناء مكتبات من ملايين الأصول ثلاثية الأبعاد التي تخضع بعد ذلك لخوارزميات قائمة على الفيزياء تحاكي الحركة وتساعد على قياس العرض.

DataGen synthetic hands

أعلاه: الأيدي الاصطناعية التي تم إنشاؤها باستخدام منصة Datagen.

حقوق الصورة: DataGen

على سبيل المثال ، تقول Datagen أن نظامها الأساسي يمكنه التقاط البيانات اليدوية التي يمكن أن تعزز التفاعلات القائمة على الإيماءات مع سماعات. بالإضافة إلى إنشاء الشبكات والنماذج الهيكلية لمجموعة من الأيدي البشرية ، تدعي الشركة أن تقنيتها يمكن أن تحاكي بدقة التفاعلات الواقعية بين اليد واليد واليد.

قال تشكون لموقع VentureBeat عبر البريد الإلكتروني: “الرؤية الحاسوبية يمكن أن تكون أداة رائعة لاكتشاف العيوب والمخاطر – أشياء مثل الأخطاء في خط التجميع أو الصدأ أو الشقوق التي تهدد السلامة الهيكلية للمبنى”. “يمكن للبيانات المحاكية زيادة قوة هذا التطبيق عن طريق محاكاة الحالات القصوى التي قد يكون من الخطير التقاطها يدويًا في مجموعة بيانات أو نادرة للغاية. كما يسمح للمؤسسات بإنشاء اختلافات بيئية لتعزيز الأداء ، مثل ظروف الإضاءة المختلفة أو الملحقات الآلية أو الأدوات. ”

من المتوقع أن تبلغ قيمة سوق مجموعة بيانات التدريب على الذكاء الاصطناعي 4.8 مليار دولار بحلول 2027 ، وفقًا لـ Grand View Research ، و Datagen لديها منافسون في عدد من الشركات الناشئة. يستخدم Parallel Domain أيضًا الذكاء الاصطناعي والتعلم الآلي لإنشاء مجموعات بيانات رؤية الكمبيوتر الاصطناعية. هناك أيضًا Cvedia و AI Reverie ، وكلاهما يعملان على تطوير محاكيات تستهدف التطبيقات عبر توليد البيانات ، ووضع العلامات ، والتحسين.

ومع ذلك ، على عكس العديد من منافسيها ، فإن أحد تركيز Datagen هو الإجمالية. يشير شاكون إلى أنه بحلول عام 2023 ، تقدر مؤسسة جارتنر أن 65٪ من سكان العالم ستتم حماية بياناتهم بموجب قوانين ولوائح الخصوصية. هذا يجعل جمع بيانات تدريب الذكاء الاصطناعي في العالم الحقيقي أقل وضوحًا والبديل – مجموعات البيانات التركيبية التي لا تكتسح البيانات مثل الوجوه أو لوحات الترخيص – أكثر جاذبية.

” العديد من المنتجات الجديدة التي لم يتم إنتاجها بعد – الأجهزة الذكية والروبوتات والمزيد – سيكون لها أنواع وتوجهات محددة من الكاميرات. في كثير من الحالات ، يعني هذا أن مجموعات البيانات يجب أن تعكس الفروق الدقيقة المحددة لتلك الأجهزة حتى تكون فعالة “، تابع شاكون. “ولكن ، إذا لم تكن الأجهزة في أيدي المستهلكين أو كانت شديدة السرية ، فقد يكون من المستحيل جمع البيانات التي تحتاجها بكفاءة. يمكن للبيانات المحاكاة محاكاة هذه المواصفات ، مما يسمح للفرق بتطوير حلول برمجية متوافقة تمامًا مع الأجهزة التي لا تزال قيد التطوير. ”

بالطبع ، البيانات التركيبية ليست حلاً سحريًا في غياب بيانات العالم الحقيقي. على سبيل المثال ، في مجال المركبات المستقلة ، يمكن أن تساعد عمليات المحاكاة وتشغيل المركبات على طرق الاختبار في إثبات أن السيارات تلبي احتياجات الامتثال المحددة. لكن الطرق العامة تقدم ديناميكيات معقدة في العالم الحقيقي لا تستطيع حتى أفضل المحاكيات تقديمها باستمرار ، بما في ذلك الظروف الجوية المختلفة ومجموعة من سلوكيات المشاة والسائقين.

لهذا السبب شاكون ينصح عملاء Datagen ، الذين يشملون أذرع أبحاث الذكاء الاصطناعي للعديد من عمالقة التصنيع ، بأن مزيجًا من البيانات الاصطناعية وبيانات العالم الحقيقي هو أفضل نهج. قال: “المعنى الضمني في العالم الحقيقي هو أنه بمجرد نشره ، يمكنك التأكد من أنه سيعمل بشكل جيد في مجالات مختلفة ، مع أعراق مختلفة ، في مواقع جغرافية مختلفة ، أو أي بيئة يمكنك تخيلها”.

شارك المستثمر الحالي Spider Capital في أول جولة عامة لجمع التبرعات لشركة Datagen التي تضم 40 موظفًا والتي تم الإعلان عنها اليوم ، بالإضافة إلى المستثمرين الأفراد الرئيس التنفيذي لشركة Kaggle أنتوني جولدبلوم ومؤسس UC Berkeley AI Research Lab Trevor Darrell.

    • VentureBeat

    • تتمثل مهمة VentureBeat في أن تكون ساحة رقمية لصناع القرار التقنيين لاكتساب المعرفة حول التكنولوجيا التحويلية والمعاملات. يقدم موقعنا معلومات أساسية حول تقنيات واستراتيجيات البيانات لإرشادك وأنت تقود مؤسساتك. ندعوك لتصبح عضوًا في مجتمعنا ، للوصول إلى