main-post-cover

    Microsoft şirkəti mətnli təsvir vasitəsilə rəsm çəkməyi bacaran alqoritm yaratdı

    Digər
    Code-News
    21.06.2019
    Emil Nəcəfov


        Microsoft Research-dən olan tədqiqatçılar mətn təsviri vasitəsilə qəliz rəsmlərin çəkilməsini bacaran neyroşəbəkə yaradıblar. Baza obyektlərin yalnız vizuallığını generasiya etməyi bacaran digər text-to-image alqoritmlərindən fərqli olaraq bu yeni alqoritm rəsmin eyni anda bir neçə elementinin təsvirini anlaya bilir. Bu barədə 4pda saytı xəbər verib. Bu cür alqoritmin yaradılmasının əsas qəliz tərəfi ondan ibarət idi ki, daha əvvəllər neyroşəbəkə baza obyektləri mətnli təsvirlər sayəsində yüksək keyfiyyətdə yarada bilmirdi və bir kompozisiya çərçivəsində bir neçə obyektin bir-birinə aidiyyatını analiz edə bilmirdi.

        Məsələn “Dəbilqəli qadın at üzərində oturub” tərz mətnli təsvirin rəsmini yaratmaq üçün neyroşəbəkə hər bir obyektin bir-birinə necə aid olduğunu semantik şəkildə anlamalı idi. Microsoft tərtibatçıları sözügedən neyroşəbəkəni özündə 1.5 milyondan çox obyektin işarələrini və seqmentasiya məlumatlarını birləşdirən COCO adlı open-source data-set vasitəsilə təlimatlandıraraq bu problemi aradan qaldırıblar. Yaradılmış yeni alqoritmin əsasını ObjGAN adlı neyroşəbəkə təşkil edir.

        Həmin neyroşəbəkə mətni analiz edərək rəsmə yerləşdirilməsi lazım olan obyektlərə aid sözləri həmin mətndən çıxardır. Bir təsviri və bir diskriminatoru yaradan bir generatorlu adi generativ şəbəkədən fərqli olaraq ObjGAN iki müxtəlif diskriminatoru özündə birləşdirir. Onlardan biri varolan obyektlərin reallığını və həmin obyektlərin mətnli təsvirlərdəki ilə eyni olub-olmamasını yoxlayır, ikincisi isə bütün kompozisiyanın nə dərəcədə realistik olduğunu və onun mətnli təsvirdəki ilə eyni olub-olmamasını yoxlayır. Bu texnologiya vasitəsilə dizaynerlər və rəssamlar mətnli təsvirləri sürətli şəkildə eskizlərə çevirə bilərlər.
    Linki kopyala