ട്രാൻസ്ഫോർമറുകൾ, കൺട്രോൾ നെറ്റ്, സ്റ്റേബിൾ ഡിഫ്യൂഷൻ തുടങ്ങിയ വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകളെ (VFM) ചാറ്റ്ജിപിടിയുമായി ലയിപ്പിക്കുന്ന വിഷ്വൽ ചാറ്റ്ജിപിടി എന്ന പുതിയ മോഡൽ മൈക്രോസോഫ്റ്റ് പുറത്തിറക്കി. ഈ മോഡൽ ഭാഷയ്ക്കപ്പുറം ഇടപെടാൻ അനുവദിക്കുകയും ChatGPT യുടെ കഴിവുകൾ വികസിപ്പിക്കുകയും ചെയ്യുന്നു. വിവിധ മേഖലകളിലുടനീളമുള്ള അസാധാരണമായ സംഭാഷണ കഴിവുകൾക്കും യുക്തിസഹമായ കഴിവുകൾക്കും ChatGPT ഇന്റർ ഡിസിപ്ലിനറി താൽപ്പര്യം നേടിയിട്ടുണ്ട്, ഇത് ഒരു ഭാഷാ ഇന്റർഫേസിന്റെ മികച്ച തിരഞ്ഞെടുപ്പാക്കി മാറ്റുന്നു.
എന്നിരുന്നാലും, അതിന്റെ ഭാഷാപരമായ പരിശീലനം ദൃശ്യ പരിതസ്ഥിതിയിൽ നിന്ന് ചിത്രങ്ങൾ പ്രോസസ്സ് ചെയ്യുന്നതിനോ നിർമ്മിക്കുന്നതിനോ തടയുന്നു. അതേസമയം, വിഷ്വൽ ട്രാൻസ്ഫോമറുകൾ അല്ലെങ്കിൽ സ്റ്റേബിൾ ഡിഫ്യൂഷൻ പോലുള്ള വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകൾ ഒരു റൗണ്ട് ഫിക്സഡ് ഇൻപുട്ടുകളും ഔട്ട്പുട്ടുകളും ഉള്ള ടാസ്ക്കുകളിൽ മികവ് പുലർത്തുന്നു, ശ്രദ്ധേയമായ വിഷ്വൽ കോംപ്രഹെൻഷനും ജനറേറ്റിംഗ് കഴിവുകളും കാണിക്കുന്നു. ഈ രണ്ട് മോഡലുകളും സംയോജിപ്പിക്കുന്നത് ഭാഷയ്ക്ക് അതീതമായ വിഷ്വൽ ഇൻപുട്ടുകൾ പ്രോസസ്സ് ചെയ്യാനും സൃഷ്ടിക്കാനുമുള്ള കഴിവുള്ള വിഷ്വൽ ചാറ്റ്ജിപിടി (Visual ChatGPT) പോലുള്ള ഒരു പുതിയ മോഡലിലേക്ക് നയിക്കും.
മൈക്രോസോഫ്റ്റ് ഗവേഷകർ ഒന്നിലധികം വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകൾ ഉൾക്കൊള്ളുന്ന വിഷ്വൽ ചാറ്റ്ജിപിടി (Visual ChatGPT) എന്നറിയപ്പെടുന്ന ഒരു സിസ്റ്റം സൃഷ്ടിച്ചു, കൂടാതെ ഗ്രാഫിക്കൽ യൂസർ ഇന്റർഫേസുകളിലൂടെ ചാറ്റ്ജിപിടിയുമായി ആശയവിനിമയം നടത്താൻ ഉപയോക്താക്കളെ അനുവദിക്കുന്നു. സിസ്റ്റത്തിന്റെ കഴിവുകളിൽ ഇവ ഉൾപ്പെടുന്നു. വിഷ്വൽ ചാറ്റ്ജിപിടി (Visual ChatGPT)ക്ക് ടെക്സ്റ്റ് മാത്രമല്ല ചിത്രങ്ങളും കൈമാറാനും സ്വീകരിക്കാനും കഴിയും.
വിവിധ ഘട്ടങ്ങളിലായി ഒന്നിലധികം AI മോഡലുകളുടെ സഹകരണം ആവശ്യമുള്ള സങ്കീർണ്ണമായ ദൃശ്യ അന്വേഷണങ്ങളോ എഡിറ്റിംഗ് നിർദ്ദേശങ്ങളോ കൈകാര്യം ചെയ്യാൻ വിഷ്വൽ ചാറ്റ്ജിപിടി (Visual ChatGPT) ക്ക് കഴിയും. ഒന്നിലധികം ഇൻപുട്ടുകൾ/ഔട്ട്പുട്ടുകൾ ഉള്ള മോഡലുകളും വിഷ്വൽ ഫീഡ്ബാക്ക് ആവശ്യമുള്ളവയും ഉൾക്കൊള്ളാൻ വിഷ്വൽ മോഡൽ വിവരങ്ങൾ ChatGPT-ലേക്ക് സംയോജിപ്പിക്കുന്ന ഒരു കൂട്ടം നിർദ്ദേശങ്ങൾ ഗവേഷകർ സൃഷ്ടിച്ചു. വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകൾ ഉപയോഗിച്ച് ചാറ്റ്ജിപിടി(ChatGPT)യുടെ വിഷ്വൽ കഴിവുകൾ പര്യവേക്ഷണം ചെയ്യാൻ വിഷ്വൽ ചാറ്റ്ജിപിടി (Visual ChatGPT) പ്രാപ്തമാക്കുന്നുവെന്ന് പരിശോധനയിലൂടെ കണ്ടെത്തി
എന്നിരുന്നാലും, വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകളുടെ (VFM) പരാജയവും പ്രോംപ്റ്റുകളുടെ വ്യതിയാനവും കാരണം പൊരുത്തമില്ലാത്ത ജനറേഷൻ ഫലങ്ങൾ ഉൾപ്പെടെ, ഗവേഷകർ അവരുടെ ജോലിയിൽ ആശങ്കാകുലരായ മേഖലകൾ തിരിച്ചറിഞ്ഞു. എക്സിക്യൂഷൻ ഔട്ട്പുട്ടുകൾ മാനുഷിക ഉദ്ദേശ്യങ്ങളുമായി പൊരുത്തപ്പെടുന്നുണ്ടെന്ന് ഉറപ്പാക്കാനും ആവശ്യമായ ക്രമീകരണങ്ങൾ വരുത്താനും സ്വയം തിരുത്തൽ ഘടകം ആവശ്യമാണെന്ന് അവർ നിഗമനം ചെയ്തു. എന്നിരുന്നാലും, നിരന്തരമായ കോഴ്സ് തിരുത്തൽ കാരണം അത്തരമൊരു മൊഡ്യൂൾ ഉൾപ്പെടുത്തുന്നത് മോഡലിന്റെ അനുമാന സമയം വർദ്ധിപ്പിക്കും. ഭാവി പഠനത്തിൽ ഈ വിഷയം കൂടുതൽ അന്വേഷിക്കാൻ സംഘം പദ്ധതിയിടുന്നു.