Microsoftന്റെ വിഷ്വൽ ChatGPTയെ കുറിച്ച് നിങ്ങൾ അറിയേണ്ടതെല്ലാം!

Updated on 14-Mar-2023
HIGHLIGHTS

വിഷ്വല്‍ ChatGPT പുറത്തിറക്കി മൈക്രോസോഫ്റ്റ്

വിഷ്വൽ ചാറ്റ്‌ജിപിടിക്ക് ടെക്‌സ്‌റ്റും ചിത്രങ്ങളും കൈമാറാനും സ്വീകരിക്കാനും കഴിയും

ഒന്നിലധികം വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകൾ ഉൾക്കൊള്ളുന്നതാണ് വിഷ്വൽ ChatGPT

ട്രാൻസ്‌ഫോർമറുകൾ, കൺട്രോൾ നെറ്റ്, സ്റ്റേബിൾ ഡിഫ്യൂഷൻ തുടങ്ങിയ വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകളെ (VFM) ചാറ്റ്‌ജിപിടിയുമായി ലയിപ്പിക്കുന്ന വിഷ്വൽ ചാറ്റ്‌ജിപിടി എന്ന പുതിയ മോഡൽ മൈക്രോസോഫ്റ്റ് പുറത്തിറക്കി. ഈ മോഡൽ ഭാഷയ്‌ക്കപ്പുറം ഇടപെടാൻ അനുവദിക്കുകയും ChatGPT യുടെ കഴിവുകൾ വികസിപ്പിക്കുകയും ചെയ്യുന്നു. വിവിധ മേഖലകളിലുടനീളമുള്ള അസാധാരണമായ സംഭാഷണ കഴിവുകൾക്കും യുക്തിസഹമായ കഴിവുകൾക്കും ChatGPT ഇന്റർ ഡിസിപ്ലിനറി താൽപ്പര്യം നേടിയിട്ടുണ്ട്, ഇത് ഒരു ഭാഷാ ഇന്റർഫേസിന്റെ മികച്ച തിരഞ്ഞെടുപ്പാക്കി മാറ്റുന്നു.

ChatGPTയുടെ വിഷ്വൽ വേർഷൻ

എന്നിരുന്നാലും, അതിന്റെ ഭാഷാപരമായ പരിശീലനം ദൃശ്യ പരിതസ്ഥിതിയിൽ നിന്ന് ചിത്രങ്ങൾ പ്രോസസ്സ് ചെയ്യുന്നതിനോ നിർമ്മിക്കുന്നതിനോ തടയുന്നു. അതേസമയം, വിഷ്വൽ ട്രാൻസ്‌ഫോമറുകൾ അല്ലെങ്കിൽ സ്റ്റേബിൾ ഡിഫ്യൂഷൻ പോലുള്ള വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകൾ ഒരു റൗണ്ട് ഫിക്സഡ് ഇൻപുട്ടുകളും ഔട്ട്‌പുട്ടുകളും ഉള്ള ടാസ്‌ക്കുകളിൽ മികവ് പുലർത്തുന്നു, ശ്രദ്ധേയമായ വിഷ്വൽ കോംപ്രഹെൻഷനും ജനറേറ്റിംഗ് കഴിവുകളും കാണിക്കുന്നു. ഈ രണ്ട് മോഡലുകളും സംയോജിപ്പിക്കുന്നത് ഭാഷയ്ക്ക് അതീതമായ വിഷ്വൽ ഇൻപുട്ടുകൾ പ്രോസസ്സ് ചെയ്യാനും സൃഷ്ടിക്കാനുമുള്ള കഴിവുള്ള വിഷ്വൽ ചാറ്റ്ജിപിടി (Visual ChatGPT) പോലുള്ള ഒരു പുതിയ മോഡലിലേക്ക് നയിക്കും.

മൈക്രോസോഫ്റ്റ് ഗവേഷകർ ഒന്നിലധികം വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകൾ ഉൾക്കൊള്ളുന്ന വിഷ്വൽ ചാറ്റ്ജിപിടി (Visual ChatGPT) എന്നറിയപ്പെടുന്ന ഒരു സിസ്റ്റം സൃഷ്ടിച്ചു, കൂടാതെ ഗ്രാഫിക്കൽ യൂസർ ഇന്റർഫേസുകളിലൂടെ ചാറ്റ്ജിപിടിയുമായി ആശയവിനിമയം നടത്താൻ ഉപയോക്താക്കളെ അനുവദിക്കുന്നു. സിസ്റ്റത്തിന്റെ കഴിവുകളിൽ ഇവ ഉൾപ്പെടുന്നു. വിഷ്വൽ ചാറ്റ്‌ജിപിടി (Visual ChatGPT)ക്ക് ടെക്‌സ്‌റ്റ് മാത്രമല്ല ചിത്രങ്ങളും കൈമാറാനും സ്വീകരിക്കാനും കഴിയും.

വിവിധ ഘട്ടങ്ങളിലായി ഒന്നിലധികം AI മോഡലുകളുടെ സഹകരണം ആവശ്യമുള്ള സങ്കീർണ്ണമായ ദൃശ്യ അന്വേഷണങ്ങളോ എഡിറ്റിംഗ് നിർദ്ദേശങ്ങളോ കൈകാര്യം ചെയ്യാൻ വിഷ്വൽ ചാറ്റ്ജിപിടി (Visual ChatGPT) ക്ക് കഴിയും. ഒന്നിലധികം ഇൻപുട്ടുകൾ/ഔട്ട്‌പുട്ടുകൾ ഉള്ള മോഡലുകളും വിഷ്വൽ ഫീഡ്‌ബാക്ക് ആവശ്യമുള്ളവയും ഉൾക്കൊള്ളാൻ വിഷ്വൽ മോഡൽ വിവരങ്ങൾ ChatGPT-ലേക്ക് സംയോജിപ്പിക്കുന്ന ഒരു കൂട്ടം നിർദ്ദേശങ്ങൾ ഗവേഷകർ സൃഷ്ടിച്ചു. വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകൾ ഉപയോഗിച്ച് ചാറ്റ്ജിപിടി(ChatGPT)യുടെ വിഷ്വൽ കഴിവുകൾ പര്യവേക്ഷണം ചെയ്യാൻ വിഷ്വൽ ചാറ്റ്ജിപിടി (Visual ChatGPT)  പ്രാപ്തമാക്കുന്നുവെന്ന് പരിശോധനയിലൂടെ കണ്ടെത്തി

എന്നിരുന്നാലും, വിഷ്വൽ ഫൗണ്ടേഷൻ മോഡലുകളുടെ (VFM) പരാജയവും പ്രോംപ്റ്റുകളുടെ വ്യതിയാനവും കാരണം പൊരുത്തമില്ലാത്ത ജനറേഷൻ ഫലങ്ങൾ ഉൾപ്പെടെ, ഗവേഷകർ അവരുടെ ജോലിയിൽ ആശങ്കാകുലരായ മേഖലകൾ തിരിച്ചറിഞ്ഞു. എക്‌സിക്യൂഷൻ ഔട്ട്‌പുട്ടുകൾ മാനുഷിക ഉദ്ദേശ്യങ്ങളുമായി പൊരുത്തപ്പെടുന്നുണ്ടെന്ന് ഉറപ്പാക്കാനും ആവശ്യമായ ക്രമീകരണങ്ങൾ വരുത്താനും സ്വയം തിരുത്തൽ ഘടകം ആവശ്യമാണെന്ന് അവർ നിഗമനം ചെയ്തു. എന്നിരുന്നാലും, നിരന്തരമായ കോഴ്‌സ് തിരുത്തൽ കാരണം അത്തരമൊരു മൊഡ്യൂൾ ഉൾപ്പെടുത്തുന്നത് മോഡലിന്റെ അനുമാന സമയം വർദ്ധിപ്പിക്കും. ഭാവി പഠനത്തിൽ ഈ വിഷയം കൂടുതൽ അന്വേഷിക്കാൻ സംഘം പദ്ധതിയിടുന്നു.

 

Connect On :