От EPFL нов мултимодален модел за по-гъвкав AI

Може да се учи от текст, изображения, видео и звук и, благодарение на модулността, създава произволен брой или комбинация от прогнози

Машинно обучение: нов мултимодален модел за по-гъвкав AI от EPFL
От EPFL нов мултимодален модел за по-гъвкав AI (Снимка: Brian Penny/Pixabay)

Независимо дали говорим за OpenAI или ChatGPT, по-голямата част от чатботовете генеративен изкуствен интелект са базирани на т.нар Голям езиков модел (LLM), модели на дълбоко учене в голям мащаб, обучени да дават отговори на въпроси, зададени им чрез научаване на информация чрез големи количества текст.

Последната граница наГенеративен AI аз ли съм мултимодални модели, които комбинират езиково разбиране и изображения, видео и аудио, за да предложат още по-модерно изживяване и услуга.

Създаването им обаче представлява няколко предизвикателства, особено ако намерението е да се изградят мултимодални модели в малък мащаб: честото наличие на липсващи данни поради липса на информация, почти винаги поради частична наличност на ресурси.

Накратко, рискът е моделът да се учи на базата на липса и изчисленията и прогнозите да бъдат изкривени. И това е мястото, където EPFL започна с новия си проект.

От Техническия университет в Лозана и Цюрих коалиция за зелена енергия
В 3D технологичната ръкавица, която ще направи виртуалната реалност осезаема

Machine Learning
Кампусът на Федералната политехника в Лозана (Снимка: Facebook/EFPL)

MultiModN, модулният мултимодален модел, роден в Лозана

Изследователите на Федерална политехника в Лозана (EPFL), един от най-добрите университети в света по отношение на инженерството и информационните технологии, всъщност са се развили MultiModN, уникален модулен мултимодален модел, наскоро представен на NeurIPS2023.

Изследователи от лабораториите за машинно обучение за образование (ML4ED) и машинно обучение и оптимизация (MLO) в Училището по компютърни науки и комуникация на EPFL решиха да разработят и тестват точно обратното на голям, но мислят в по-малък мащаб.

Водени от учителя Мери-Ан Хартли, директор на Лабораторията за глобални интелигентни здравни технологии, домакинствана съвместно в MLO и Yale School of Medicine, и професор Таня Кесер, директор на ML4ED, екипът създаде мултимодален модел, който може да се учи от текст, изображения, видеоклипове и звуци, но който, за разлика от съществуващите, се състои от променлив брой по-малки модули, автономни и специфични за входа.

Последните могат да бъдат избрани въз основа на наличната информация и след това да бъдат събрани в последователност от произволен брой, комбинация или тип вход. Следователно може да създаде произволен брой или комбинация от прогнози.

"Ние оценихме MultiModN в десет реални дейности, включително поддръжка за медицинска диагностика, прогнозиране на академичните резултати и прогнозиране на времето,” обясни той Винитра Свами, докторант в ML4ED и MLO и първи съавтор на проекта.

„Чрез тези експерименти ние вярваме, че MultiModN е първият присъщо интерпретируем и устойчив на липсващи данни подход за мултимодално моделиране".

„Рецептата“ на EPFL за по-мощни квантови компютри
От изкуствения интелект решителен тласък към криптовалутите?

Machine Learning
Училището по компютърни науки и комуникация EPFL (Снимка: Facebook/EPFL IC)

Първият случай на употреба: клинични решения за медицински персонал

Първият случай на използване на MultiModN ще бъде като система за поддръжка на клинични решения за медицински персонал в условия с ограничени ресурси.

В сектора на здравеопазването всъщност често липсват клинични данни, може би поради ограничени ресурси (пациентът не може да си позволи специфичен тест) или, обратно, поради изобилие от ресурси и информация. MultiModN е в състояние да се учи от тези данни от реалния свят, без да абсорбира техните така наречени отклонения, и да адаптира прогнозите към всяка комбинация или брой входове.

"Липсващите данни са отличителен белег в контексти с ограничени ресурси и докато моделите научават тези липсващи модели, те могат да кодират грешки в своите прогнози,” посочи той Мери-Ан Хартли.

„Нуждата от гъвкавост в лицето на непредсказуемо наличните ресурси е това, което вдъхнови MultiModN".

Във водещо събитие въздействието на AI и машинното обучение върху услугите
Всички причини за нарастващото влияние на AI в дигиталното изкуство

Machine Learning
Лаборатория за анализ (Снимка: Michal Jarmoluk/Pixabay)

От лабораторията към реалния живот: в ход е опит за пневмония и туберкулоза

Публикацията обаче е само първата стъпка към внедряване и полеви тестове. Професор Хартли работи с колеги от Университетската болница в Лозана (CHUV) и Inselspital, Университетската болница в Берн, за провеждане клинични проучвания се фокусира върху диагностицирането на пневмония и туберкулоза в условия с ограничени ресурси и е в процес на набиране на хиляди пациенти Sud Африка, Танзания, Намибия e Бенин.

Изследователските групи предприеха обширна инициатива за обучение, преподаване повече от 100 лекари за систематично събиране на мултимодални данни, включително ултразвукови изображения и видеоклипове, така че MultiModN да може да бъде обучен да бъде чувствителен към реални данни от региони с ниски ресурси.

„Ние събираме точно вида сложни мултимодални данни, които MultiModN е предназначен да обработва“, каза лекарят Ноеми Буала-Бланко, инфекционист в ЧУВ.

„Развълнувани сме да видим модел, който може да оцени сложността на липсващите ресурси в нашия контекст и системната липса на рутинни клинични оценки", допълни лекарят Кристина Кайтел на Inselspital, университетската болница в швейцарската столица.

Безопасността на AI? Изявлението на Блечли Парк е от решаващо значение
Axel Springer-OpenAI ос за AI в услуга на журналистиката

Иновацията на EPFL е предназначена да подобри вземането на клинични решения чрез предоставяне на достъп до специализирани медицински знания (Снимка: Irwan/Unsplash)

Машинно обучение в услуга на общественото благо

Разработването и обучението на MultiModN представлява продължение на усилията на EPFL за адаптиране на инструментите за машинно обучение към реалността и за общественото благо и идва малко след стартирането на Медитрон, модел с изкуствен интелект, специално проектиран за медицинския сектор.

Meditron също принадлежи към категорията на големите езикови модели (LLM), но за разлика от общите модели, които обслужват широк спектър от задачи, той е фокусиран върху медицинска област, и е по-компактен като размер, но също толкова ефективен.

Целта на Медитрон е да демократизиране на достъпа до медицинска информация с високо качество, като по този начин подпомага клиничните решения.

Изследователите на EPFL разработиха две версии със 7 милиарда и 70 милиарда параметъра съответно и моделите бяха обучени върху подбрани, висококачествени източници на медицински данни, включително рецензирана научна литература и различни клинични насоки, осигурявайки широка и точна база от знания.

И Meditron, представен през ноември 2023 г., и MultiModN следователно са в съответствие с мисията на новия AI център на EPFL, който се фокусира върху това как отговорният и ефективен изкуствен интелект може да насърчи технологичните иновации в полза на всички сектори на обществото.

Революционните сензори, които могат да спестят милиони батерии
AI: войната, която е на път да избухне, няма да бъде такава, каквато очакваме...

Машинно обучение: нов мултимодален модел за по-гъвкав AI от EPFL
Екстериорът на кампуса на EPFL с логото на Федералната политехника на Лозана (Снимка: Facebook/EFPL IC)