Czołowi twórcy sztucznej inteligencji, tacy jak Microsoft, rozwijają ją nie dla samego rozwoju, ale po to, by służyła ludzkości i Ziemi w rozwiązywaniu istotnych problemów. Od lat pomaga naukowcom w wynajdywaniu szczepionek, opracowywaniu leków i nie tylko. Nic więc dziwnego, że teraz AI została zaprzęgnięta do badań nad koronawirusem. W jaki sposób?
Machine Reading Comprehension (MRC) to specyficzna umiejętność sztucznej inteligencji do przyswajania wiedzy osadzonej w różnego typu źródłach. Innymi słowy jest to zdolność do wyciągania informacji, przydatna czy wręcz niezbędna w wielu realnych scenariuszach. Nie ma naukowca, który mógłby przyswajać całą aktualną wiedzę ze swojej dziedziny, na przykład czytając tysiące artykułów naukowych rocznie i zapamiętując je wszystkie. Zwyczajnie nie starczyłoby na to mocy przerobowej. Takiego problemu nie ma jednak sztuczna inteligencja. Może ona przyswajać ogromne ilości danych z różnych źródeł (również czytając ze zrozumieniem książki i artykuły), zapamiętać je, analizować i zwracać na życzenie człowieka, np. odpowiadając na pytania.
W przyszłości MCR będzie pomagać lekarzom w przeszukiwaniu tysięcy dokumentów, co znacznie przyspieszy pracę służby zdrowia i rozwinie jej wydajność. Już teraz jednak widzimy pewne osiągnięcia na tym polu. Poinformował o nich Microsoft, który wspólnie z National Library of Medicine (NLM), Allen Institute for AI, Georgetown University, Chan Zuckerberg Initiative, Kaggle oraz White House Office of Science and Technology Policy (OSTP) utworzył COVID-19 Open Research Dataset (CORD-19). Jest to zbiór artykułów naukowych dotyczących grupy koronawirusów, przeznaczony do użytku przez światową społeczność badaczy.
CORD-19 zawiera ponad 29 tysięcy artykułów naukowych traktujących zarówno o COVID-19, jak i szerszej rodzinie koronawirusów. Udostępnia pełny tekst ponad 13 tysięcy z tych artykułów. Dataset został zaprojektowany tak, by mógł być czytany maszynowo i dostępny dla narzędzi AI w celach analizy i wyciągania danych. Ma on służyć stymulowaniu postępów w metodach obliczeniowych, które pomagają badaczom rozwijać głębsze zrozumienie i metody radzenia sobie z pandemią COVID-19.
Rozwijanie narzędzi, które pomagają naukowcom w robieniu badań i syntezowaniu nowych wglądów, było i jest długoterminową aspiracją dla AI. Przez lata trwały prace nad metodami, które pozwalają odpowiadać na pytania, analizować i podsumowywać treści z wielu artykułów naukowych, szacować wiarygodność testów klinicznych, generować i testować hipotezy oraz prowadzić eksperymenty. Przykładem wcześniejszej pracy nad machine readingiem w biomedycynie jest to, jak badacze z Microsoft eksplorowali użycie analizy języka naturalnego w machine learningu, by analizować tysiące artykułów biomedycznych [projekt Literome], aby skonstruować reprezentację sieci regulujących komórki i użyć jej do generowania zaleceń terapii nowotworowych.
— Eric Horvitz, Technical Fellow i Chief Scientific Officer w Microsoft
Wkład Microsoftu w CORD-19 polegał na indeksowaniu i mapowaniu tysięcy artykułów z całego świata. Gigant będzie kontynuował indeksowanie, by zapewnić społeczności badaczy stale aktualną bazę wiedzy na temat koronawirusa. Ostatecznym celem tych wysiłków jest oczywiście zwalczenie pandemii. Zebrane tu doświadczenie posłuży też do dalszego rozwoju AI.
Informacje na temat CORD-19, zasoby, bibliografię i ogólnodostępne pliki do pobrania znaleźć można na stronie poświęconej temu otwartemu projektowi.