Markdown to popularny, lekki język znaczników ze składnią formatowania w postaci zwykłego tekstu (plain text). Jest on łatwy do czytania, pisania i zrozumienia. Markdown ułatwia algorytmom AI analizowanie i rozumienie struktury tekstu dzięki spójnej i przewidywalnej składni. Jest również szeroko obsługiwany przez popularne narzędzia, w tym GitHub, notesy Jupyter i nie tylko.
Microsoft udostępnił w GitHub nowe narzędzie Open Source o nazwie MarkItDown. To biblioteka Pythona do konwertowania plików i dokumentów Microsoft Office do formatu Markdown. Przekonwertowane pliki można następnie wykorzystać do indeksowania, analizy tekstu i innych celów. Biblioteka obsługuje już następujące formaty plików:
- PDF (.pdf)
- Prezentacja PowerPoint (.pptx)
- Dokument Worda (.docx)
- Arkusz Excela (.xlsx)
- Obrazy (metadane EXIF i OCR)
- Dźwięk (metadane EXIF i transkrypcja mowy)
- HTML (specjalne traktowanie Wikipedii etc.)
- Inne formaty tekstowe (.csv, .json, .xml etc.)
Deweloperzy mogą też skonfigurować bibliotekę MarkItDown, aby używała dużych modeli językowych (LLMs) do opisywania obrazów. Jako że biblioteka jest dostępna na licencji MIT, deweloperzy mogą ją swobodnie wykorzystywać, modyfikować i rozpowszechniać. Jedynym wymogiem jest dołączenie oryginalnej licencji i informacji o prawach autorskich.
MarkItDown można już pobrać z GitHub. Na stronie znajdziecie więcej informacji o instalacji i korzystaniu z API.