Skoro 12 000 platných klíčů, včetně API klíčů a hesel, bylo nalezeno v datasetu Common Crawl, který je využíván pro trénink několika modelů umělé inteligence. Nezisková organizace Common Crawl spravuje obrovské open-source úložiště obsahující petabajty webových dat shromážděných od roku 2008, které je volně dostupné pro kohokoli.
Kvůli rozsáhlosti datasetu se mnoho projektů umělé inteligence může alespoň částečně spoléhat na tento digitální archiv při tréninku velkých jazykových modelů (LLM), včetně modelů od OpenAI, DeepSeek, Google, Meta, Anthropic a Stability.
Experti z Truffle Security – společnosti stojící za open-source skenerem TruffleHog pro citlivá data – objevili platné tajné klíče po analýze 400 terabajtů dat z 2,67 miliardy webových stránek v archivu Common Crawl z prosince 2024. Zjistili 11 908 tajných klíčů, které se úspěšně autentizovaly, což naznačuje, že vývojáři je tvrdě zakódovali, což může vést k tomu, že LLM budou trénovány na nezabezpečeném kódu.
Je třeba poznamenat, že tréninková data LLM nejsou používána v surové podobě a procházejí předzpracováním, které zahrnuje čištění a filtrování nepotřebného obsahu, jako jsou irelevantní data, duplicity, škodlivé nebo citlivé informace.
Navzdory těmto snahám je obtížné odstranit důvěrná data a proces nenabízí žádnou záruku, že tak rozsáhlý dataset bude zbaven všech osobně identifikovatelných informací (PII), finančních dat, lékařských záznamů a dalších citlivých údajů.
Po analýze naskenovaných dat Truffle Security našla platné API klíče pro služby Amazon Web Services (AWS), MailChimp a WalkScore. Celkově TruffleHog identifikoval 219 různých typů tajných klíčů v datasetu Common Crawl, přičemž nejčastější byly API klíče MailChimp.
„Téměř 1 500 unikátních API klíčů MailChimp bylo tvrdě zakódováno v HTML front-endu a JavaScriptu,“ uvádí Truffle Security.
Zdroj: BleepingComputer
Zdroj: IT SECURITY NETWORK NEWS