Enhanced identity spectrum search with AI/ML confidence scoring for HRAM data
Postery | 2025 | Thermo Fisher ScientificInstrumentace
V neřízené analýze malých molekul je klíčové jednoznačné přiřazení neznámých MS2 spekter ke známým sloučeninám. Tradiční metody podobnosti spekter často selhávají při izomerických či izobarických sloučeninách, což ztěžuje rozhodování v analytických a QA/QC pracovištích. Vysoce přesná data orbitrap nabízí velký potenciál, ale vyžadují robustní věrohodnost skórování výsledků. AI/ML techniky mohou v tomto procesu výrazně zlepšit spolehlivost identifikací.
Cílem bylo navrhnout AI/ML model pro ohodnocení důvěry u HRAM dat pomocí histogram gradient boosting a ověřit jeho výkon proti tradičním metodám na rozsáhlé mzCloud knihovně a externí Food Safety Library. Studie se zaměřila na simulaci reálných vyhledávání, vyhodnocení ROC AUC a rankingu kandidátů a porovnání s Bayesovskou, Cosine, NIST a HighChem-HighRes metodou.
AI/ML model překonal tradiční metody v ROC AUC i v přesnosti rankingu kandidátů. Zlepšení rankingu pro 104 ze 400 sloučenin, horší pro 41 případů, rovné pro 255. Případová studie Diosmetin demonstrovala jasné rozlišení mezi pravým a falešnými zásahy, kde legacy a HighChem-HighRes skóre selhávaly. Shapley values poskytují interpretovatelnost vlivu jednotlivých rysů.
Zvýšená jistota přiřazení spekter v neřízených studiích, integrace do mzCloud platformy pro lepší hodnocení výsledků a možnost optimalizace NCE pro zvýšení specifity identifikace.
Rozšíření validace na reálné vzorky, zahrnutí dalších typů ionizace a detektorů, dynamické učení na uživatelských datech a další vylepšení explainable AI.
Novo AI/ML confidence scoring model dosahuje vysoké přesnosti a spolehlivosti při identifikaci MS2 spekter pro Orbitrap HRAM data, překonává tradiční metody a nabízí analytické komunitě nové nástroje.
Software, LC/Orbitrap, LC/HRMS, LC/MS/MS, LC/MS
ZaměřeníOstatní
VýrobceThermo Fisher Scientific
Souhrn
Význam tématu
V neřízené analýze malých molekul je klíčové jednoznačné přiřazení neznámých MS2 spekter ke známým sloučeninám. Tradiční metody podobnosti spekter často selhávají při izomerických či izobarických sloučeninách, což ztěžuje rozhodování v analytických a QA/QC pracovištích. Vysoce přesná data orbitrap nabízí velký potenciál, ale vyžadují robustní věrohodnost skórování výsledků. AI/ML techniky mohou v tomto procesu výrazně zlepšit spolehlivost identifikací.
Cíle a přehled studie
Cílem bylo navrhnout AI/ML model pro ohodnocení důvěry u HRAM dat pomocí histogram gradient boosting a ověřit jeho výkon proti tradičním metodám na rozsáhlé mzCloud knihovně a externí Food Safety Library. Studie se zaměřila na simulaci reálných vyhledávání, vyhodnocení ROC AUC a rankingu kandidátů a porovnání s Bayesovskou, Cosine, NIST a HighChem-HighRes metodou.
Použitá metodika a instrumentace
- Výběr dat: mzCloud curated library – 34 000 sloučenin, 3,46 mil. MS2 spekter, CID/HCD, NCE 10–200;
- Model: histogram gradient boosting (scikit-learn), 170 vstupních parametrů popisujících fragmentaci, metadata a skóre dotyku;
- Validace: ROC AUC 0,95 spektrum-pár, 0,99 na úrovni sloučeniny (mzCloud); 0,97 na Food Safety Library; přesnost 89,2 % vs. 58 % legacy confidence;
- Simulace vyhledávání: Python skript, mzCloud API, AWS ml.r6i.32xlarge s 80 vlákny;
- Instrumentace: UHPLC, Thermo Scientific Orbitrap IQ-X Tribrid s pozitivní ESI; doplňkově Q Exactive a Fusion.
Hlavní výsledky a diskuse
AI/ML model překonal tradiční metody v ROC AUC i v přesnosti rankingu kandidátů. Zlepšení rankingu pro 104 ze 400 sloučenin, horší pro 41 případů, rovné pro 255. Případová studie Diosmetin demonstrovala jasné rozlišení mezi pravým a falešnými zásahy, kde legacy a HighChem-HighRes skóre selhávaly. Shapley values poskytují interpretovatelnost vlivu jednotlivých rysů.
Přínosy a praktické využití metody
Zvýšená jistota přiřazení spekter v neřízených studiích, integrace do mzCloud platformy pro lepší hodnocení výsledků a možnost optimalizace NCE pro zvýšení specifity identifikace.
Budoucí trendy a možnosti využití
Rozšíření validace na reálné vzorky, zahrnutí dalších typů ionizace a detektorů, dynamické učení na uživatelských datech a další vylepšení explainable AI.
Závěr
Novo AI/ML confidence scoring model dosahuje vysoké přesnosti a spolehlivosti při identifikaci MS2 spekter pro Orbitrap HRAM data, překonává tradiční metody a nabízí analytické komunitě nové nástroje.
Reference
- Food Safety Mass Spectral Library from Wageningen University, accessed March 2025.
Obsah byl automaticky vytvořen z originálního PDF dokumentu pomocí AI a může obsahovat nepřesnosti.
Podobná PDF
Identification of Small Molecules via Real-Time Library Search on an Orbitrap Tribrid Mass Spectrometer
2021|Thermo Fisher Scientific|Postery
Identification of Small Molecules via Real-Time Library Search on an Orbitrap Tribrid Mass Spectrometer William D. Barshop, Jesse D. Canterbury, Brandon J. Bills, Vlad Zabrouskov, Seema Sharma, Thermo Fisher Scientific, 355 River Oaks Parkway, San Jose, California, United States, 95134…
Klíčová slova
rtls, rtlslibrary, librarysearch, searchcosine, cosinereal, realspectral, spectralscore, scoremzvault, mzvaultdecision, decisionfilter, filtermzcloud, mzcloudspectra, spectrainfrastructure, infrastructurescoring, scoringscores
Building curated and annotated HRAM MSn spectral libraries to aid in unknown structure elucidation
2019|Thermo Fisher Scientific|Technické články
TECHNICAL NOTE No. 65602 Building curated and annotated HRAM MSn spectral libraries to aid in unknown structure elucidation Authors: Caroline Ding, Kate Comstock, Seema Sharma, Mark Sanders, Michal Raab Thermo Fisher Scientific, San Jose, CA Keywords: Orbitrap ID-X, Mass Frontier,…
Klíčová slova
msn, msnsubstructure, substructurelibrary, libraryspectral, spectralstructure, structuremzlogic, mzlogicsearch, searchidentification, identificationcompound, compoundtree, treespectra, spectraalgorithm, algorithmdimethylsidenafil, dimethylsidenafilquery, queryranking
Small Molecule Real-Time Library Search
|Thermo Fisher Scientific|Postery
Small Molecule Real-Time Library Search William Barshop, Jesse Canterbury, Brandon Bills, Seema Sharma, Thermo Fisher Scientific, 355 River Oaks Parkway, San Jose, CA, USA, 95134 Abstract Purpose • To guide instrument acquisition decisions by consideration of the similarity of experimentally…
Klíčová slova
library, librarysearch, searchreal, realcosine, cosinemzvault, mzvaulttime, timetribrid, tribridconfidence, confidencesimilarity, similarityscores, scoresdecisions, decisionsorbitrap, orbitrapspectral, spectralmzcloud, mzcloudlogic
Identifying Food and Environmental Contaminants using the New NIST High-Res MS/MS Library Search Algorithms and Publicly Available LC/MS/MS Spectral Libraries
2020|Agilent Technologies|Postery
Poster Reprint ASMS 2020 TP 576 Identifying Food and Environmental Contaminants using the New NIST High-Res MS/MS Library Search Algorithms and Publicly Available LC/MS/MS Spectral Libraries Emma E Rennie1, Frank Kuhlmann1, James S Pyke1, Stephen Madden1 and O. David Sparkman2.…
Klíčová slova
search, searchlibrary, librarycrowd, crowddot, dotroc, roclibraries, librariesrev, revsourced, sourcednist, nisthram, hramdotprod, dotprodhits, hitspublic, publicranked, rankedtpr