1. Nekonzistentní zdroje dat
Moderní výrobní provozy často zahrnují různorodé stroje od různých výrobců z různých období, a to s odlišnými řídicími systémy. Každý z nich může poskytovat data v jiném formátu nebo s jinými jednotkami.
Příklad: Zatímco nejnovější obráběcí centrum může poskytovat detailní údaje prostřednictvím standardních protokolů, starší stroj může nabízet jen omezená data nebo vyžadovat dodatečné senzory pro jejich sběr.
2. Šum a chybějící hodnoty
Data ze skutečného provozu často obsahují šum (nepřesnosti), odlehlé hodnoty (extrémně vysoké nebo nízké hodnoty způsobené chybami měření) nebo chybějící údaje (vinou výpadku senzorů nebo přerušení sběru dat).
3. Nevyvážená data
V mnoha případech máme dostatek dat o běžném provozu, ale málo příkladů poruchových stavů nebo vzácných událostí – tyto stavy a události jsou však pro prediktivní modely klíčové.
Praktický příklad: Firma vyrábějící ložiska může mít miliony záznamů o výrobě kvalitních kusů, ale jen desítky případů dokumentujících konkrétní typ vady. To ztěžuje trénování modelu, který by tuto vadu spolehlivě rozpoznával.
4. Bezpečnost a ochrana dat
Výrobní data mohou obsahovat citlivé informace o výrobních postupech nebo o know-how. Sdílení těchto informací pro účely vývoje AI modelů proto musí probíhat s ohledem na bezpečnost.