?
完成本培訓(xùn)后,學(xué)員將能夠:
1.?理解 AI 工程化的核心概念、挑戰(zhàn)與最佳實(shí)踐。
2.?獨(dú)立或協(xié)作完成一個(gè)端到端的 AI 項(xiàng)目,從數(shù)據(jù)準(zhǔn)備到模型部署與監(jiān)控。
3.?掌握 MLops 的關(guān)鍵工具鏈(如 Docker, Git, CI/CD, Kubernetes, 云平臺(tái)服務(wù)等)。
4.?具備構(gòu)建高可用、可擴(kuò)展且安全的 AI 系統(tǒng)的能力。
·?有一定基礎(chǔ)的軟件工程師/后端工程師
·?希望轉(zhuǎn)型 AI 工程化的數(shù)據(jù)科學(xué)家
·?DevOps/SRE 工程師
·?技術(shù)項(xiàng)目經(jīng)理/產(chǎn)品經(jīng)理
·?基本的 Python 編程能力
·?對(duì)機(jī)器學(xué)習(xí)基本概念(如訓(xùn)練、測(cè)試、模型評(píng)估)有初步了解
·?了解 Linux 基礎(chǔ)命令和 Git 的基本使用
詳細(xì)大綱
1.1 引言:從模型到系統(tǒng)
什么是 AI 工程化?為什么它不同于學(xué)術(shù)研究或?qū)嶒?yàn)性建模?
AI 項(xiàng)目的生命周期 vs 傳統(tǒng)軟件開發(fā)生命周期。
面臨的獨(dú)特挑戰(zhàn):數(shù)據(jù)漂移、概念漂移、技術(shù)債、可復(fù)現(xiàn)性等。
1.2 MLOps 基礎(chǔ)
MLOps 的定義、原則與成熟度模型(手動(dòng) -> 自動(dòng)化 -> 自主)。
MLOps 與 DevOps 的關(guān)聯(lián)與區(qū)別。
AI 工程化的關(guān)鍵支柱:數(shù)據(jù)、模型、代碼、基礎(chǔ)設(shè)施。
模塊二:數(shù)據(jù)工程與特征平臺(tái)
2.1 生產(chǎn)環(huán)境的數(shù)據(jù)管理
數(shù)據(jù)版本控制概念與工具介紹(如 DVC)。
數(shù)據(jù)質(zhì)量驗(yàn)證與監(jiān)控(如 Great Expectations)。
數(shù)據(jù)血緣與元數(shù)據(jù)管理。
2.2 特征工程與特征存儲(chǔ)
生產(chǎn)環(huán)境中的特征工程:訓(xùn)練/服務(wù)偏斜問題。
特征存儲(chǔ)的概念與價(jià)值(如 Feast, Tecton)。
實(shí)戰(zhàn):使用一個(gè)開源特征存儲(chǔ)庫(kù)(如 Feast)實(shí)現(xiàn)特征的注冊(cè)、共享和復(fù)用。
模塊三:模型開發(fā)與可復(fù)現(xiàn)性
3.1 模型訓(xùn)練的環(huán)境與編排
容器化基礎(chǔ):使用 Docker 封裝訓(xùn)練環(huán)境。
使用 MLflow 或 Weights & Biases 進(jìn)行實(shí)驗(yàn)跟蹤、參數(shù)記錄和模型注冊(cè)。
分布式訓(xùn)練簡(jiǎn)介(可選,視項(xiàng)目需求)。
3.2 模型評(píng)估與驗(yàn)證
超越準(zhǔn)確率:生產(chǎn)環(huán)境的模型評(píng)估指標(biāo)(業(yè)務(wù)指標(biāo)、公平性、可解釋性)。
模型驗(yàn)證策略:在批準(zhǔn)部署前確保新模型優(yōu)于舊模型。
模塊四:模型部署與服務(wù)化
4.1 部署模式
離線(批量)預(yù)測(cè) vs. 在線(實(shí)時(shí))推理。
嵌入式部署:將模型打包到移動(dòng)端或邊緣設(shè)備。
4.2 模型服務(wù)化
構(gòu)建RESTful API:使用 FastAPI 或 Flask ?包裝模型。
容器化模型服務(wù):創(chuàng)建模型的Docker 鏡像。
使用專業(yè)的模型服務(wù)工具:KServe, Seldon Core, Triton Inference Server。
4.3 在云平臺(tái)上部署
云服務(wù)概覽:AWS SageMaker, GCP Vertex AI, Azure ML
實(shí)戰(zhàn):將容器化的模型部署到 Kubernetes 集群或無(wú)服務(wù)器平臺(tái)(如 AWS EKS/Fargate)
模塊五:自動(dòng)化流水線與持續(xù)集成/持續(xù)交付
5.1 CI/CD for ML
為 ML 項(xiàng)目定制 CI/CD 流水線(使用 GitHub Actions, GitLab CI, Jenkins)。
自動(dòng)化流程:代碼檢查 -> 運(yùn)行測(cè)試 -> 訓(xùn)練模型 -> 評(píng)估 -> 部署。
5.2 構(gòu)建自動(dòng)化 ML 流水線
使用 Kubeflow Pipelines 或 Airflow 編排端到端的 ML 工作流。
實(shí)戰(zhàn):構(gòu)建一個(gè)從數(shù)據(jù)預(yù)處理到模型部署的完整自動(dòng)化流水線。
模塊六:生產(chǎn)環(huán)境的監(jiān)控與治理
6.1 模型與系統(tǒng)監(jiān)控
系統(tǒng)監(jiān)控:延遲、吞吐量、錯(cuò)誤率、資源利用率。
模型性能監(jiān)控:預(yù)測(cè)質(zhì)量下降、數(shù)據(jù)漂移、概念漂移的檢測(cè)與告警。
實(shí)戰(zhàn):使用 Prometheus/Grafana 或 Evidently AI 設(shè)置監(jiān)控看板。
6.2 AI 系統(tǒng)的治理與倫理
模型的可解釋性與公平性(SHAP, LIME)。
模型安全與對(duì)抗性攻擊簡(jiǎn)介。
成本管理與優(yōu)化。
模塊七:綜合項(xiàng)目實(shí)戰(zhàn)