Synthetic Media Forensics Media Integrity AI 合成媒體鑑識與生成偵測
NYCU ACVLab

上傳與分析

上傳影像或影片,立即進行真偽鑑識

偵測模型詳細說明

本頁列出本系統所使用的偵測模型,提供完整的訓練背景、適用範圍與示意圖,協助使用者理解各模型的強處與限制。

人臉逐幀 / CFDet19-v1

特色:是不同資料及訓練的分類器,用我們方法 pairwise learning 的。效能好,但只對傳統 GAN 換臉更有用

CFDet19-v1 採用多種資料集和 pairwise learning 技術訓練,是針對傳統 GAN 換臉場景設計的分類器。 透過比較真實與偽造對的特徵分佈來學習,它能有效捕捉換臉產生的微妙瑕疵,因此在辨識 GAN 換臉影片時表現優異。 雖然它在特定 GAN 類型上表現極佳,但對於新興的擴散式生成或非人臉的深偽場景就沒有那麼敏感。若您的目標是分析傳統換臉影片,CFDet19-v1 是高效且準確的選擇;然而在陌生類型的偽造上,建議搭配其他分類器以增加可信度。

人臉逐幀 / DFMv2

特色:與 CFDet19‑v1 類似,但使用 Swin Transformer‑v2 取代主幹。效果略有提升,但變異度較大

DFMv2 在 CFDet19-v1 的基礎上,使用 Swin Transformer v2 取代原本的主幹網路,讓模型能以階層式視窗注意力捕捉影像的長距離關係。 這樣的設計改善了對多種深偽特徵的感知能力,讓模型在偵測 GAN 換臉時比上一代有更好的召回率。 然而,因為模型更加靈活,有時候會對影像中無關的細節產生變化較大的偵測結果。若您希望得到高靈敏度的偵測並能容忍一些波動,DFMv2 是比 CFDet19-v1 更進階的選擇;在偵測結果變異較大時,也可以與其他模型交叉比對。

人臉逐幀 / DFMv3

特色:一般化的深偽分類器,效能較低但相對穩定

DFMv3 旨在成為更一般化的深偽偵測模型,擴展至不同形式的偽造。它的架構融合了多種模塊,能學習各種偽造痕跡而不是只針對換臉。 這種廣泛的泛化能力使得 DFMv3 的平均偵測效能稍低於專門為換臉而設計的模型,但它在不同資料集和拍攝條件下有較佳的穩定性。對於難以預測來源的影片,它能提供一個穩定而可靠的基準。

整幀生成 / DiffDetv5

特色:DiffDetv5(Effort)影像偵測器,融合 CLIP-L/14 與魯棒訓練,對多種 AI 生成圖片與後處理較穩定

DiffDetv5(Effort)來自 ICML 2025 的影像偵測器,使用 CLIP-L/14 視覺編碼器並搭配魯棒訓練策略,目標是提升對各種生成模型與後處理操作的穩定辨識能力。 這個模型適合單張圖片或影片抽幀的判斷,對壓縮、修圖與多種生成來源仍保持較高的可靠度。不過它仍屬於影像級模型,建議與人臉或影片級模型交叉驗證以降低誤判風險。

整幀生成 / AIGenDet1

特色:AIGenDet1:2025 年更新的 AI 生成影像偵測器,使用 ViT 架構區分人類與生成內容,適合圖片與影片抽幀判讀

AIGenDet1 採用 ViT 架構做為主幹,針對人類影像與生成影像進行二分類訓練,可直接用於全生成內容的檢測與初步篩選。 它不依賴人臉偵測,適合圖片與影片抽幀的全生成判讀;但若內容包含高強度後製或混合式合成,建議搭配其他生成偵測器以提高穩定度。

整幀生成 / AIGenDet2

特色:AIGenDet2:SigLIP 影像分類器微調版本,強化對生成影像的辨識能力,可用於全生成檢測

AIGenDet2 以 SigLIP 視覺編碼器微調而成,強調語意與紋理的雙重差異,對最新生成模型的泛化能力相對穩定。 此模型適用於圖片與影片抽幀的全生成偵測,特別在大尺度場景或非人臉內容時提供額外判讀依據。

整幀深偽 / DVit

特色:DVit:ViT Deepfake 偵測模型,針對換臉與人臉偽造資料訓練,補強影像級 Deepfake 判讀

DVit 以 ViT 影像分類器為基礎,使用深偽換臉與人臉偽造資料進行微調,強化對臉部細節與紋理異常的感知。 它可用於影像或影片抽幀的 Deepfake 判讀,尤其適合作為人臉模型結果的交叉驗證,以降低單一模型偏差。

整幀深偽 / DFDv2

特色:DFDv2:Deepfake 偵測模型(V2),偏向整幀辨識與紋理異常,適合作為 Deepfake 交叉驗證

DFDv2 是 2025 年更新的 Deepfake 影像偵測模型(V2 版本),重點在整幀判讀與局部紋理瑕疵的捕捉。 模型可套用在圖片或影片抽幀,提供另一個 Deepfake 檢測視角,建議與人臉序列模型一起使用以提高可信度。

整幀生成 / AIGenDet3

特色:AIGenDet3:DRCT 生成偵測器以多尺度重建特徵與 Transformer 編碼為核心,專注於辨識擴散式與全生成影像的低階紋理差異

AIGenDet3 以多尺度重建特徵為基礎,結合 Transformer 編碼器去放大擴散式生成的細節偏差。模型對紋理與頻譜的異常訊號特別敏感,適合用於全生成影像的篩檢。 在高壓縮或重度後製的素材上,AIGenDet3 仍能保留一定辨識度,但單一模型可能受資料偏差影響。建議與其他生成偵測器併用,以提高穩定度與跨模型泛化能力。

整幀生成 / DiffDetv4

特色:DiffDetv4:BEiT 生成偵測器以大規模視覺 Transformer 為骨幹,對跨模型生成圖片的泛化較佳,適合影像與影片抽幀判讀

DiffDetv4 以大型 BEiT 視覺 Transformer 為骨幹,透過生成與真實影像的語意與紋理差異進行分類,對多種生成模型具有不錯的泛化表現。 此模型適合單張圖片或影片抽幀判斷,對全生成影像特別敏感。當素材經過濾鏡或複雜後製時,建議搭配其他偵測器交叉驗證以降低誤判。

人臉序列 / DiffDetv1 (LSTM)

特色:人臉序列 LSTM 偵測器,針對影片換臉序列的時序一致性判讀。對人臉清晰且連續的影片較有效

DiffDetv1 是人臉序列 LSTM 模型,會聚合連續幀的人臉特徵並輸出整體判斷。 它對於傳統換臉影片的時序不一致較敏感,但當人臉太少、解析度過低或畫面以全身為主時,可靠度會下降。建議與逐幀人臉模型與整幀生成模型交叉驗證。

整幀生成 / DiffDetv2 (Diffusion)

特色:透過視覺語言模型 (VLM) 強化,可用於 DeepFake 及 Diffusion 偵測。雖效能不高,但對未知偽造類型具參考價值

DiffDetv2 透過視覺語言模型(VLM)來增強分類能力,使它不僅能處理 diffusion 生成圖片,也能應用於 deepfake 換臉。VLM 結合語意上下文,能在多模態輸入下找出不同類型偽造的共通模式。 不過,由於模型追求通用性而非最佳化特定任務,它的性能通常不如專用模型。然而當遇到未知或罕見的偽造形式時,DiffDetv2 提供的偵測分數仍有參考價值,可協助判斷是否需要進一步分析。

人臉序列 / LRGCN

特色:LRGCN 為基於影片序列的人臉 DeepFake 偵測器,每 16 幀產生一次結果。對於傳統 GAN 換臉穩定且準確,但遇到未知類型或整幀 Diffusion 效果不佳

LRGCN 是專為影片設計的 deepfake 偵測器。它將影像序列劃分為固定大小的片段(例如每 16 幀),並同時分析時域與空域特徵來辨識換臉。這使它在處理傳統 GAN 換臉影片時非常穩定,對干擾或壓縮相對不敏感。 然而,由於訓練資料的多樣性限制,它對於未見過的偽造類型或整幀 diffusion 生成的影片較難正確判斷。如果分析對象包含新興的生成技術,建議搭配其他模型以避免漏判。

整幀生成 / DiffDetv3 (VLM)

特色:改良版的 VLM 偵測器,適用於 DeepFake 與 Diffusion。效能雖不高,但面對未知偽造類型仍具參考性,且模型能力略優於 DiffDetv2

DiffDetv3 在 DiffDetv2 的基礎上採用更強大的 VLM,並針對 deepfake 與 diffusion 圖像進行共同訓練。它試圖尋找生成模型留下的通用訊號,因此可在多種偽造場景中保持一定的敏感度。 即便如此,通用模型的效能仍不如特化模型;DiffDetv3 的主要價值在於面對未知類型的偽造時提供參考分數,使使用者能初步判斷內容真偽,後續再由其他模型或專業人士確認。

傳統拼接 / CopyPasteDet

特色:傳統影像拼接偵測器。當其他偵測器結果互相矛盾時,可提供額外參考。效能與穩定度均屬中等

CopyPasteDet 是用來偵測傳統影像合成(如拷貝貼上、圖層拼接)的分類器。它分析邊緣、一致性和影像內部統計特徵,能揭露不同來源圖像的不協調處。 在多個深偽偵測器出現矛盾結果時,CopyPasteDet 提供一個從另類角度出發的分析,幫助使用者評估是否涉及傳統的後製拼接。但整體效能與穩定度屬中等,建議配合其他模型使用。

人臉序列 / GenConViT

特色:影片級深偽偵測器,結合編碼器/變分分支與時序特徵,對換臉影片特別敏感

GenConViT 是以 ViT 為基礎的影片偵測器,結合編碼器/解碼器 (ED) 與 VAE 分支來捕捉時序一致性與生成瑕疵。它會對影片中的人臉序列進行抽樣並輸出整段影片的偽造機率。 此模型對換臉與人臉再現類 deepfake 特別敏感,但需要足夠清晰的人臉幀數。當人臉稀少或遮擋時,建議搭配整幀 Diffusion 模型與其他偵測器一起判讀。

鑑識結果

多模型協作

融合深偽與生成偵測模型,提高穩定度與泛化

彈性效能

可依需求調整幀數與模型組合,兼顧速度與精度

研究導向

整合最新研究模型與可解釋線索

資料安全

分析過程以本地運算為主,降低外洩風險