Shanghai Neardi Technology Co., Ltd. Profil Perusahaan

Berita

Rumah > Berita >

Berita Perusahaan Tentang Interpretasi Mendalam tentang Kemacetan 6TOPS RK3588 dan Kebenaran tentang Kekuatan Komputasi NPU

Interpretasi Mendalam tentang Kemacetan 6TOPS RK3588 dan Kebenaran tentang Kekuatan Komputasi NPU

2025-12-15

Bayangkan Anda bekerja pada proyek AI tepi dengan RK3588: aliran video kamera perlu melakukan real-time pengenalan wajah dan deteksi kendaraan, sementara juga mendukung tampilan UI, unggahan data,dan pemrosesan logika bisnisAnda perhatikan: drop frame terjadi ketika ada banyak objek dalam frame, model besar gagal berjalan dengan lancar, dan suhu meningkat tajam.

Pada titik ini, orang biasanya berkata: "Model Anda terlalu besar ¥ 6TOPS RK3588 tidak cukup".

Tapi apakah itu benar-benar kurangnya daya komputasi? Apakah Anda pernah bertanya-tanya: Mengapa NPU 6TOPS masih mengalami penurunan frame dan lag saat menjalankan model 4TOPS?Jawabannya terletak pada tiga dimensi daya komputasi NPU:Kinerja puncak (TOPS),Keakuratan (INT8/FP16), danEfisiensi (Bandwidth).

Anda akan melihat bahwa berbagai chip menekankan spesifikasi NPU mereka, dengan parameter inti ditampilkan secara menonjol: NPU Power Computing: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, dan seterusnya...

Apa itu TOPS? Mengapa semua orang membicarakannya?

Tera: mewakili 1012.

Operasi Per Detik: mengacu pada jumlah total operasi AI yang dapat dilakukan NPU dalam satu detik. Secara sederhana, 1 TOPS berarti NPU dapat mengeksekusi 1 triliun (1012) operasi per detik.

Bagaimana TOPS dihitung?

berita perusahaan terbaru tentang Interpretasi Mendalam tentang Kemacetan 6TOPS RK3588 dan Kebenaran tentang Kekuatan Komputasi NPU 0

Jumlah total Unit MAC adalah inti dari komputasi jaringan saraf.perhitungan utama melibatkan perkalian data masukan dengan bobot dan kemudian menjumlahkan hasil.

Filosofi desain NPU terletak pada memiliki array yang sangat besar dari unit MAC paralel.yang dapat bekerja secara bersamaan untuk mencapai komputasi paralel skala besar.

Semakin banyak unit MAC, semakin besar jumlah perhitungan yang dapat diselesaikan NPU dalam satu siklus jam.

Frekuensi Jam: Menentukan jumlah siklus chip NPU dan unit MACnya beroperasi per detik (diukur dalam Hertz, Hz).Frekuensi yang lebih tinggi memungkinkan array MAC untuk melakukan operasi perkalian-menumpuk lebih banyak per satuan waktuKetika produsen mengumumkan TOPS, mereka menggunakan frekuensi operasi puncak NPU (yaitu frekuensi maksimum yang dapat dicapai).

Operasi per MAC: Operasi MAC yang lengkap sebenarnya mencakup satu perkalian dan satu penjumlahan.banyak standar komputasi menghitung satu operasi MAC sebagai 2 operasi dasar (1 untuk perkalian dan 1 untuk penjumlahan).

Faktor presisi: Unit MAC dari NPU dioptimalkan untuk memproses data presisi rendah (misalnya, INT8).

Rasio percepatan yang disederhanakan dari INT8 vs FP32: Karena 32 bit / 8 bit = 4, satu unit FP32 tunggal secara teoritis dapat melakukan 4 kali lebih banyak operasi dalam satu siklus ketika beralih ke komputasi INT8.,Jika TOPS produsen dihitung berdasarkan INT8, itu perlu dikalikan dengan rasio speedup yang terkait dengan presisi.

TOPS mengukur puncak kekuatan komputasi teoritis. Dalam aplikasi praktis, karena faktor-faktor seperti transmisi data, keterbatasan memori, dan struktur model,daya komputasi efektif NPU sering lebih rendah dari nilai puncak ini.

Kekuatan komputasi adalah tentang kecepatan; presisi adalah tentang "kehalusan".

berita perusahaan terbaru tentang Interpretasi Mendalam tentang Kemacetan 6TOPS RK3588 dan Kebenaran tentang Kekuatan Komputasi NPU 1

Kekuatan komputasi memberi tahu kita seberapa cepat NPU berjalan, sementara presisi komputasi memberi tahu kita seberapa halus operasi.menentukan jumlah bit yang digunakan dan rentang representasi data selama perhitungan.

Pada tingkat TOPS yang sama, kecepatan komputasi sebenarnya dari INT8 jauh lebih cepat daripada FP32.

NPU TOPS yang diklaim oleh produsen biasanya didasarkan pada presisi INT8.

berita perusahaan terbaru tentang Interpretasi Mendalam tentang Kemacetan 6TOPS RK3588 dan Kebenaran tentang Kekuatan Komputasi NPU 2

Keakuratan Tinggi (Biasanya Digunakan untuk Pelatihan)

FP32 (Floating-Point Single-Precision, 32-bit): Menawarkan kisaran numerik dan presisi terbesar. Umum digunakan dalam komputasi GPU dan PC tradisional. Model biasanya mengadopsi FP32 selama fase pelatihan untuk memastikan akurasi.
FP16/BF16 (Half-Precision Floating-Point, 16-bit): Mengurangi volume data setengahnya sambil mempertahankan tingkat presisi tertentu, memungkinkan perhitungan yang lebih cepat dan penghematan memori.

Keakuratan rendah (biasanya digunakan untuk inferensi)

INT8 (8-bit Integer): Saat ini standar industri untuk mengevaluasi kinerja inferensi dari NPU sisi tepi.FP32) ke bilangan bulat 8-bit disebut Kuantisasi.
INT4 (Low Bit-Width): Fitur kompresi lebih lanjut, cocok untuk skenario dengan persyaratan yang sangat tinggi untuk konsumsi daya dan latensi, tetapi memberlakukan tuntutan yang lebih tinggi untuk mengendalikan kehilangan presisi model.

Bagaimana untuk memahami kinerja sebenarnya dari NPU?

Ketika Anda melihat NPU mengklaim 20 TOPS (INT8), Anda perlu memahami:

Kekuatan komputasi puncak adalah 20 triliun operasi per detik.
Kekuatan komputasi ini diukur di bawah presisi integer 8-bit (INT8). ini berarti terutama digunakan untuk inferensi AI (seperti pengenalan gambar, pemrosesan suara, dll.), bukan pelatihan.
Kinerja akhir tergantung pada aplikasi: Pengalaman pengguna yang sebenarnya (seperti kecepatan membuka kunci wajah, latensi terjemahan real-time) tidak hanya bergantung pada TOPS NPU tetapi juga pada:
- Kualitas kuantisasi model: Apakah model INT8 kuantisasi mempertahankan akurasi yang cukup.
- Memory bandwidth: Kecepatan input dan output data.
- Software stack dan driver: Tingkat optimasi dari toolchain dan driver yang disediakan oleh produsen chip untuk penyebaran model.

Kekuatan komputasi NPU (TOPS) adalah indikator kecepatannya, sementara presisi komputasi (misalnya, INT8) adalah kunci efisiensi dan penerapannya.produsen umumnya bertujuan untuk memaksimalkan INT8 TOPS sambil mempertahankan kerugian presisi yang dapat diterima, untuk mencapai kinerja inferensi AI daya rendah dan efisiensi tinggi.

Peristiwa

Berita

Kasus-kasus

Kontak

Kontak: Mr. Cola

Telp: 86-021-20952021

Hubungi Sekarang

Kirimkan surat.

Sistem Pada Modul SoM

Komputer Papan Tunggal

Komputer Tertanam

PC Tertanam Kendaraan

Rockchip SBC

Nvidia Jetson SBC

Modul Wi-Fi

PC Kotak Industri

Modul SoM Linux

Modul Sistem Android Pada

Android Embedded Board

Sistem Pada Modul SoM

Komputer Papan Tunggal

Komputer Tertanam

PC Tertanam Kendaraan

Rockchip SBC

Nvidia Jetson SBC

Modul Wi-Fi

PC Kotak Industri

Modul SoM Linux

Modul Sistem Android Pada

Android Embedded Board

Interpretasi Mendalam tentang Kemacetan 6TOPS RK3588 dan Kebenaran tentang Kekuatan Komputasi NPU

Berita

Kasus-kasus

Sistem Pada Modul SoM

Komputer Papan Tunggal

Komputer Tertanam

PC Tertanam Kendaraan

Rockchip SBC

Nvidia Jetson SBC