Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Bayangkan Anda bekerja pada proyek AI tepi dengan RK3588: aliran video kamera perlu melakukan real-time pengenalan wajah dan deteksi kendaraan, sementara juga mendukung tampilan UI, unggahan data,dan pemrosesan logika bisnisAnda perhatikan: drop frame terjadi ketika ada banyak objek dalam frame, model besar gagal berjalan dengan lancar, dan suhu meningkat tajam.
Pada titik ini, orang biasanya berkata: "Model Anda terlalu besar ¥ 6TOPS RK3588 tidak cukup".
Tapi apakah itu benar-benar kurangnya daya komputasi? Apakah Anda pernah bertanya-tanya: Mengapa NPU 6TOPS masih mengalami penurunan frame dan lag saat menjalankan model 4TOPS?Jawabannya terletak pada tiga dimensi daya komputasi NPU:Kinerja puncak (TOPS),Keakuratan (INT8/FP16), danEfisiensi (Bandwidth).
Anda akan melihat bahwa berbagai chip menekankan spesifikasi NPU mereka, dengan parameter inti ditampilkan secara menonjol: NPU Power Computing: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, dan seterusnya...
Tera: mewakili 1012.
Operasi Per Detik: mengacu pada jumlah total operasi AI yang dapat dilakukan NPU dalam satu detik. Secara sederhana, 1 TOPS berarti NPU dapat mengeksekusi 1 triliun (1012) operasi per detik.
![]()
Jumlah total Unit MAC adalah inti dari komputasi jaringan saraf.perhitungan utama melibatkan perkalian data masukan dengan bobot dan kemudian menjumlahkan hasil.
Filosofi desain NPU terletak pada memiliki array yang sangat besar dari unit MAC paralel.yang dapat bekerja secara bersamaan untuk mencapai komputasi paralel skala besar.
Semakin banyak unit MAC, semakin besar jumlah perhitungan yang dapat diselesaikan NPU dalam satu siklus jam.
Frekuensi Jam: Menentukan jumlah siklus chip NPU dan unit MACnya beroperasi per detik (diukur dalam Hertz, Hz).Frekuensi yang lebih tinggi memungkinkan array MAC untuk melakukan operasi perkalian-menumpuk lebih banyak per satuan waktuKetika produsen mengumumkan TOPS, mereka menggunakan frekuensi operasi puncak NPU (yaitu frekuensi maksimum yang dapat dicapai).
Operasi per MAC: Operasi MAC yang lengkap sebenarnya mencakup satu perkalian dan satu penjumlahan.banyak standar komputasi menghitung satu operasi MAC sebagai 2 operasi dasar (1 untuk perkalian dan 1 untuk penjumlahan).
Faktor presisi: Unit MAC dari NPU dioptimalkan untuk memproses data presisi rendah (misalnya, INT8).
Rasio percepatan yang disederhanakan dari INT8 vs FP32: Karena 32 bit / 8 bit = 4, satu unit FP32 tunggal secara teoritis dapat melakukan 4 kali lebih banyak operasi dalam satu siklus ketika beralih ke komputasi INT8.,Jika TOPS produsen dihitung berdasarkan INT8, itu perlu dikalikan dengan rasio speedup yang terkait dengan presisi.
TOPS mengukur puncak kekuatan komputasi teoritis. Dalam aplikasi praktis, karena faktor-faktor seperti transmisi data, keterbatasan memori, dan struktur model,daya komputasi efektif NPU sering lebih rendah dari nilai puncak ini.
![]()
Kekuatan komputasi memberi tahu kita seberapa cepat NPU berjalan, sementara presisi komputasi memberi tahu kita seberapa halus operasi.menentukan jumlah bit yang digunakan dan rentang representasi data selama perhitungan.
Pada tingkat TOPS yang sama, kecepatan komputasi sebenarnya dari INT8 jauh lebih cepat daripada FP32.
NPU TOPS yang diklaim oleh produsen biasanya didasarkan pada presisi INT8.
![]()
Ketika Anda melihat NPU mengklaim 20 TOPS (INT8), Anda perlu memahami:
Kekuatan komputasi NPU (TOPS) adalah indikator kecepatannya, sementara presisi komputasi (misalnya, INT8) adalah kunci efisiensi dan penerapannya.produsen umumnya bertujuan untuk memaksimalkan INT8 TOPS sambil mempertahankan kerugian presisi yang dapat diterima, untuk mencapai kinerja inferensi AI daya rendah dan efisiensi tinggi.