MPEG-4 là gì?
MPEG-4(Moving Picture Experts Group-4) là một chuẩn Multimedia mở vô cùng rộng lớn được phát triển bởi Moving Picture Experts Group-một nhóm thuộc tổ chức quốc tế về tiêu chuẩn hóa(International Organization for Standardization-ISO).Lưu ý rằng chính nhóm này đã phát triển hai chuẩn audio/video hiện nay đang phổ biến trên toàn thế giới là MPEG-1(VCD) và MPEG-2(DVD,SVCD).
MPEG-4 còn được giới am hiểu thông tin hiểu là ISO 14496-được thiết kế không nhằm vào việc sản xuất ra một sản phẩm cụ thể nào(giống như MPEG-2 gắn liền với DVD),nó chỉ đưa ra những tiêu chuẩn bắt buộc phải tuân theo,và những nhà cung cấp sẽ dựa vào khuôn mẫu có sẵn đó để phát triển những định dạng của mình.Dựa trên ý tưởng đó,mpeg-4 đề ra nhiều tiêu chuẩn phụ với các tác dụng sau:
-ISO 14496-1 systems: Dùng để tạo những tính năng hỗ trợ cho hệ thống MPEG-4:giống như DVD menu hay chapter.
-ISO 14496-2 video: là phần hình ảnh của MPEG-4,được mã hóa và giải mã bởi những Advanced Simple Profile (ASP) codec.ASP codec điển hình là DivX,XviD,3ivX,NeroDigitalASP...
-ISO 14496-3 audio:sử dụng Advanced Audio Coding (AAC),là phần âm thanh của MPEG-4,hiện nay có khá nhiều định dạng âm thanh hỗ trợ cho MPEG-4 như MP3,AAC,OGG,AC3,DTS...
-ISO 14496-4 Conformance : những test nhất định được tiến hành để kiểm tra độ tương thích của bitstream và decoder với các phần 1,2,3,6.
-ISO 14496-5 Reference Software : Những software dành cho MPEG-4 chưa được tối ưu hóa.
-ISO 14496-6 Delivery Multimedia Integration Framework
-ISO 14496-7 Optimised software for MPEG-4 tools
-ISO 14496-8 4 on IP framework : framework dành cho việc truyền phát MPEG-4 stream trên mạng lưới IP.
-ISO 14496-10 video:đây là dạng mới hơn dành cho phần hình ảnh của MPEG-4.Thay vì sử dụng ASP codec,nó sử dụng Advanced Video Coding (AVC),các AVC codec ra đời sau ASP codec và còn trong giai đoạn phát triển ban đầu với nhiều chi tiết chưa thật sự hoạt động tốt,nhưng rõ ràng từ ASP đến AVC là một bước tiến lớn.Các AVC codec được biết đến nhiều nhất gồm có x264,NeroDigitalAVC.
-ISO 14496-14 container:định dạng dùng để kết hợp hệ thống MPEG-4(có thể gồm có các kênh âm thanh,hình ảnh,chapter,phụ đề.file đính kèm...)
-ISO 14496-17 subtitles: phụ đề dạng ký tự dành cho MPEG-4.Xem hướng dẫn VobSub để rõ hơn.
MPEG-4 mang tới một chất lượng streaming tốt hơn ở một dung lượng thấp hơn so với các dạng streaming hiện nay.
MPEG-4 được xây dựng cho các mục đích chính sau:
-Truyền hình kỹ thuật số (Digital Television -DT)
-Ứng dụng đồ họa tương tác.
-Multimedia tương tác
ISO 14496-2 (Video) - Advanced Simple Profile (ASP)
Simple Profile(SP) là profile sơ cấp nhất cho việc mã hóa video thành dạng mpeg-4,SP không có bất kỳ công cụ đi kèm nào để tác động tới file output,điều duy nhất có thể làm với SP là đặt frame size và frame fer second(fps)
Advanced Simple Profile(ASP) là dạng cải tiến của SP,tích hợp thêm một số tùy chọn quan trọng để điều chỉnh file output theo mềm dẻo hơn theo ý người sử dụng như B-Frames,QuarterPixel Motion Estimation, Global Motion Compensation,MPEG/Custom Quantization.
B-Frames/B-VOPS/Bi-directional encoding/prediction:
Ở giai đoạn bạn đầu,SP có hai loại frame được áp dụng để mã hóa mpeg-4,đó là I-frame và P-frame.
I-frame là một khung hình hoàn chỉnh và không cần nhận hỗ trợ từ frame khác,nó còn gọi là *** frame.
P-frame là frame chỉ bao gồm những phần khác biệt(có sự thay đổi thay đổi)từ P-frame hay I-frame trước.
Với ASP,ngưới sử dụng được tiếp xúc với một loại frame khác,đó là B-frame.Loại frame này được xây dựng để sử dụng dữ liệu từ những frame đứng cạnh nó(có thể là I hay P).B-frame có thể được nén rất nhiều so với các loại frame khác do đó làm giảm đáng kể dung lượng của file video có sử dụng nó.Những ASP codec có hỗ trợ B-frame được sử dụng nhiều nhất là DivX : từ 5.0 hay cao hơn),XviD…một codec rất nổi tiếng nhưng chưa hỗ trợ loại frame này là 3ivx.
Quarter Pixel Motion Search Precision (QPEL):
Theo mặc định,hầu hết các codec dành cho mpeg-4 đều nhận diện chuyển động với đơn vị là ½ điểm ảnh (HalfPel).Với QPEL,người sử dụng có thể dò chuyển động với đơn vị là ¼ điểm ảnh,như vậy độ chính xác được tăng lên gấp đôi.Với độ phân tích cụ thể gấp đôi(¼ thay vì ½),hình ảnh thu được cũng sẽ sắc nét hơn rất nhiều.
Global Motion Compensation (GMC):
GMC sử dung một vectơ chuyển động đơn (single motion vector) cho tất cả những phần chuyển động tương tự như nhau với những frame nó cho là có nhiều phần chuyển động.GMC sẽ giúp lưu lại những phần chuyển động nhỏ khi panning, zoom.Như vậy,với GMC,chuyển động sẽ trở nên sắc nét hơn ngay cả khi tạm dừng,phóng to hình ảnh…qua đó cải thiện chất lượng hình ảnh.
MPEG/Custom Quantization:
Ở SP,người sử dụng chỉ có thể sử dụng loại quantization là H.263,ASP cung cấp thêm một tính năng vượt trội hơn hẳn:người sử dụng có thể tự thiết lập quantization matrix riêng cho mình.H.263 quantization mặc định được thiết kế cho việc encode với bitrate thấp.Khi dùng nó,kết quả thu được sẽ là video có hình ảnh mịn-hơi mờ giống như khi áp dụng bộ lọc Blur trong Photoshop.Nếu trong codec mình đang sử dụng,bạn có thể chọn MPEG matrix,thì nên nhớ đây là matrix dành cho mpeg-4 với bitrate cao và sẽ không hợp lý khi dùng nó cho việc encode bitrate thấp.
Hiện nay trên thế giới phổ biến khá nhiều Custom Matrix tối ưu cho từng truờng hợp,nếu không thể tự xây dựng một Custom Matrix cho riêng mình,bạn có thể sử dụng Google để dễ dàng search thấy một và Matrix cần thiết.
Adaptive Quantization:
Trong quá trình encode với bitrate biến thiên(Variable Bitrate),khi sử dụng AQ,mỗi frame có thể được nén với những quantizer khác nhau.Thông qua một trình điều khiển của codec gọi là rate control,các frame khác nhau sẽ được cung cấp những quantizer khác nhau phụ thuộc vào bản chất hình ảnh của chúng.Ví dụ những phần chuyển động hay những phần hình ảnh sẫm màu khó nhận biết sẽ được xử lý với quant lớn hơn(độ nén cao hơn,dung lượng nhỏ hơn),những phần hay được hệ thống mắt người chú ý nhiều hơn sẽ được xử lý với quant thấp hơn(độ nén nhỏ hơn,dung lượng lớn hơn).
Với rất nhiều người dùng hiện nay,codec ASP nổi tiếng nhất được biết tới là DIVX,hiện nay đã phát triển một định dạng container mpeg-4 của riêng mình với phần mở rộng là .divx.Nhưng bạn nên biết rằng,ngoài DIVX codec,còn có rất nhiều ASP codec khác cũng mạnh mẽ và tương thích không kém.
Một số MPEG-4 ASP codec:
Dưới đây là bản danh sách một vài ASP codec :
3ivx
http://www.3ivx.com/
http://www.xvid.org/
http://www.divx.com
http://www.projectmayo.com/
http://www.nerodigital.com/
http://www.apple.com/quicktime/download/
http://www.envivio.com/
http://www.sorenson.com/
http://ffmpeg.sourceforge.net/
http://cutka.szm.sk/
Sơ qua về những ASP codec hàng đầu hiện nay:
DivX
Chắc chắn đây là codec đầu tiên cần được nhắc tới.Có thể nói đây là ASP codec nổi tiếng nhất,được sử dụng rộng rãi nhất trên thế giới hiện nay.Codec này cung cấp những tính năng ASP như QPEL,GMC(chỉ hỗ trợ 1 warpoints để vẫn có thể phát được trên một số thiết bị chuyên dụng),B-frame(chỉ cho phép tối đa 2 B-frame kề nhau),quant H.263 và MPEG(không thể tự tạo Custom Matrix).DivX là một codec mang tính thương mại cao,DivX Networks liên kết với rất nhiều công ty,tập đoàn khác để tạo nên những sản phẩm(phần cứng,phần mềm) tương thích với video sử dụng codec của họ.Hiện nay,DivXNetworks cũng đã nâng codec của họ lên một tầm cao mới khi công bố container .divx với những tính năng đồng bộ hầu như có thể tạo được một movie mpeg-4 có những chức năng giống hệt DVD.
XviD
Đây là một codec miễn phí và được xây dựng hoàn toàn bởi sự đam mê của nhóm tác giả.Có lẽ hiện nay,đây là ASP codec được giới encode đánh giá cao nhất.XviD cung cấp tất cả những gì một ASP codec có thể mang lại với B-frame(không giới hạn số B-frame liền nhau),QPEL,GMC(hỗ trợ tới 3 warpoints,lưu ý hiện tại không có loại thiết bị chuyên dụng nào có thể giải mã được mpeg-4 với 3 warpoints GMC), H.263/MPEG/Custom Quants,Adaptive Quants…XviD là sự kết hợp tuyệt vời giữa tốc độ,chất lượng và khả năng tùy biến cao.
3ivx
Là một trong những mpeg-4 codec đầu tiên.3ivx cung cấp tín năng H.263/MPEG Quants, Adaptive Quant,4 Vector Motion nhưng không có B-Frames, GMC và QPEL).3ivx là codec đầu tiên cho phép chọn Pixel Aspect Ratio hoàn toàn theo ý muốn(Custom PAR).
Nero Digital
Một ASP codec được phát triển bởi Nero trong thời gian gần đây.Dù xuất hiện sau,nhưng codec này đã nhanh chóng tìm được chỗ đứng với một chất lượng encode khá tốt và tốc độ ấn tượng.Nero Digital hỗ trợ 1 B-frame,GMC(3 warppoints), QPEL, h.263/MPEG/Custom Quants, Adaptive Quant.
Sự tương thích của MPEG-4 ASP codec với các thiết bị chuyên dụng:
Những loại chip giải mã dành cho thiết bị chuyên dụng đầu tiên không có khả năng hỗ trợ một vài tính năng của ASP codec(ví dụ như QPEL,GMC).Những chip giải mã thế hệ mới có thể hỗ trợ QPEL và GMC với chỉ 1 warppoint(không có bất cứ chip nào hỗ trợ 3WP GMC).Để đảm bảo sự tương thích cho file mpeg-4 với các lọai chip giải mã cũ,một khái niêm mới được đưa vào,đó là “private MPEG-4 Profiles”.Ví dụ với DivXNetworks,họ đưa ra 4 loại Certification profile gồm có Handheld,Portable,Hom Theater,High Definition.Các profile loại này sẽ không cho phép sử dụng những ASP tool có thể làm giảm tương thích của video với thiết bị.Do đó,sự tương thích đã bị đánh đổi bằng chất lượng.
ISO 14496-10 (Video) - Advanced Video Coding (AVC)
Chuẩn mã hóa mpeg-4 mới nhất- AVC/H.264 được hoàn thành gần như đồng thời vào năm 2003 bởi 2 nhóm,nhóm MPEG (Moving Pictures Experts Group) trực thuộc ISO và nhóm VCEG (Video Coding Experts Group) của ITU (International Telecommunication Union),một tổ chức nhỏ thuộc United Nations (UNO),đã tiêu chuẩn hóa dịnh dạng H.263(đang được dùng rất phổ biến)
AVC/H.264 tiêu chuẩn được phát triển bởi Joint Video Team (JVT),là một nhóm được thành lập từ việc sát nhập hai nhóm MPEG và VCEG.
Với nhóm MPEG,codec này được gọi là MPEG-4 Part 10 (ISO 14496-10).Với ITU,nó được gọi là H.264.Hiện nay,codec dạng này được biết đến dưới tên gọi thống nhất do MPEG đề ra: Advanced Video Coding (AVC).
AVC/H.264 Profile:
AVC/H264 tiêu chuẩn có 4 profile:
-Baseline.Cung cấp tùy chọn I/P-Frames,hỗ trợ progressive và CAVLC.
-Main.Cung cấp tùy chọn I/P/B-Frames,hỗ trợ progressive và interlaced,CAVLC hay CABAC
-Extended. Cung cấp tùy chọn I/P/B/SP/SI-Frames,hỗ trợ progressive và CAVLC.
-High.Cung cấp tùy chọn I/P/B-Frames,hỗ trợ progressive và interlaced,CAVLC hay CABAC.8x8 intra prediction, custom quants, lossless video coding,yuv formats (44...)
Những công cụ cơ bản của AVC codec:
CAVLC/CABAC:
AVC/H.264 đưa ra 2 công cụ mới cho việc mã hóa entropy của cú pháp bitstream(macro block-type, motionvectors + reference-index...) so với ASP codec.Đó là Context-Adaptive Variable Length Coding (CAVLC) và Context-Adaptive Binary Arithmetic Coding (CABAC).
CABAC,được so sánh với CAVLC(UVLC),phương pháp mặc định trong AVC/H.264,là một phương pháp nén mạnh mẽ hơn,nó được giới thiệu là làm hạ bitrate thêm tới khoảng 10 đến 15%(đặc biệt là với bitrarte cao). CABAC (như CAVLC) là một phương pháp lossless và vì vậy sẽ không hề ảnh hưởng tới chất lượng,nhưng sẽ làm chậm cả quá trình mã hóa và giải mã.
Bộ lọc Loop/Deblocking:
Trái ngược với prefiltering (thực thi trên file đưa vào-avisynth) hay postprocessing/filtering (thực thi trên file xuất ra cuối cùng), LoopFiltering được áp dụng trong suốt quá trình encode trên mọi frame đơn lẻ,sau khi nó được encode,nhưng trước đó nó sẽ được sử dụng để tham khảo cho những frame đến sau.Cải tiến mới này sẽ giúp tránh được hiện tượng blocking artifact,đặc biệt là với bitrate thấp.Nhưng tốc độ mã hóa,giải mã sẽ bị giảm sút.
Variable Block Sizes/Macroblock Partitions:
Vượt trội hơn ASP codec(với block size dao động giữa 16x16 và 8x8 pixel),AVC/H.264 cung cấp cho Motion Search Precision một sự phân chia linh hoạt hơn với 1 macroblock có thể giảm kích cỡ xuống còn 4x4(bao gồm cả những block như 8x4…).Kích cỡ của block là có thể tùy biến và thay đổi (adaptive/variable).Như vậy, 1 codec và trình hỗ trợ encode có thể đủ thông minh để quyết định lựa chọn size nào là thích hợp nhất cho mỗi macroblock xác định.
Multiple Reference Frames:
Không giống như với mpeg-4 ASP(chỉ sử dụng frame trước frame hiện tại đang xử lý để tham khảo),AVC/H.264 cung cấp nhiều sự lựa chọn hơn cho một frame trong quá trình tìm kiếm chuyển động.Có nghĩa là codec có thể chọn lựa một tham khảo đơn giản tới frame trước nó(giống như ASP) hay tới một frame trước đó nữa.Ví dụ một P-frame có thể tham khảo một frame trước I-frame gần nhất.Với sự liên kết giữa các frame được mở rộng như vậy,một loại frame mới cũng được thêm vào: IDR-Frame,là những I-frame phía trước nhưng không đứng liền kề frame được nó cho tham khảo.Multiple reference frames sẽ là chậm quá trình mã hóa và giải mã,đồng thời quá trình cắt một file AVC/H.264 dạng này sẽ chỉ thực hiện được tại những IDR-frame.
Weighted Prediction:
Với những đoạn film có hiệu ứng mờ dần(những frame đến sau rất giống so với những frame ngay trước nó,chỉ có sắc độ là khác một chút),WP có thể hỗ trợ quá trình mờ dần hay tối dần khung hình.Mặc dù vậy,WP sẽ không hỗ trợ trong trường hợp chuyển cảnh.
Rate Distortion Optimization (RDO):
RDO giúp cho trình encode có thể đạt được hiệu suất xử lý mã hóa cao nhất khi phải lựa chọn giữa nhiều tùy chọn.RDO không phải là một công cụ được định nghĩa bởi AVC/H.264 nhưng với nó,người sử dụng có một phương pháp tiếp cận xử lý mới được giới thiệu bởi phần mềm H.264.Các codec khác cũng có thể sử dụng RDO,như XviD với VHQ mode đã có sẵn RDO.
Về tốc độ mã hóa và giải mã.
AVC/H.264 codec chậm hơn rất nhiều so với ASP codec do tích hợp những công cụ tiên tiến đã được đề cập ở trên.Hiện tại,hai AVC/H.264 codec có tốc độ tốt nhất kèm theo một chất lượng hình ảnh xứng đáng là X264 và NeroDigitalAVC,mặc dù vậy tốc độ của chúng cũng chưa thể só sánh được với những ASP codec đã quá quen thuộc như DivX hay XviD.Nhưng việc mã hóa và giải mã AVC/H.264 cũng được nhận một sự trợ giúp đắc lực từ những nhà sản xuất CPU tốc độ cao như Intel và AMD bởi những thế hệ máy tính để bàn mới hiện nay đều có tốc độ xử lý rất nhanh và hoàn toàn có thể đáp ứng được yêu cầu tốc độ của codec mới này.
Một số AVC/H.264 encoder
Apple
Apple hỗ trợ 2pass, max 1 B-frame, Adapt. Quant, multiple Slices, không hỗ trợ CABAC, Loop và Weighted Prediction.Tìm thêm thông tin tại
http://www.apple.com/quicktime/
ND AVC hỗ trợ 2pass, CABAC, (adaptive) Loop, multiple B-Frames, mulitple Reference Frames, weighted prediction, 8x8 P-Frame Blocksizes, 16x16 B-Frame Blocksizes, Adaptive Quant. (Psy High)
Moonlight
Sử dụng với Moonlight's OneClick Compressor v1.1 và CyberLink's PowerEncoder,
Hỗ trợ 1pass (VBR/CBR/Fixed Quants), CABAC, Loop, 2 B-Frames, 8x8 P-Frame Sizes, Adapt. Quant, PAR, Interlacing.
X264
Là High Profile đầu tiên được công bố đại chúng,là một nguồn mở,miễn phí.
X264 hỗ trợ Npass encode, CABAC, Loop, multiple B-Frames, B-References, multiple Reference Frames, 4x4 P-Frame, 8x8 B-Frame Blocksizes, anamorphic signalling và High Profile: 8x8 dct và intra prediction, lossless và custom quant matrices cùng một loạt tùy chọn phụ khác.
Một số bộ giải mã AVC/H.264
Apple: bộ giải mã AVC của Quicktime 7.
Ffmpeg: một nguồn mở,được tích hợp trong một số bộ codec miễn phí như ffdshow (VFW và DShow decoder), mplayer và VideoLAN
Hỗ trợ B-Frames, B-References, CABAC, Loop, Weighted Prediction và High Profile (8x8 dct,intra prediction, lossless)
NeroDigital AVC:bộ giải mã của NeroDigital,hỗ trợ Main Profile và High Profile
Moonlight:bộ giải mã của Moonlight tích hợp trong Moonlight's MPEG Player v3.0
Hỗ trợ Main Profile High Profile.
Sự tương thích của MPEG-4 AVC codec với các thiết bị chuyên dụng:
Hiện tại,ngoại trừ computer,không có bất cứ một thiết bị nào được công bố rộng rãi là có khả năng giải mã tốt AVC/h.264 codec.Ngay cả bản thân codec này cũng chưa đạt đến một độ tương thích rộng rãi trên PC.Theo một vài nguồn tin,có thể trong tương lai,codec này sẽ được áp dụng cho HD-DVD để trở thành chuẩn video thông dụng tiếp theo thay thế cho chuẩn DVD hiện nay.
ISO 14496-3 Advanced Audio Coding (AAC)
Định nghĩa
Advanced Audio Coding (AAC) là một định dạng âm thanh đa năng nén theo kiểu lossy được định nghĩa bởi MPEG-2 tiêu chuẩn và được phát triển bởi sự liên kết của Fraunhofer, Dolby, Sony, AT&T.AAC được phát triển nhằm thay thế cho định dạng âm thanh đã quá nổi tiếng MP3 để tích hợp trong container MP4-một container của MPEG-4 tiêu chuẩn hỗ trợ đầy đủ các tính năng phụ(xem thêm phần MPEG-4).
AAC có thể tích hợp tới 48 kênh âm thanh (có sample rate tới 96KHz) cộng thêm 15 kênh âm thanh tần số thấp (Low Frequency Enhancement-LFE) giới hạn sample rate ở 120 Hz.
HE-AAC và LC-AAC
HE-AAC và LC-AAC là hai profile của MPEG-4 AAC tiêu chuẩn.
-LC nghĩa là “ít phức tạp”-Low Complexity.
-HE nghĩa là “hiệu quả cao”-high efficiency.HE-AAC cũng được hiểu theo cách khác là AACPlus,AAC+ hay AAC SBR(Spectral Band Replication)…
HE-AAC được phát triển nhằm sử dụng trong việc encode với bitrate thấp – đặc biệt có tác dụng với file âm thanh có sử dụng nhiều kênh (multichannel).
Những công cụ cho việc encode AAC.
Đối với LC profile:
-Apple AAC:chỉ hỗ trợ CBR với những bản Quicktime cũ hơn ver7.Từ Quicktime 7 trở đi có thể encode AAC VBR.Mặc dù vậy,đến thời điểm này Quicktime vẫn chưa hỗ trợ multichannel.
http://www.apple.com/quicktime/download/ http://www.apple.com/itunes/download/
http://www.audiocoding.com/
http://pessoal.onda.com.br/rjamorim/out_faac.zip
Dành cho CoolEdit
http://www.rarewares.org/files/case/cool_faac.zip
-Nero Burning rom và trình Wave Editor tích hợp có thể encode cả LC và HE AAC.Plugin có thể download tại
http://neroplugins.cd-rw.org/
http://www.real.com/
https://helix-producer.helixcommunity.org/downloads.htm
-BeLight
http://belight.corecodec.org/
-TheAACmachine Guide
GUI hỗ trợ cho AacEnc.exe 1.15 hay mới hơn
http://www.doom9.org/AacMachine.htm
http://www.dolby.com/ http://www.codingtechnologies.com/ http://www.videohelp.com/glossary
Bitrate
Là dung lượng mà thiết bị lưu trữ cần có để lưu trữ một giây âm thanh (hay video) tính theo bit (8bit=1byte).
Sample
Là một bộ phận của âm thanh analog được mã hóa thành dạng số.
Sample có thể dùng để chỉ một điểm đơn lẻ trong stream âm thanh số (là đơn vị nhỏ nhất của dữ liệu dùng để biểu diễn một tín hiệu âm thanh tại một khoảng thời gian nhất định).
Một âm thanh hoàn chỉnh hay toàn bộ một stream âm thanh số được cấu tạo từ việc kết hợp những sample riêng biệt ( một chuỗi sample ) cũng có thể được coi là một sample.
Sample Rate
Là số sample (tạm dịch là mẫu) trong một khoảng thời gian nhất định (thường là 1 giây) của âm thanh kỹ thuật số ,quyết định trực tiếp tới chất lượng âm thanh.Khi một tập tin âm thanh dạng số được ghi lại,nó phải được convert vào một chuỗi những mẫu (series of samples ) mà bản thân chúng có thể lưu lại được trên bộ nhớ ,trên các thiết bị lưu trữ kỹ thuật số.Sample rate sẽ thông báo cho ta biết trong tập tin âm thanh có bao nhiêu mẫu được ghi lại trong một giây.Đơn vị của sample rate là Hz .Ví dụ dễ hiểu ,một tập tin âm thanh được ghi ở sample rate 44100 sẽ cần đến 44100 mẫu/giây để lưu giữ âm thanh trong một chuỗi mẫu.Sample rate càng cao ,chất lượng của chuỗi mẫu càng tốt và càng ít xảy ra hiện tượng gọi là aliasing (là hiện tượng xuất hiện những tần số âm thanh không mong muốn sinh ra bởi việc thiếu hụt thông tin từ sample rate).Mỗi mẫu sẽ cần một lượng bit nhất định để lưu trữ gọi là sample size,và ta có thể tính toán dung lượng cần thiết cho một sample.Ví dụ ,với âm thanh 16 bit ,ta cần sử dụng 16 bit hay 2 byte cho một mẫu (8 bit=1 byte).Như vậy 1 giây âm thanh với sample rate 44100/16 bit mono (một kênh âm thanh) sẽ có độ lớn là 44100x2=88200 byte.Nếu cũng với các thông số như vậy nhưng thay vì mono ,ta sử dụng stereo (2 kênh âm thanh), dung lượng sẽ phải nhân đôi và trở thành 176400 byte.Đây là lý do vì sao âm thanh vòm (5.1) hay các loại âm thanh sử dụng nhiều kênh khác (6.1 ,7.1...) lớn hơn rất nhiều so với âm thanh stereo hay mono mặc dù chúng cũng được nén ở cùng chất lượng.
Lossy, lossless và uncompressed
Âm thanh uncompressed là loại âm thanh không áp dụng bất kỳ một phương pháp nén nào.Được sử dụng dưới định dạng WAV hay PCM.
Âm thanh lossless là loại âm thanh sử dụng phương pháp loại bỏ những dữ liệu không liên quan tồn tại trong file gốc để thu được một file nhỏ hơn nhưng vẫn giữ được chất lượng như ban đầu.Âm thanh xử lý lossless sẽ có bitrate thấp hơn so với âm thanh chưa nén.Âm thanh lossless được sử dụng rộng rãi và phát triển thành những định dạng quen thuộc như AC3, AAC, DTS, MPEG-1/2/3, Vorbis, Real Audio…
Âm thanh lossy là loại âm thanh thu được khi sử dụng những phần mềm encode âm thanh phổ biến hiện nay để chuyển đổi các định dạng âm thanh.Đây là loại âm thanh bị giảm chất lượng vì quá trình lossy encode sẽ không giữ nguyên những phần cần thiết trong file âm thanh gốc.Lấy ví dụ,khi encode từ WAV sang MP3,bạn đã thực hiện phương pháp lossy encode cho file âm thanh WAV chưa nén của mình,và file MP3 thu được đã bị giảm chất lượng so với file gốc,nó là âm thanh lossy.Mọi chuyện thậm chí còn tồi tệ hơn với việc encode file MP3 lossy đó thành OGG(có thể là định dạng khác),file OGG thu được đã bị quá trình encode lossy giảm chất lượng tới 2 lần.Đó là lý do bạn không nên encode quá nhiều lần một file âm thanh nhất định.Bạn cũng có thể nhận thấy sự mất chất lượng rõ ràng của dạng encode này khi nghe một CD nhạc ở dạng “theo yêu cầu” được các chủ hàng đĩa nhạc cung cấp,đơn giản bởi những đĩa CD đó không lấy nguồn uncompressed hay lossless như quá trình thu CD công nghiệp mà burn từ những file âm thanh lossy (mp3,wma…) download từ internet.
CBR/ABR/VBR
CBR-Constant bitrate-nghĩa là bitrate của stream là một hằng số và không thay đổi tại bất kỳ điểm nào của stream.
ABR-Average bitrate-nghĩa là stream có thể sử dụng bitrate thay đổi cho mỗi frame,nhưng bitrate trung bình của toàn bộ stream là cố định.
VBR-Variable bitrate-nghĩa là stream có thể sử dụng bitrate thay đổi cho mỗi frame và tùy biến để đạt được bitrate cần thiết cho mỗi frame,vì vậy bitrate trung bình không thể xác định trước khi encode hay tính toán cụ thể.
Stereo, joint stereo, và dual channel
Dual channel tích hợp bởi 2 kênh mono,nghĩa là mỗi kênh sẽ được encode với một nửa của toàn bộ bitrate.
Stereo tích hợp bởi 2 kênh âm thanh độc lập với nhau.Bitrate cung cấp giữa 2 kênh âm thanh thay đổi phù hợp với lượng thông tin được chứa trong mỗi kênh.
Joint stereo cũng tích hợp 2 kênh âm thanh nhưng có một bước tiến xa hơn vì có thể sử dụng được những mẫu chung thường xuất hiện ở cả 2 kênh.Do đó độ nén sẽ tốt hơn so với stereo bình thường.