تنسيق الترميز الصوتي

مقارنة كفاءة التشفير بين تنسيقات الصوت الشائعة

تنسيق الترميز الصوتي Audio coding format[1] (أو في بعض الأحيان تنسيق ضغط الصوت) هو تنسيق تمثيل المحتوى لتخزين أو إرسال صوت رقمي (مثل في تلفزيون رقمي ، البث الرقمي وفي ملفات الصوت والفيديو). تتضمن أمثلة تنسيقات التشفير الصوتي MP3 و AAC و Vorbis و FLAC و Opus. يسمى برنامج أو جهاز معين قادر على ضغط الصوت وفك الضغط إلى / من تنسيق ترميز صوتي محدد برنامج ترميز صوتي ؛ مثال على برنامج الترميز الصوتي هو LAME ، وهو واحد من العديد من برامج الترميز المختلفة التي تنفذ ترميز الصوت وفك ترميزه في تنسيق ترميز الصوت MP3 في البرنامج.

يتم توثيق بعض تنسيقات التشفير الصوتي بواسطة وثيقة مواصفات فنية تفصيلية تعرف باسم مواصفات تشفير الصوت. تتم كتابة بعض هذه المواصفات والموافقة عليها من قِبل منظمة التقييس باسم المعيار الفني ، وبالتالي تُعرف باسم معيار تشفير الصوت. يُستخدم مصطلح "المعيار" أيضًا في بعض الأحيان لـ المعايير "الواقعية" وكذلك المعايير الرسمية.

عادةً ما يتم تغليف المحتوى الصوتي المرمّز بتنسيق ترميز صوتي خاص ضمن تنسيق الحاوية. على هذا النحو ، لا يمتلك المستخدم عادةً ملف AAC الخام ، ولكن بدلاً من ذلك يحتوي على .m4a ملف صوتي ، وهو MPEG-4 Part 14 حاوية تحتوي على صوت مشفر بواسطة AAC. تحتوي الحاوية أيضًا على البيانات الوصفية مثل العنوان والعلامات الأخرى ، وربما فهرس للبحث السريع.[2] الاستثناء الملحوظ هي ملفات MP3 ، وهي ترميز صوتي خام بدون تنسيق حاوية. المعايير الفعلية لإضافة علامات البيانات الوصفية مثل العنوان والفنان إلى ملفات MP3 ، مثل ID3 ، عبارة عن اختراق الذي يعمل عن طريق إلحاق العلامات إلى MP3 ، ثم الاعتماد على مشغل MP3 للتعرف على المقطع على أنه تشفير صوتي مشوه وبالتالي تخطيه. في ملفات الفيديو ذات الصوت ، يتم تجميع محتوى الصوت المشفر مع فيديو (في تنسيق ترميز الفيديو) داخل تنسيق حاوية الوسائط المتعددة.

لا يملي تنسيق التشفير الصوتي لكل الخوارزميات المستخدمة بواسطة برنامج الترميز الذي ينفذ التنسيق. جزء مهم من كيفية عمل الضغط الصوتي ذو الفقد هو إزالة البيانات بطرق لا يمكن للبشر سماعها ، وفقًا لـ نموذج صوتي ؛ يتمتع مُنفذ برنامج التشفير ببعض الحرية في الاختيار لإزالة البيانات (وفقًا لنموذج الصوت الخاص بهم).

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

تنسيقات ترميز صوتي مع و بدون فقد وغير مضغوط

يقلل تنسيق الترميز الصوتي بدون فقد من إجمالي البيانات المطلوبة لتمثيل الصوت ولكن يمكن فك تشفيره إلى شكله الأصلي غير المضغوط. كما يقلل تنسيق تشفير الصوت مع فقد أيضًا دقة البت من الصوت فوق الضغط ، مما يؤدي إلى بيانات أقل بكثير بتكلفة المعلومات المفقودة بشكل غير قابل للاسترداد.

غالبًا ما يتم ضغط صوت المستهلك باستخدام برامج ترميز الصوت ذات الفقد لأن الحجم الأصغر هو أكثر ملاءمة للتوزيع. أكثر تنسيقات التشفير الصوتي استخدامًا هي MP3 و التشفير الصوتي المتقدم (AAC) ، وكلاهما تنسيقات ذات فقد تستند إلى تحويل جيب التمام المنفصل المعدل (MDCT) و خوارزميات التشفير الإدراكي.

تتوفر أحيانًا تنسيقات تشفير الصوت بدون فقد مثل FLAC و Apple Lossless ، على الرغم من تكلفة الملفات الأكبر حجمًا.

يتم أيضًا استخدام تنسيقات صوت غير مضغوط ، مثل تعديل شفرة النبض (PCM أو .wav). كان PCM هو التنسيق القياسي لـ قرص مضغوط رقمي صوتي (CDDA) ، قبل أن يصبح الضغط الضائع في النهاية هو المعيار بعد إدخال MP3.


تاريخ

Solidyne 922: أول ضغط بت صوتي تجاري في العالم بطاقة صوت لكمبيوتر شخصي ، 1990

في عام 1950 ، قدمت مختبرات بل براءة اختراع تعديل شفرة النبض التفاضلي (DPCM).[3] التكيفيDPCM (ADPCM) تم تقديمه بواسطة P. Cummiskey ، نيكيل س. جايانت و جيمس ل. فلانَگان في مختبرات Bell في 1973.[4][5]

تم استخدام الترميز الحسي لأول مرة لضغط تشفير الكلام ، مع التشفير التنبؤي الخطي (LPC).[6] تعود المفاهيم الأولية لـ LPC إلى عمل فُمِتادا إتاكورا (جامعة ناگويا) وشوزو سايتو (تلگراف و تلفون نپون) في عام 1966.[7]خلال السبعينيات ، طور بِشنو س. أتال و مانفرد ر. شرودر في مختبرات بِل شكلًا من LPC يسمى الترميز التنبؤي التكيفي (APC) ، خوارزمية ترميز إدراكي استغل خصائص التقنيع للأذن البشرية ، متبوعًا في أوائل الثمانينيات باستخدام خوارزمية التنبؤ الخطي للرمز المثار (CELP) الذي حقق نسبة ضغط مهمة في ذلك الزمن.[6] يستخدم الترميز الإدراكي من خلال تنسيقات ضغط الصوت الحديثة مثل MP3[6] و AAC.

تم تطوير تحويل جيب التمام المنفصل (DCT) ، بواسطة ناصر أحمد ، ت. ناتاراجان و ك. ر. راو عام 1974,[8] قدمت الأساس لـ تحويل جيب التمام المنفصل المعدل (MDCT) الذي تستخدمه تنسيقات ضغط الصوت الحديثة مثل MP3[9] و AAC. تم اقتراح MDCT من قبل جي.پي. پرنسن و أ. و. جونسن و أ. ب. برادلي في عام 1987,[10] بعد عمل سابق من قبل پرنسن وبرادلي في عام 1986.[11] يتم استخدام MDCT من خلال تنسيقات ضغط الصوت الحديثة مثل Dolby Digital,[12][13] MP3,[9] و Advanced Audio Coding (AAC).[14]

قائمة بالتنسيقات ذات الفقد

عام

خوارزمية الضغط الأساسية معيار ترميز الصوت اختصار الإطلاق الحصة السوقية (2019)[15] Ref
Modified discrete cosine transform (MDCT) Dolby Digital (AC-3) AC3 1991 58% [12][16]
Adaptive Transform Acoustic Coding ATRAC 1992 Unknown [12]
MPEG Layer III MP3 1993 49% [9][17]
Advanced Audio Coding (MPEG-2 / MPEG-4) AAC 1997 88% [14][12]
Windows Media Audio WMA 1999 Unknown [12]
Ogg Vorbis Ogg 2000 7% [18][12]
Constrained Energy Lapped Transform CELT 2011 N/A [19]
Opus Opus 2012 8% [20]
LDAC LDAC 2015 Unknown [21][22]
Adaptive differential pulse-code modulation (ADPCM) aptX / aptX-HD aptX 1989 Unknown [23]
Digital Theater Systems DTS 1990 14% [24][25]
Master Quality Authenticated MQA 2014 Unknown
Sub-band coding (SBC) MPEG-1 Audio Layer II MP2 1993 Unknown
Musepack MPC 1997

الكلام

قائمة بالتنسيقات بدون فقد

انظر أيضاً

المصادر

  1. ^ The term "audio coding" can be seen in e.g. the name Advanced Audio Coding, and is analogous to the term video coding
  2. ^ "Video - Where is synchronization information stored in container formats?".
  3. ^ US2٬605٬361 (PDF version) ({{{y}}}-{{{m}}}-{{{d}}}) C. Chapin Cutler, Differential Quantization of Communication Signals. 
  4. ^ P. Cummiskey, Nikil S. Jayant, and J. L. Flanagan, "Adaptive quantization in differential PCM coding of speech", Bell Syst. Tech. J., vol. 52, pp. 1105—1118, Sept. 1973
  5. ^ Cummiskey, P.; Jayant, Nikil S.; Flanagan, J. L. (1973). "Adaptive quantization in differential PCM coding of speech". The Bell System Technical Journal. 52 (7): 1105–1118. doi:10.1002/j.1538-7305.1973.tb02007.x. ISSN 0005-8580.
  6. ^ أ ب ت Schroeder, Manfred R. (2014). "Bell Laboratories". Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder. Springer. p. 388. ISBN 9783319056609.
  7. ^ Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
  8. ^ Nasir Ahmed; T. Natarajan; Kamisetty Ramamohan Rao (January 1974). "Discrete Cosine Transform" (PDF). IEEE Transactions on Computers. C-23 (1): 90–93. doi:10.1109/T-C.1974.223784.
  9. ^ أ ب ت Guckert, John (Spring 2012). "The Use of FFT and MDCT in MP3 Audio Compression" (PDF). University of Utah. Retrieved 14 July 2019.
  10. ^ J. P. Princen, A. W. Johnson und A. B. Bradley: Subband/transform coding using filter bank designs based on time domain aliasing cancellation, IEEE Proc. Intl. Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2161–2164, 1987.
  11. ^ John P. Princen, Alan B. Bradley: Analysis/synthesis filter bank design based on time domain aliasing cancellation, IEEE Trans. Acoust. Speech Signal Processing, ASSP-34 (5), 1153–1161, 1986.
  12. ^ أ ب ت ث ج ح Luo, Fa-Long (2008). Mobile Multimedia Broadcasting Standards: Technology and Practice. Springer Science & Business Media. p. 590. ISBN 9780387782638.
  13. ^ Britanak, V. (2011). "On Properties, Relations, and Simplified Implementation of Filter Banks in the Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE Transactions on Audio, Speech, and Language Processing. 19 (5): 1231–1241. doi:10.1109/TASL.2010.2087755.
  14. ^ أ ب Brandenburg, Karlheinz (1999). "MP3 and AAC Explained" (PDF). Archived (PDF) from the original on 2017-02-13.
  15. ^ "Video Developer Report 2019" (PDF). Bitmovin. 2019. Retrieved 5 November 2019.
  16. ^ Britanak, V. (2011). "On Properties, Relations, and Simplified Implementation of Filter Banks in the Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE Transactions on Audio, Speech, and Language Processing. 19 (5): 1231–1241. doi:10.1109/TASL.2010.2087755.
  17. ^ Stanković, Radomir S.; Astola, Jaakko T. (2012). "Reminiscences of the Early Work in DCT: Interview with K.R. Rao" (PDF). Reprints from the Early Days of Information Sciences. 60. Retrieved 13 October 2019.
  18. ^ Xiph.Org Foundation (2009-06-02). "Vorbis I specification - 1.1.2 Classification". Xiph.Org Foundation. Retrieved 2009-09-22.
  19. ^ Presentation of the CELT codec by Timothy B. Terriberry (65 minutes of video, see also presentation slides in PDF)
  20. ^ (October 2013) "High-Quality, Low-Delay Music Coding in the Opus Codec" in 135th AES Convention., Audio Engineering Society. 
  21. ^ Darko, John H. (2017-03-29). "The inconvenient truth about Bluetooth audio". DAR__KO. Retrieved 2018-01-13.
  22. ^ Ford, Jez (2015-08-24). "What is Sony LDAC, and how does it do it?". AVHub. Retrieved 2018-01-13.{{cite web}}: CS1 maint: url-status (link)
  23. ^ Ford, Jez (2016-11-22). "aptX HD - lossless or lossy?". AVHub. Retrieved 2018-01-13.{{cite web}}: CS1 maint: url-status (link)
  24. ^ "Digital Theater Systems Audio Formats". Library of Congress. 27 December 2011. Retrieved 10 November 2019.
  25. ^ Spanias, Andreas; Painter, Ted; Atti, Venkatraman (2006). Audio Signal Processing and Coding. John Wiley & Sons. p. 338. ISBN 9780470041963.
الكلمات الدالة: