A Flexible IIR Filtering Implementation for Audio Processing Juergen Schmidt, Technicolor R&I, Hannover

Size: px

Start display at page:

Download "A Flexible IIR Filtering Implementation for Audio Processing Juergen Schmidt, Technicolor R&I, Hannover"

Melissa Gilbert
6 years ago
Views:

1 A Flexible IIR Filtering Implementation for Audio Processing Juergen Schmidt, Technicolor R&I, Hannover

2 Motivation 3D audio 2

3 Motivation - Loudspeaker Equalization 3

4 Outline Infinite Impulse Response (IIR) Filter Definition, Decomposition IIR-Filter Architecture Derivation Recursion Problem Second Order System Application IIR-Filter Architecture for OpenCL Implementation Benchmarks, Performance Discussion 4

5 IIR-Filter Definition IIR-Filter (Infinite Impulse Response-Filter, Recursive-Filter) Equation ( ) = ( ) ( ) = Characteristics: Output y = f(input x, output y) Stability, convergence not guaranteed Double precision float for high quality audio applications Low demand on processing power 100Hz Butterworth LP-filter: 5

6 IIR-Filter Structure & Decomposition Direct IIR-filter structure Direct & recursive path Coefficient quantization stability problem with increasing filter order Decomposition into 2 nd order section filter products: Biquads partial fraction decomposition Pole/Zero analysis Complex pole pairs real coefficients Coefficient quantization noise ++ Stability Standard solution for audio processing 6

7 IIR-Filter Decomposition Example Loudspeaker equalization Averaged transfer function Apply tolerances and target TF IIR Filter calculation 40th order Stability! Biquad decomposition 20 Biquads (BQ) Stable Filtering Listening Room Example: 36 channels x 20 BQ = 720 BQ Theoretically min required ~10 FP-OPs/Biquad/sample ~350 MFLOPS CPU? GPU? 7

8 IIR-Filter Floating point precision comparison Single precision float Double precision float Samples Samples 8

First idea: Parallelization on samples & channels Problem: Acces on

9 IIR-Filter Architecture Recursion Problem How to implement IIR-filter on massiv parallel machines - GPU? First idea: Parallelization on samples & channels Problem: Acces on parallel calculated results necessary No recursion support on GPU! Parallelization on sample base inapplicable 9

10 IIR-Filter Architecture Second Order System Application 10

11 IIR-Filter Architecture Workgroup Organization 11

12 IIR-Filter Architecture Data Delay 12

IIR-Filter Architecture Data Delay and Block Sizes Cumulated processing delay very important for real-time applications Block size has high impact on delay Typical audio

13 IIR-Filter Architecture Data Delay and Block Sizes Cumulated processing delay very important for real-time applications Block size has high impact on delay Typical audio application: delay < 1 frame (20ms) Small block sizes Resources: Memory size ~ delay Arbitrary frame fizes and block sizes supported Applicable for all audio frame sizes Block-size 13

14 Implementation GPU Benchmarks: Data Block Size Variation Single GPU machine OpenCL processing times Increased processing power for small block size Large block sizes causes strong variation in processing times Optimal block size 4~8 Samples Biquads 14

15 Implementation GPU Benchmarks: Filter & Channel Variation Single midrange GPU Normalized OpenCL processing times Balanced Processing power Memory access causes no overhead Significant overhead for small block sizes Strong variation for very high number of Biquads Realtime application for all filter sizes 15

16 Implementation Comparison: CPU Benchmarks Dual Quad-Core CPUs Unchanged OpenCL code and implementation used Normalized OpenCL processing times Balanced processing power Memory access causes overhead Real-time application up to ~500 Biquads 16

17 Implementation Performance Discussion Audio signal processing requires double precision float Often not supported on low end GPUs OpenCL enables both processing on GPU and CPU Preferred processing: GPU High filter count Application profits from CPU load removal GPU execution well balanced (excellent compiler!) CPU execution a bit unbalanced due to memory access Real time requirements Delay small block size Efficient processing block size > 2 Recommended: block size of 4 or 8 samples 17

18 Summary Filter architecture to enable IIR filtering on GPUs High order IIR filters Many audio channels IIR filter problems Stability, noise, delay OpenCL architecture Dedicated structure with specialized buffers First known implementation Performance issues Application for GPU and CPU Realtime audio processing on midrange GPU 18

19 Many thanks you for your attention! 19

Exploring the features of OpenCL 2.0

Exploring the features of OpenCL 2.0 Saoni Mukherjee, Xiang Gong, Leiming Yu, Carter McCardwell, Yash Ukidave, Tuan Dao, Fanny Paravecino, David Kaeli Northeastern University Outline Introduction and evolution