scale.cc 62 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001011021031041051061071081091101111121131141151161171181191201211221231241251261271281291301311321331341351361371381391401411421431441451461471481491501511521531541551561571581591601611621631641651661671681691701711721731741751761771781791801811821831841851861871881891901911921931941951961971981992002012022032042052062072082092102112122132142152162172182192202212222232242252262272282292302312322332342352362372382392402412422432442452462472482492502512522532542552562572582592602612622632642652662672682692702712722732742752762772782792802812822832842852862872882892902912922932942952962972982993003013023033043053063073083093103113123133143153163173183193203213223233243253263273283293303313323333343353363373383393403413423433443453463473483493503513523533543553563573583593603613623633643653663673683693703713723733743753763773783793803813823833843853863873883893903913923933943953963973983994004014024034044054064074084094104114124134144154164174184194204214224234244254264274284294304314324334344354364374384394404414424434444454464474484494504514524534544554564574584594604614624634644654664674684694704714724734744754764774784794804814824834844854864874884894904914924934944954964974984995005015025035045055065075085095105115125135145155165175185195205215225235245255265275285295305315325335345355365375385395405415425435445455465475485495505515525535545555565575585595605615625635645655665675685695705715725735745755765775785795805815825835845855865875885895905915925935945955965975985996006016026036046056066076086096106116126136146156166176186196206216226236246256266276286296306316326336346356366376386396406416426436446456466476486496506516526536546556566576586596606616626636646656666676686696706716726736746756766776786796806816826836846856866876886896906916926936946956966976986997007017027037047057067077087097107117127137147157167177187197207217227237247257267277287297307317327337347357367377387397407417427437447457467477487497507517527537547557567577587597607617627637647657667677687697707717727737747757767777787797807817827837847857867877887897907917927937947957967977987998008018028038048058068078088098108118128138148158168178188198208218228238248258268278288298308318328338348358368378388398408418428438448458468478488498508518528538548558568578588598608618628638648658668678688698708718728738748758768778788798808818828838848858868878888898908918928938948958968978988999009019029039049059069079089099109119129139149159169179189199209219229239249259269279289299309319329339349359369379389399409419429439449459469479489499509519529539549559569579589599609619629639649659669679689699709719729739749759769779789799809819829839849859869879889899909919929939949959969979989991000100110021003100410051006100710081009101010111012101310141015101610171018101910201021102210231024102510261027102810291030103110321033103410351036103710381039104010411042104310441045104610471048104910501051105210531054105510561057105810591060106110621063106410651066106710681069107010711072107310741075107610771078107910801081108210831084108510861087108810891090109110921093109410951096109710981099110011011102110311041105110611071108110911101111111211131114111511161117111811191120112111221123112411251126112711281129113011311132113311341135113611371138113911401141114211431144114511461147114811491150115111521153115411551156115711581159116011611162116311641165116611671168116911701171117211731174117511761177117811791180118111821183118411851186118711881189119011911192119311941195119611971198119912001201120212031204120512061207120812091210121112121213121412151216121712181219122012211222122312241225122612271228122912301231123212331234123512361237123812391240124112421243124412451246124712481249125012511252125312541255125612571258125912601261126212631264126512661267126812691270127112721273127412751276127712781279128012811282128312841285128612871288128912901291129212931294129512961297129812991300130113021303130413051306130713081309131013111312131313141315131613171318131913201321132213231324132513261327132813291330133113321333133413351336133713381339134013411342134313441345134613471348134913501351135213531354135513561357135813591360136113621363136413651366136713681369137013711372137313741375137613771378137913801381138213831384138513861387138813891390139113921393139413951396139713981399140014011402140314041405140614071408140914101411141214131414141514161417141814191420142114221423142414251426142714281429143014311432143314341435143614371438143914401441144214431444144514461447144814491450145114521453145414551456145714581459146014611462146314641465146614671468146914701471147214731474147514761477147814791480148114821483148414851486148714881489149014911492149314941495149614971498149915001501150215031504150515061507150815091510151115121513151415151516151715181519152015211522152315241525152615271528152915301531153215331534153515361537153815391540154115421543154415451546154715481549155015511552155315541555155615571558155915601561156215631564156515661567156815691570157115721573157415751576157715781579158015811582158315841585158615871588158915901591159215931594159515961597159815991600160116021603160416051606160716081609161016111612161316141615161616171618161916201621162216231624162516261627162816291630163116321633163416351636163716381639164016411642164316441645164616471648164916501651165216531654165516561657165816591660166116621663166416651666166716681669167016711672167316741675167616771678167916801681168216831684168516861687168816891690169116921693169416951696169716981699170017011702170317041705170617071708170917101711171217131714171517161717171817191720172117221723172417251726172717281729173017311732173317341735173617371738173917401741174217431744174517461747174817491750175117521753175417551756175717581759176017611762176317641765176617671768176917701771177217731774177517761777177817791780178117821783178417851786178717881789179017911792179317941795179617971798179918001801180218031804180518061807180818091810181118121813181418151816181718181819182018211822182318241825182618271828182918301831183218331834183518361837183818391840184118421843184418451846184718481849185018511852185318541855185618571858185918601861186218631864186518661867186818691870187118721873187418751876187718781879188018811882188318841885188618871888188918901891189218931894189518961897189818991900
  1. /*
  2. * Copyright 2011 The LibYuv Project Authors. All rights reserved.
  3. *
  4. * Use of this source code is governed by a BSD-style license
  5. * that can be found in the LICENSE file in the root of the source
  6. * tree. An additional intellectual property rights grant can be found
  7. * in the file PATENTS. All contributing project authors may
  8. * be found in the AUTHORS file in the root of the source tree.
  9. */
  10. #include "libyuv/scale.h"
  11. #include <assert.h>
  12. #include <string.h>
  13. #include "libyuv/cpu_id.h"
  14. #include "libyuv/planar_functions.h" // For CopyPlane
  15. #include "libyuv/row.h"
  16. #include "libyuv/scale_row.h"
  17. #ifdef __cplusplus
  18. namespace libyuv {
  19. extern "C" {
  20. #endif
  21. static __inline int Abs(int v) {
  22. return v >= 0 ? v : -v;
  23. }
  24. #define SUBSAMPLE(v, a, s) (v < 0) ? (-((-v + a) >> s)) : ((v + a) >> s)
  25. // Scale plane, 1/2
  26. // This is an optimized version for scaling down a plane to 1/2 of
  27. // its original size.
  28. static void ScalePlaneDown2(int src_width,
  29. int src_height,
  30. int dst_width,
  31. int dst_height,
  32. int src_stride,
  33. int dst_stride,
  34. const uint8* src_ptr,
  35. uint8* dst_ptr,
  36. enum FilterMode filtering) {
  37. int y;
  38. void (*ScaleRowDown2)(const uint8* src_ptr, ptrdiff_t src_stride,
  39. uint8* dst_ptr, int dst_width) =
  40. filtering == kFilterNone
  41. ? ScaleRowDown2_C
  42. : (filtering == kFilterLinear ? ScaleRowDown2Linear_C
  43. : ScaleRowDown2Box_C);
  44. int row_stride = src_stride << 1;
  45. (void)src_width;
  46. (void)src_height;
  47. if (!filtering) {
  48. src_ptr += src_stride; // Point to odd rows.
  49. src_stride = 0;
  50. }
  51. #if defined(HAS_SCALEROWDOWN2_NEON)
  52. if (TestCpuFlag(kCpuHasNEON)) {
  53. ScaleRowDown2 =
  54. filtering == kFilterNone
  55. ? ScaleRowDown2_Any_NEON
  56. : (filtering == kFilterLinear ? ScaleRowDown2Linear_Any_NEON
  57. : ScaleRowDown2Box_Any_NEON);
  58. if (IS_ALIGNED(dst_width, 16)) {
  59. ScaleRowDown2 = filtering == kFilterNone ? ScaleRowDown2_NEON
  60. : (filtering == kFilterLinear
  61. ? ScaleRowDown2Linear_NEON
  62. : ScaleRowDown2Box_NEON);
  63. }
  64. }
  65. #endif
  66. #if defined(HAS_SCALEROWDOWN2_SSSE3)
  67. if (TestCpuFlag(kCpuHasSSSE3)) {
  68. ScaleRowDown2 =
  69. filtering == kFilterNone
  70. ? ScaleRowDown2_Any_SSSE3
  71. : (filtering == kFilterLinear ? ScaleRowDown2Linear_Any_SSSE3
  72. : ScaleRowDown2Box_Any_SSSE3);
  73. if (IS_ALIGNED(dst_width, 16)) {
  74. ScaleRowDown2 =
  75. filtering == kFilterNone
  76. ? ScaleRowDown2_SSSE3
  77. : (filtering == kFilterLinear ? ScaleRowDown2Linear_SSSE3
  78. : ScaleRowDown2Box_SSSE3);
  79. }
  80. }
  81. #endif
  82. #if defined(HAS_SCALEROWDOWN2_AVX2)
  83. if (TestCpuFlag(kCpuHasAVX2)) {
  84. ScaleRowDown2 =
  85. filtering == kFilterNone
  86. ? ScaleRowDown2_Any_AVX2
  87. : (filtering == kFilterLinear ? ScaleRowDown2Linear_Any_AVX2
  88. : ScaleRowDown2Box_Any_AVX2);
  89. if (IS_ALIGNED(dst_width, 32)) {
  90. ScaleRowDown2 = filtering == kFilterNone ? ScaleRowDown2_AVX2
  91. : (filtering == kFilterLinear
  92. ? ScaleRowDown2Linear_AVX2
  93. : ScaleRowDown2Box_AVX2);
  94. }
  95. }
  96. #endif
  97. #if defined(HAS_SCALEROWDOWN2_DSPR2)
  98. if (TestCpuFlag(kCpuHasDSPR2) && IS_ALIGNED(src_ptr, 4) &&
  99. IS_ALIGNED(src_stride, 4) && IS_ALIGNED(row_stride, 4) &&
  100. IS_ALIGNED(dst_ptr, 4) && IS_ALIGNED(dst_stride, 4)) {
  101. ScaleRowDown2 = filtering ? ScaleRowDown2Box_DSPR2 : ScaleRowDown2_DSPR2;
  102. }
  103. #endif
  104. #if defined(HAS_SCALEROWDOWN2_MSA)
  105. if (TestCpuFlag(kCpuHasMSA)) {
  106. ScaleRowDown2 =
  107. filtering == kFilterNone
  108. ? ScaleRowDown2_Any_MSA
  109. : (filtering == kFilterLinear ? ScaleRowDown2Linear_Any_MSA
  110. : ScaleRowDown2Box_Any_MSA);
  111. if (IS_ALIGNED(dst_width, 32)) {
  112. ScaleRowDown2 = filtering == kFilterNone ? ScaleRowDown2_MSA
  113. : (filtering == kFilterLinear
  114. ? ScaleRowDown2Linear_MSA
  115. : ScaleRowDown2Box_MSA);
  116. }
  117. }
  118. #endif
  119. if (filtering == kFilterLinear) {
  120. src_stride = 0;
  121. }
  122. // TODO(fbarchard): Loop through source height to allow odd height.
  123. for (y = 0; y < dst_height; ++y) {
  124. ScaleRowDown2(src_ptr, src_stride, dst_ptr, dst_width);
  125. src_ptr += row_stride;
  126. dst_ptr += dst_stride;
  127. }
  128. }
  129. static void ScalePlaneDown2_16(int src_width,
  130. int src_height,
  131. int dst_width,
  132. int dst_height,
  133. int src_stride,
  134. int dst_stride,
  135. const uint16* src_ptr,
  136. uint16* dst_ptr,
  137. enum FilterMode filtering) {
  138. int y;
  139. void (*ScaleRowDown2)(const uint16* src_ptr, ptrdiff_t src_stride,
  140. uint16* dst_ptr, int dst_width) =
  141. filtering == kFilterNone
  142. ? ScaleRowDown2_16_C
  143. : (filtering == kFilterLinear ? ScaleRowDown2Linear_16_C
  144. : ScaleRowDown2Box_16_C);
  145. int row_stride = src_stride << 1;
  146. (void)src_width;
  147. (void)src_height;
  148. if (!filtering) {
  149. src_ptr += src_stride; // Point to odd rows.
  150. src_stride = 0;
  151. }
  152. #if defined(HAS_SCALEROWDOWN2_16_NEON)
  153. if (TestCpuFlag(kCpuHasNEON) && IS_ALIGNED(dst_width, 16)) {
  154. ScaleRowDown2 =
  155. filtering ? ScaleRowDown2Box_16_NEON : ScaleRowDown2_16_NEON;
  156. }
  157. #endif
  158. #if defined(HAS_SCALEROWDOWN2_16_SSE2)
  159. if (TestCpuFlag(kCpuHasSSE2) && IS_ALIGNED(dst_width, 16)) {
  160. ScaleRowDown2 =
  161. filtering == kFilterNone
  162. ? ScaleRowDown2_16_SSE2
  163. : (filtering == kFilterLinear ? ScaleRowDown2Linear_16_SSE2
  164. : ScaleRowDown2Box_16_SSE2);
  165. }
  166. #endif
  167. #if defined(HAS_SCALEROWDOWN2_16_DSPR2)
  168. if (TestCpuFlag(kCpuHasDSPR2) && IS_ALIGNED(src_ptr, 4) &&
  169. IS_ALIGNED(src_stride, 4) && IS_ALIGNED(row_stride, 4) &&
  170. IS_ALIGNED(dst_ptr, 4) && IS_ALIGNED(dst_stride, 4)) {
  171. ScaleRowDown2 =
  172. filtering ? ScaleRowDown2Box_16_DSPR2 : ScaleRowDown2_16_DSPR2;
  173. }
  174. #endif
  175. if (filtering == kFilterLinear) {
  176. src_stride = 0;
  177. }
  178. // TODO(fbarchard): Loop through source height to allow odd height.
  179. for (y = 0; y < dst_height; ++y) {
  180. ScaleRowDown2(src_ptr, src_stride, dst_ptr, dst_width);
  181. src_ptr += row_stride;
  182. dst_ptr += dst_stride;
  183. }
  184. }
  185. // Scale plane, 1/4
  186. // This is an optimized version for scaling down a plane to 1/4 of
  187. // its original size.
  188. static void ScalePlaneDown4(int src_width,
  189. int src_height,
  190. int dst_width,
  191. int dst_height,
  192. int src_stride,
  193. int dst_stride,
  194. const uint8* src_ptr,
  195. uint8* dst_ptr,
  196. enum FilterMode filtering) {
  197. int y;
  198. void (*ScaleRowDown4)(const uint8* src_ptr, ptrdiff_t src_stride,
  199. uint8* dst_ptr, int dst_width) =
  200. filtering ? ScaleRowDown4Box_C : ScaleRowDown4_C;
  201. int row_stride = src_stride << 2;
  202. (void)src_width;
  203. (void)src_height;
  204. if (!filtering) {
  205. src_ptr += src_stride * 2; // Point to row 2.
  206. src_stride = 0;
  207. }
  208. #if defined(HAS_SCALEROWDOWN4_NEON)
  209. if (TestCpuFlag(kCpuHasNEON)) {
  210. ScaleRowDown4 =
  211. filtering ? ScaleRowDown4Box_Any_NEON : ScaleRowDown4_Any_NEON;
  212. if (IS_ALIGNED(dst_width, 8)) {
  213. ScaleRowDown4 = filtering ? ScaleRowDown4Box_NEON : ScaleRowDown4_NEON;
  214. }
  215. }
  216. #endif
  217. #if defined(HAS_SCALEROWDOWN4_SSSE3)
  218. if (TestCpuFlag(kCpuHasSSSE3)) {
  219. ScaleRowDown4 =
  220. filtering ? ScaleRowDown4Box_Any_SSSE3 : ScaleRowDown4_Any_SSSE3;
  221. if (IS_ALIGNED(dst_width, 8)) {
  222. ScaleRowDown4 = filtering ? ScaleRowDown4Box_SSSE3 : ScaleRowDown4_SSSE3;
  223. }
  224. }
  225. #endif
  226. #if defined(HAS_SCALEROWDOWN4_AVX2)
  227. if (TestCpuFlag(kCpuHasAVX2)) {
  228. ScaleRowDown4 =
  229. filtering ? ScaleRowDown4Box_Any_AVX2 : ScaleRowDown4_Any_AVX2;
  230. if (IS_ALIGNED(dst_width, 16)) {
  231. ScaleRowDown4 = filtering ? ScaleRowDown4Box_AVX2 : ScaleRowDown4_AVX2;
  232. }
  233. }
  234. #endif
  235. #if defined(HAS_SCALEROWDOWN4_DSPR2)
  236. if (TestCpuFlag(kCpuHasDSPR2) && IS_ALIGNED(row_stride, 4) &&
  237. IS_ALIGNED(src_ptr, 4) && IS_ALIGNED(src_stride, 4) &&
  238. IS_ALIGNED(dst_ptr, 4) && IS_ALIGNED(dst_stride, 4)) {
  239. ScaleRowDown4 = filtering ? ScaleRowDown4Box_DSPR2 : ScaleRowDown4_DSPR2;
  240. }
  241. #endif
  242. #if defined(HAS_SCALEROWDOWN4_MSA)
  243. if (TestCpuFlag(kCpuHasMSA)) {
  244. ScaleRowDown4 =
  245. filtering ? ScaleRowDown4Box_Any_MSA : ScaleRowDown4_Any_MSA;
  246. if (IS_ALIGNED(dst_width, 16)) {
  247. ScaleRowDown4 = filtering ? ScaleRowDown4Box_MSA : ScaleRowDown4_MSA;
  248. }
  249. }
  250. #endif
  251. if (filtering == kFilterLinear) {
  252. src_stride = 0;
  253. }
  254. for (y = 0; y < dst_height; ++y) {
  255. ScaleRowDown4(src_ptr, src_stride, dst_ptr, dst_width);
  256. src_ptr += row_stride;
  257. dst_ptr += dst_stride;
  258. }
  259. }
  260. static void ScalePlaneDown4_16(int src_width,
  261. int src_height,
  262. int dst_width,
  263. int dst_height,
  264. int src_stride,
  265. int dst_stride,
  266. const uint16* src_ptr,
  267. uint16* dst_ptr,
  268. enum FilterMode filtering) {
  269. int y;
  270. void (*ScaleRowDown4)(const uint16* src_ptr, ptrdiff_t src_stride,
  271. uint16* dst_ptr, int dst_width) =
  272. filtering ? ScaleRowDown4Box_16_C : ScaleRowDown4_16_C;
  273. int row_stride = src_stride << 2;
  274. (void)src_width;
  275. (void)src_height;
  276. if (!filtering) {
  277. src_ptr += src_stride * 2; // Point to row 2.
  278. src_stride = 0;
  279. }
  280. #if defined(HAS_SCALEROWDOWN4_16_NEON)
  281. if (TestCpuFlag(kCpuHasNEON) && IS_ALIGNED(dst_width, 8)) {
  282. ScaleRowDown4 =
  283. filtering ? ScaleRowDown4Box_16_NEON : ScaleRowDown4_16_NEON;
  284. }
  285. #endif
  286. #if defined(HAS_SCALEROWDOWN4_16_SSE2)
  287. if (TestCpuFlag(kCpuHasSSE2) && IS_ALIGNED(dst_width, 8)) {
  288. ScaleRowDown4 =
  289. filtering ? ScaleRowDown4Box_16_SSE2 : ScaleRowDown4_16_SSE2;
  290. }
  291. #endif
  292. #if defined(HAS_SCALEROWDOWN4_16_DSPR2)
  293. if (TestCpuFlag(kCpuHasDSPR2) && IS_ALIGNED(row_stride, 4) &&
  294. IS_ALIGNED(src_ptr, 4) && IS_ALIGNED(src_stride, 4) &&
  295. IS_ALIGNED(dst_ptr, 4) && IS_ALIGNED(dst_stride, 4)) {
  296. ScaleRowDown4 =
  297. filtering ? ScaleRowDown4Box_16_DSPR2 : ScaleRowDown4_16_DSPR2;
  298. }
  299. #endif
  300. if (filtering == kFilterLinear) {
  301. src_stride = 0;
  302. }
  303. for (y = 0; y < dst_height; ++y) {
  304. ScaleRowDown4(src_ptr, src_stride, dst_ptr, dst_width);
  305. src_ptr += row_stride;
  306. dst_ptr += dst_stride;
  307. }
  308. }
  309. // Scale plane down, 3/4
  310. static void ScalePlaneDown34(int src_width,
  311. int src_height,
  312. int dst_width,
  313. int dst_height,
  314. int src_stride,
  315. int dst_stride,
  316. const uint8* src_ptr,
  317. uint8* dst_ptr,
  318. enum FilterMode filtering) {
  319. int y;
  320. void (*ScaleRowDown34_0)(const uint8* src_ptr, ptrdiff_t src_stride,
  321. uint8* dst_ptr, int dst_width);
  322. void (*ScaleRowDown34_1)(const uint8* src_ptr, ptrdiff_t src_stride,
  323. uint8* dst_ptr, int dst_width);
  324. const int filter_stride = (filtering == kFilterLinear) ? 0 : src_stride;
  325. (void)src_width;
  326. (void)src_height;
  327. assert(dst_width % 3 == 0);
  328. if (!filtering) {
  329. ScaleRowDown34_0 = ScaleRowDown34_C;
  330. ScaleRowDown34_1 = ScaleRowDown34_C;
  331. } else {
  332. ScaleRowDown34_0 = ScaleRowDown34_0_Box_C;
  333. ScaleRowDown34_1 = ScaleRowDown34_1_Box_C;
  334. }
  335. #if defined(HAS_SCALEROWDOWN34_NEON)
  336. if (TestCpuFlag(kCpuHasNEON)) {
  337. if (!filtering) {
  338. ScaleRowDown34_0 = ScaleRowDown34_Any_NEON;
  339. ScaleRowDown34_1 = ScaleRowDown34_Any_NEON;
  340. } else {
  341. ScaleRowDown34_0 = ScaleRowDown34_0_Box_Any_NEON;
  342. ScaleRowDown34_1 = ScaleRowDown34_1_Box_Any_NEON;
  343. }
  344. if (dst_width % 24 == 0) {
  345. if (!filtering) {
  346. ScaleRowDown34_0 = ScaleRowDown34_NEON;
  347. ScaleRowDown34_1 = ScaleRowDown34_NEON;
  348. } else {
  349. ScaleRowDown34_0 = ScaleRowDown34_0_Box_NEON;
  350. ScaleRowDown34_1 = ScaleRowDown34_1_Box_NEON;
  351. }
  352. }
  353. }
  354. #endif
  355. #if defined(HAS_SCALEROWDOWN34_MSA)
  356. if (TestCpuFlag(kCpuHasMSA)) {
  357. if (!filtering) {
  358. ScaleRowDown34_0 = ScaleRowDown34_Any_MSA;
  359. ScaleRowDown34_1 = ScaleRowDown34_Any_MSA;
  360. } else {
  361. ScaleRowDown34_0 = ScaleRowDown34_0_Box_Any_MSA;
  362. ScaleRowDown34_1 = ScaleRowDown34_1_Box_Any_MSA;
  363. }
  364. if (dst_width % 48 == 0) {
  365. if (!filtering) {
  366. ScaleRowDown34_0 = ScaleRowDown34_MSA;
  367. ScaleRowDown34_1 = ScaleRowDown34_MSA;
  368. } else {
  369. ScaleRowDown34_0 = ScaleRowDown34_0_Box_MSA;
  370. ScaleRowDown34_1 = ScaleRowDown34_1_Box_MSA;
  371. }
  372. }
  373. }
  374. #endif
  375. #if defined(HAS_SCALEROWDOWN34_SSSE3)
  376. if (TestCpuFlag(kCpuHasSSSE3)) {
  377. if (!filtering) {
  378. ScaleRowDown34_0 = ScaleRowDown34_Any_SSSE3;
  379. ScaleRowDown34_1 = ScaleRowDown34_Any_SSSE3;
  380. } else {
  381. ScaleRowDown34_0 = ScaleRowDown34_0_Box_Any_SSSE3;
  382. ScaleRowDown34_1 = ScaleRowDown34_1_Box_Any_SSSE3;
  383. }
  384. if (dst_width % 24 == 0) {
  385. if (!filtering) {
  386. ScaleRowDown34_0 = ScaleRowDown34_SSSE3;
  387. ScaleRowDown34_1 = ScaleRowDown34_SSSE3;
  388. } else {
  389. ScaleRowDown34_0 = ScaleRowDown34_0_Box_SSSE3;
  390. ScaleRowDown34_1 = ScaleRowDown34_1_Box_SSSE3;
  391. }
  392. }
  393. }
  394. #endif
  395. #if defined(HAS_SCALEROWDOWN34_DSPR2)
  396. if (TestCpuFlag(kCpuHasDSPR2) && (dst_width % 24 == 0) &&
  397. IS_ALIGNED(src_ptr, 4) && IS_ALIGNED(src_stride, 4) &&
  398. IS_ALIGNED(dst_ptr, 4) && IS_ALIGNED(dst_stride, 4)) {
  399. if (!filtering) {
  400. ScaleRowDown34_0 = ScaleRowDown34_DSPR2;
  401. ScaleRowDown34_1 = ScaleRowDown34_DSPR2;
  402. } else {
  403. ScaleRowDown34_0 = ScaleRowDown34_0_Box_DSPR2;
  404. ScaleRowDown34_1 = ScaleRowDown34_1_Box_DSPR2;
  405. }
  406. }
  407. #endif
  408. for (y = 0; y < dst_height - 2; y += 3) {
  409. ScaleRowDown34_0(src_ptr, filter_stride, dst_ptr, dst_width);
  410. src_ptr += src_stride;
  411. dst_ptr += dst_stride;
  412. ScaleRowDown34_1(src_ptr, filter_stride, dst_ptr, dst_width);
  413. src_ptr += src_stride;
  414. dst_ptr += dst_stride;
  415. ScaleRowDown34_0(src_ptr + src_stride, -filter_stride, dst_ptr, dst_width);
  416. src_ptr += src_stride * 2;
  417. dst_ptr += dst_stride;
  418. }
  419. // Remainder 1 or 2 rows with last row vertically unfiltered
  420. if ((dst_height % 3) == 2) {
  421. ScaleRowDown34_0(src_ptr, filter_stride, dst_ptr, dst_width);
  422. src_ptr += src_stride;
  423. dst_ptr += dst_stride;
  424. ScaleRowDown34_1(src_ptr, 0, dst_ptr, dst_width);
  425. } else if ((dst_height % 3) == 1) {
  426. ScaleRowDown34_0(src_ptr, 0, dst_ptr, dst_width);
  427. }
  428. }
  429. static void ScalePlaneDown34_16(int src_width,
  430. int src_height,
  431. int dst_width,
  432. int dst_height,
  433. int src_stride,
  434. int dst_stride,
  435. const uint16* src_ptr,
  436. uint16* dst_ptr,
  437. enum FilterMode filtering) {
  438. int y;
  439. void (*ScaleRowDown34_0)(const uint16* src_ptr, ptrdiff_t src_stride,
  440. uint16* dst_ptr, int dst_width);
  441. void (*ScaleRowDown34_1)(const uint16* src_ptr, ptrdiff_t src_stride,
  442. uint16* dst_ptr, int dst_width);
  443. const int filter_stride = (filtering == kFilterLinear) ? 0 : src_stride;
  444. (void)src_width;
  445. (void)src_height;
  446. assert(dst_width % 3 == 0);
  447. if (!filtering) {
  448. ScaleRowDown34_0 = ScaleRowDown34_16_C;
  449. ScaleRowDown34_1 = ScaleRowDown34_16_C;
  450. } else {
  451. ScaleRowDown34_0 = ScaleRowDown34_0_Box_16_C;
  452. ScaleRowDown34_1 = ScaleRowDown34_1_Box_16_C;
  453. }
  454. #if defined(HAS_SCALEROWDOWN34_16_NEON)
  455. if (TestCpuFlag(kCpuHasNEON) && (dst_width % 24 == 0)) {
  456. if (!filtering) {
  457. ScaleRowDown34_0 = ScaleRowDown34_16_NEON;
  458. ScaleRowDown34_1 = ScaleRowDown34_16_NEON;
  459. } else {
  460. ScaleRowDown34_0 = ScaleRowDown34_0_Box_16_NEON;
  461. ScaleRowDown34_1 = ScaleRowDown34_1_Box_16_NEON;
  462. }
  463. }
  464. #endif
  465. #if defined(HAS_SCALEROWDOWN34_16_SSSE3)
  466. if (TestCpuFlag(kCpuHasSSSE3) && (dst_width % 24 == 0)) {
  467. if (!filtering) {
  468. ScaleRowDown34_0 = ScaleRowDown34_16_SSSE3;
  469. ScaleRowDown34_1 = ScaleRowDown34_16_SSSE3;
  470. } else {
  471. ScaleRowDown34_0 = ScaleRowDown34_0_Box_16_SSSE3;
  472. ScaleRowDown34_1 = ScaleRowDown34_1_Box_16_SSSE3;
  473. }
  474. }
  475. #endif
  476. #if defined(HAS_SCALEROWDOWN34_16_DSPR2)
  477. if (TestCpuFlag(kCpuHasDSPR2) && (dst_width % 24 == 0) &&
  478. IS_ALIGNED(src_ptr, 4) && IS_ALIGNED(src_stride, 4) &&
  479. IS_ALIGNED(dst_ptr, 4) && IS_ALIGNED(dst_stride, 4)) {
  480. if (!filtering) {
  481. ScaleRowDown34_0 = ScaleRowDown34_16_DSPR2;
  482. ScaleRowDown34_1 = ScaleRowDown34_16_DSPR2;
  483. } else {
  484. ScaleRowDown34_0 = ScaleRowDown34_0_Box_16_DSPR2;
  485. ScaleRowDown34_1 = ScaleRowDown34_1_Box_16_DSPR2;
  486. }
  487. }
  488. #endif
  489. for (y = 0; y < dst_height - 2; y += 3) {
  490. ScaleRowDown34_0(src_ptr, filter_stride, dst_ptr, dst_width);
  491. src_ptr += src_stride;
  492. dst_ptr += dst_stride;
  493. ScaleRowDown34_1(src_ptr, filter_stride, dst_ptr, dst_width);
  494. src_ptr += src_stride;
  495. dst_ptr += dst_stride;
  496. ScaleRowDown34_0(src_ptr + src_stride, -filter_stride, dst_ptr, dst_width);
  497. src_ptr += src_stride * 2;
  498. dst_ptr += dst_stride;
  499. }
  500. // Remainder 1 or 2 rows with last row vertically unfiltered
  501. if ((dst_height % 3) == 2) {
  502. ScaleRowDown34_0(src_ptr, filter_stride, dst_ptr, dst_width);
  503. src_ptr += src_stride;
  504. dst_ptr += dst_stride;
  505. ScaleRowDown34_1(src_ptr, 0, dst_ptr, dst_width);
  506. } else if ((dst_height % 3) == 1) {
  507. ScaleRowDown34_0(src_ptr, 0, dst_ptr, dst_width);
  508. }
  509. }
  510. // Scale plane, 3/8
  511. // This is an optimized version for scaling down a plane to 3/8
  512. // of its original size.
  513. //
  514. // Uses box filter arranges like this
  515. // aaabbbcc -> abc
  516. // aaabbbcc def
  517. // aaabbbcc ghi
  518. // dddeeeff
  519. // dddeeeff
  520. // dddeeeff
  521. // ggghhhii
  522. // ggghhhii
  523. // Boxes are 3x3, 2x3, 3x2 and 2x2
  524. static void ScalePlaneDown38(int src_width,
  525. int src_height,
  526. int dst_width,
  527. int dst_height,
  528. int src_stride,
  529. int dst_stride,
  530. const uint8* src_ptr,
  531. uint8* dst_ptr,
  532. enum FilterMode filtering) {
  533. int y;
  534. void (*ScaleRowDown38_3)(const uint8* src_ptr, ptrdiff_t src_stride,
  535. uint8* dst_ptr, int dst_width);
  536. void (*ScaleRowDown38_2)(const uint8* src_ptr, ptrdiff_t src_stride,
  537. uint8* dst_ptr, int dst_width);
  538. const int filter_stride = (filtering == kFilterLinear) ? 0 : src_stride;
  539. assert(dst_width % 3 == 0);
  540. (void)src_width;
  541. (void)src_height;
  542. if (!filtering) {
  543. ScaleRowDown38_3 = ScaleRowDown38_C;
  544. ScaleRowDown38_2 = ScaleRowDown38_C;
  545. } else {
  546. ScaleRowDown38_3 = ScaleRowDown38_3_Box_C;
  547. ScaleRowDown38_2 = ScaleRowDown38_2_Box_C;
  548. }
  549. #if defined(HAS_SCALEROWDOWN38_NEON)
  550. if (TestCpuFlag(kCpuHasNEON)) {
  551. if (!filtering) {
  552. ScaleRowDown38_3 = ScaleRowDown38_Any_NEON;
  553. ScaleRowDown38_2 = ScaleRowDown38_Any_NEON;
  554. } else {
  555. ScaleRowDown38_3 = ScaleRowDown38_3_Box_Any_NEON;
  556. ScaleRowDown38_2 = ScaleRowDown38_2_Box_Any_NEON;
  557. }
  558. if (dst_width % 12 == 0) {
  559. if (!filtering) {
  560. ScaleRowDown38_3 = ScaleRowDown38_NEON;
  561. ScaleRowDown38_2 = ScaleRowDown38_NEON;
  562. } else {
  563. ScaleRowDown38_3 = ScaleRowDown38_3_Box_NEON;
  564. ScaleRowDown38_2 = ScaleRowDown38_2_Box_NEON;
  565. }
  566. }
  567. }
  568. #endif
  569. #if defined(HAS_SCALEROWDOWN38_SSSE3)
  570. if (TestCpuFlag(kCpuHasSSSE3)) {
  571. if (!filtering) {
  572. ScaleRowDown38_3 = ScaleRowDown38_Any_SSSE3;
  573. ScaleRowDown38_2 = ScaleRowDown38_Any_SSSE3;
  574. } else {
  575. ScaleRowDown38_3 = ScaleRowDown38_3_Box_Any_SSSE3;
  576. ScaleRowDown38_2 = ScaleRowDown38_2_Box_Any_SSSE3;
  577. }
  578. if (dst_width % 12 == 0 && !filtering) {
  579. ScaleRowDown38_3 = ScaleRowDown38_SSSE3;
  580. ScaleRowDown38_2 = ScaleRowDown38_SSSE3;
  581. }
  582. if (dst_width % 6 == 0 && filtering) {
  583. ScaleRowDown38_3 = ScaleRowDown38_3_Box_SSSE3;
  584. ScaleRowDown38_2 = ScaleRowDown38_2_Box_SSSE3;
  585. }
  586. }
  587. #endif
  588. #if defined(HAS_SCALEROWDOWN38_DSPR2)
  589. if (TestCpuFlag(kCpuHasDSPR2) && (dst_width % 12 == 0) &&
  590. IS_ALIGNED(src_ptr, 4) && IS_ALIGNED(src_stride, 4) &&
  591. IS_ALIGNED(dst_ptr, 4) && IS_ALIGNED(dst_stride, 4)) {
  592. if (!filtering) {
  593. ScaleRowDown38_3 = ScaleRowDown38_DSPR2;
  594. ScaleRowDown38_2 = ScaleRowDown38_DSPR2;
  595. } else {
  596. ScaleRowDown38_3 = ScaleRowDown38_3_Box_DSPR2;
  597. ScaleRowDown38_2 = ScaleRowDown38_2_Box_DSPR2;
  598. }
  599. }
  600. #endif
  601. #if defined(HAS_SCALEROWDOWN38_MSA)
  602. if (TestCpuFlag(kCpuHasMSA)) {
  603. if (!filtering) {
  604. ScaleRowDown38_3 = ScaleRowDown38_Any_MSA;
  605. ScaleRowDown38_2 = ScaleRowDown38_Any_MSA;
  606. } else {
  607. ScaleRowDown38_3 = ScaleRowDown38_3_Box_Any_MSA;
  608. ScaleRowDown38_2 = ScaleRowDown38_2_Box_Any_MSA;
  609. }
  610. if (dst_width % 12 == 0) {
  611. if (!filtering) {
  612. ScaleRowDown38_3 = ScaleRowDown38_MSA;
  613. ScaleRowDown38_2 = ScaleRowDown38_MSA;
  614. } else {
  615. ScaleRowDown38_3 = ScaleRowDown38_3_Box_MSA;
  616. ScaleRowDown38_2 = ScaleRowDown38_2_Box_MSA;
  617. }
  618. }
  619. }
  620. #endif
  621. for (y = 0; y < dst_height - 2; y += 3) {
  622. ScaleRowDown38_3(src_ptr, filter_stride, dst_ptr, dst_width);
  623. src_ptr += src_stride * 3;
  624. dst_ptr += dst_stride;
  625. ScaleRowDown38_3(src_ptr, filter_stride, dst_ptr, dst_width);
  626. src_ptr += src_stride * 3;
  627. dst_ptr += dst_stride;
  628. ScaleRowDown38_2(src_ptr, filter_stride, dst_ptr, dst_width);
  629. src_ptr += src_stride * 2;
  630. dst_ptr += dst_stride;
  631. }
  632. // Remainder 1 or 2 rows with last row vertically unfiltered
  633. if ((dst_height % 3) == 2) {
  634. ScaleRowDown38_3(src_ptr, filter_stride, dst_ptr, dst_width);
  635. src_ptr += src_stride * 3;
  636. dst_ptr += dst_stride;
  637. ScaleRowDown38_3(src_ptr, 0, dst_ptr, dst_width);
  638. } else if ((dst_height % 3) == 1) {
  639. ScaleRowDown38_3(src_ptr, 0, dst_ptr, dst_width);
  640. }
  641. }
  642. static void ScalePlaneDown38_16(int src_width,
  643. int src_height,
  644. int dst_width,
  645. int dst_height,
  646. int src_stride,
  647. int dst_stride,
  648. const uint16* src_ptr,
  649. uint16* dst_ptr,
  650. enum FilterMode filtering) {
  651. int y;
  652. void (*ScaleRowDown38_3)(const uint16* src_ptr, ptrdiff_t src_stride,
  653. uint16* dst_ptr, int dst_width);
  654. void (*ScaleRowDown38_2)(const uint16* src_ptr, ptrdiff_t src_stride,
  655. uint16* dst_ptr, int dst_width);
  656. const int filter_stride = (filtering == kFilterLinear) ? 0 : src_stride;
  657. (void)src_width;
  658. (void)src_height;
  659. assert(dst_width % 3 == 0);
  660. if (!filtering) {
  661. ScaleRowDown38_3 = ScaleRowDown38_16_C;
  662. ScaleRowDown38_2 = ScaleRowDown38_16_C;
  663. } else {
  664. ScaleRowDown38_3 = ScaleRowDown38_3_Box_16_C;
  665. ScaleRowDown38_2 = ScaleRowDown38_2_Box_16_C;
  666. }
  667. #if defined(HAS_SCALEROWDOWN38_16_NEON)
  668. if (TestCpuFlag(kCpuHasNEON) && (dst_width % 12 == 0)) {
  669. if (!filtering) {
  670. ScaleRowDown38_3 = ScaleRowDown38_16_NEON;
  671. ScaleRowDown38_2 = ScaleRowDown38_16_NEON;
  672. } else {
  673. ScaleRowDown38_3 = ScaleRowDown38_3_Box_16_NEON;
  674. ScaleRowDown38_2 = ScaleRowDown38_2_Box_16_NEON;
  675. }
  676. }
  677. #endif
  678. #if defined(HAS_SCALEROWDOWN38_16_SSSE3)
  679. if (TestCpuFlag(kCpuHasSSSE3) && (dst_width % 24 == 0)) {
  680. if (!filtering) {
  681. ScaleRowDown38_3 = ScaleRowDown38_16_SSSE3;
  682. ScaleRowDown38_2 = ScaleRowDown38_16_SSSE3;
  683. } else {
  684. ScaleRowDown38_3 = ScaleRowDown38_3_Box_16_SSSE3;
  685. ScaleRowDown38_2 = ScaleRowDown38_2_Box_16_SSSE3;
  686. }
  687. }
  688. #endif
  689. #if defined(HAS_SCALEROWDOWN38_16_DSPR2)
  690. if (TestCpuFlag(kCpuHasDSPR2) && (dst_width % 12 == 0) &&
  691. IS_ALIGNED(src_ptr, 4) && IS_ALIGNED(src_stride, 4) &&
  692. IS_ALIGNED(dst_ptr, 4) && IS_ALIGNED(dst_stride, 4)) {
  693. if (!filtering) {
  694. ScaleRowDown38_3 = ScaleRowDown38_16_DSPR2;
  695. ScaleRowDown38_2 = ScaleRowDown38_16_DSPR2;
  696. } else {
  697. ScaleRowDown38_3 = ScaleRowDown38_3_Box_16_DSPR2;
  698. ScaleRowDown38_2 = ScaleRowDown38_2_Box_16_DSPR2;
  699. }
  700. }
  701. #endif
  702. for (y = 0; y < dst_height - 2; y += 3) {
  703. ScaleRowDown38_3(src_ptr, filter_stride, dst_ptr, dst_width);
  704. src_ptr += src_stride * 3;
  705. dst_ptr += dst_stride;
  706. ScaleRowDown38_3(src_ptr, filter_stride, dst_ptr, dst_width);
  707. src_ptr += src_stride * 3;
  708. dst_ptr += dst_stride;
  709. ScaleRowDown38_2(src_ptr, filter_stride, dst_ptr, dst_width);
  710. src_ptr += src_stride * 2;
  711. dst_ptr += dst_stride;
  712. }
  713. // Remainder 1 or 2 rows with last row vertically unfiltered
  714. if ((dst_height % 3) == 2) {
  715. ScaleRowDown38_3(src_ptr, filter_stride, dst_ptr, dst_width);
  716. src_ptr += src_stride * 3;
  717. dst_ptr += dst_stride;
  718. ScaleRowDown38_3(src_ptr, 0, dst_ptr, dst_width);
  719. } else if ((dst_height % 3) == 1) {
  720. ScaleRowDown38_3(src_ptr, 0, dst_ptr, dst_width);
  721. }
  722. }
  723. #define MIN1(x) ((x) < 1 ? 1 : (x))
  724. static __inline uint32 SumPixels(int iboxwidth, const uint16* src_ptr) {
  725. uint32 sum = 0u;
  726. int x;
  727. assert(iboxwidth > 0);
  728. for (x = 0; x < iboxwidth; ++x) {
  729. sum += src_ptr[x];
  730. }
  731. return sum;
  732. }
  733. static __inline uint32 SumPixels_16(int iboxwidth, const uint32* src_ptr) {
  734. uint32 sum = 0u;
  735. int x;
  736. assert(iboxwidth > 0);
  737. for (x = 0; x < iboxwidth; ++x) {
  738. sum += src_ptr[x];
  739. }
  740. return sum;
  741. }
  742. static void ScaleAddCols2_C(int dst_width,
  743. int boxheight,
  744. int x,
  745. int dx,
  746. const uint16* src_ptr,
  747. uint8* dst_ptr) {
  748. int i;
  749. int scaletbl[2];
  750. int minboxwidth = dx >> 16;
  751. int boxwidth;
  752. scaletbl[0] = 65536 / (MIN1(minboxwidth) * boxheight);
  753. scaletbl[1] = 65536 / (MIN1(minboxwidth + 1) * boxheight);
  754. for (i = 0; i < dst_width; ++i) {
  755. int ix = x >> 16;
  756. x += dx;
  757. boxwidth = MIN1((x >> 16) - ix);
  758. *dst_ptr++ =
  759. SumPixels(boxwidth, src_ptr + ix) * scaletbl[boxwidth - minboxwidth] >>
  760. 16;
  761. }
  762. }
  763. static void ScaleAddCols2_16_C(int dst_width,
  764. int boxheight,
  765. int x,
  766. int dx,
  767. const uint32* src_ptr,
  768. uint16* dst_ptr) {
  769. int i;
  770. int scaletbl[2];
  771. int minboxwidth = dx >> 16;
  772. int boxwidth;
  773. scaletbl[0] = 65536 / (MIN1(minboxwidth) * boxheight);
  774. scaletbl[1] = 65536 / (MIN1(minboxwidth + 1) * boxheight);
  775. for (i = 0; i < dst_width; ++i) {
  776. int ix = x >> 16;
  777. x += dx;
  778. boxwidth = MIN1((x >> 16) - ix);
  779. *dst_ptr++ = SumPixels_16(boxwidth, src_ptr + ix) *
  780. scaletbl[boxwidth - minboxwidth] >>
  781. 16;
  782. }
  783. }
  784. static void ScaleAddCols0_C(int dst_width,
  785. int boxheight,
  786. int x,
  787. int dx,
  788. const uint16* src_ptr,
  789. uint8* dst_ptr) {
  790. int scaleval = 65536 / boxheight;
  791. int i;
  792. (void)dx;
  793. src_ptr += (x >> 16);
  794. for (i = 0; i < dst_width; ++i) {
  795. *dst_ptr++ = src_ptr[i] * scaleval >> 16;
  796. }
  797. }
  798. static void ScaleAddCols1_C(int dst_width,
  799. int boxheight,
  800. int x,
  801. int dx,
  802. const uint16* src_ptr,
  803. uint8* dst_ptr) {
  804. int boxwidth = MIN1(dx >> 16);
  805. int scaleval = 65536 / (boxwidth * boxheight);
  806. int i;
  807. x >>= 16;
  808. for (i = 0; i < dst_width; ++i) {
  809. *dst_ptr++ = SumPixels(boxwidth, src_ptr + x) * scaleval >> 16;
  810. x += boxwidth;
  811. }
  812. }
  813. static void ScaleAddCols1_16_C(int dst_width,
  814. int boxheight,
  815. int x,
  816. int dx,
  817. const uint32* src_ptr,
  818. uint16* dst_ptr) {
  819. int boxwidth = MIN1(dx >> 16);
  820. int scaleval = 65536 / (boxwidth * boxheight);
  821. int i;
  822. for (i = 0; i < dst_width; ++i) {
  823. *dst_ptr++ = SumPixels_16(boxwidth, src_ptr + x) * scaleval >> 16;
  824. x += boxwidth;
  825. }
  826. }
  827. // Scale plane down to any dimensions, with interpolation.
  828. // (boxfilter).
  829. //
  830. // Same method as SimpleScale, which is fixed point, outputting
  831. // one pixel of destination using fixed point (16.16) to step
  832. // through source, sampling a box of pixel with simple
  833. // averaging.
  834. static void ScalePlaneBox(int src_width,
  835. int src_height,
  836. int dst_width,
  837. int dst_height,
  838. int src_stride,
  839. int dst_stride,
  840. const uint8* src_ptr,
  841. uint8* dst_ptr) {
  842. int j, k;
  843. // Initial source x/y coordinate and step values as 16.16 fixed point.
  844. int x = 0;
  845. int y = 0;
  846. int dx = 0;
  847. int dy = 0;
  848. const int max_y = (src_height << 16);
  849. ScaleSlope(src_width, src_height, dst_width, dst_height, kFilterBox, &x, &y,
  850. &dx, &dy);
  851. src_width = Abs(src_width);
  852. {
  853. // Allocate a row buffer of uint16.
  854. align_buffer_64(row16, src_width * 2);
  855. void (*ScaleAddCols)(int dst_width, int boxheight, int x, int dx,
  856. const uint16* src_ptr, uint8* dst_ptr) =
  857. (dx & 0xffff) ? ScaleAddCols2_C
  858. : ((dx != 0x10000) ? ScaleAddCols1_C : ScaleAddCols0_C);
  859. void (*ScaleAddRow)(const uint8* src_ptr, uint16* dst_ptr, int src_width) =
  860. ScaleAddRow_C;
  861. #if defined(HAS_SCALEADDROW_SSE2)
  862. if (TestCpuFlag(kCpuHasSSE2)) {
  863. ScaleAddRow = ScaleAddRow_Any_SSE2;
  864. if (IS_ALIGNED(src_width, 16)) {
  865. ScaleAddRow = ScaleAddRow_SSE2;
  866. }
  867. }
  868. #endif
  869. #if defined(HAS_SCALEADDROW_AVX2)
  870. if (TestCpuFlag(kCpuHasAVX2)) {
  871. ScaleAddRow = ScaleAddRow_Any_AVX2;
  872. if (IS_ALIGNED(src_width, 32)) {
  873. ScaleAddRow = ScaleAddRow_AVX2;
  874. }
  875. }
  876. #endif
  877. #if defined(HAS_SCALEADDROW_NEON)
  878. if (TestCpuFlag(kCpuHasNEON)) {
  879. ScaleAddRow = ScaleAddRow_Any_NEON;
  880. if (IS_ALIGNED(src_width, 16)) {
  881. ScaleAddRow = ScaleAddRow_NEON;
  882. }
  883. }
  884. #endif
  885. #if defined(HAS_SCALEADDROW_MSA)
  886. if (TestCpuFlag(kCpuHasMSA)) {
  887. ScaleAddRow = ScaleAddRow_Any_MSA;
  888. if (IS_ALIGNED(src_width, 16)) {
  889. ScaleAddRow = ScaleAddRow_MSA;
  890. }
  891. }
  892. #endif
  893. #if defined(HAS_SCALEADDROW_DSPR2)
  894. if (TestCpuFlag(kCpuHasDSPR2)) {
  895. ScaleAddRow = ScaleAddRow_Any_DSPR2;
  896. if (IS_ALIGNED(src_width, 16)) {
  897. ScaleAddRow = ScaleAddRow_DSPR2;
  898. }
  899. }
  900. #endif
  901. for (j = 0; j < dst_height; ++j) {
  902. int boxheight;
  903. int iy = y >> 16;
  904. const uint8* src = src_ptr + iy * src_stride;
  905. y += dy;
  906. if (y > max_y) {
  907. y = max_y;
  908. }
  909. boxheight = MIN1((y >> 16) - iy);
  910. memset(row16, 0, src_width * 2);
  911. for (k = 0; k < boxheight; ++k) {
  912. ScaleAddRow(src, (uint16*)(row16), src_width);
  913. src += src_stride;
  914. }
  915. ScaleAddCols(dst_width, boxheight, x, dx, (uint16*)(row16), dst_ptr);
  916. dst_ptr += dst_stride;
  917. }
  918. free_aligned_buffer_64(row16);
  919. }
  920. }
  921. static void ScalePlaneBox_16(int src_width,
  922. int src_height,
  923. int dst_width,
  924. int dst_height,
  925. int src_stride,
  926. int dst_stride,
  927. const uint16* src_ptr,
  928. uint16* dst_ptr) {
  929. int j, k;
  930. // Initial source x/y coordinate and step values as 16.16 fixed point.
  931. int x = 0;
  932. int y = 0;
  933. int dx = 0;
  934. int dy = 0;
  935. const int max_y = (src_height << 16);
  936. ScaleSlope(src_width, src_height, dst_width, dst_height, kFilterBox, &x, &y,
  937. &dx, &dy);
  938. src_width = Abs(src_width);
  939. {
  940. // Allocate a row buffer of uint32.
  941. align_buffer_64(row32, src_width * 4);
  942. void (*ScaleAddCols)(int dst_width, int boxheight, int x, int dx,
  943. const uint32* src_ptr, uint16* dst_ptr) =
  944. (dx & 0xffff) ? ScaleAddCols2_16_C : ScaleAddCols1_16_C;
  945. void (*ScaleAddRow)(const uint16* src_ptr, uint32* dst_ptr, int src_width) =
  946. ScaleAddRow_16_C;
  947. #if defined(HAS_SCALEADDROW_16_SSE2)
  948. if (TestCpuFlag(kCpuHasSSE2) && IS_ALIGNED(src_width, 16)) {
  949. ScaleAddRow = ScaleAddRow_16_SSE2;
  950. }
  951. #endif
  952. for (j = 0; j < dst_height; ++j) {
  953. int boxheight;
  954. int iy = y >> 16;
  955. const uint16* src = src_ptr + iy * src_stride;
  956. y += dy;
  957. if (y > max_y) {
  958. y = max_y;
  959. }
  960. boxheight = MIN1((y >> 16) - iy);
  961. memset(row32, 0, src_width * 4);
  962. for (k = 0; k < boxheight; ++k) {
  963. ScaleAddRow(src, (uint32*)(row32), src_width);
  964. src += src_stride;
  965. }
  966. ScaleAddCols(dst_width, boxheight, x, dx, (uint32*)(row32), dst_ptr);
  967. dst_ptr += dst_stride;
  968. }
  969. free_aligned_buffer_64(row32);
  970. }
  971. }
  972. // Scale plane down with bilinear interpolation.
  973. void ScalePlaneBilinearDown(int src_width,
  974. int src_height,
  975. int dst_width,
  976. int dst_height,
  977. int src_stride,
  978. int dst_stride,
  979. const uint8* src_ptr,
  980. uint8* dst_ptr,
  981. enum FilterMode filtering) {
  982. // Initial source x/y coordinate and step values as 16.16 fixed point.
  983. int x = 0;
  984. int y = 0;
  985. int dx = 0;
  986. int dy = 0;
  987. // TODO(fbarchard): Consider not allocating row buffer for kFilterLinear.
  988. // Allocate a row buffer.
  989. align_buffer_64(row, src_width);
  990. const int max_y = (src_height - 1) << 16;
  991. int j;
  992. void (*ScaleFilterCols)(uint8 * dst_ptr, const uint8* src_ptr, int dst_width,
  993. int x, int dx) =
  994. (src_width >= 32768) ? ScaleFilterCols64_C : ScaleFilterCols_C;
  995. void (*InterpolateRow)(uint8 * dst_ptr, const uint8* src_ptr,
  996. ptrdiff_t src_stride, int dst_width,
  997. int source_y_fraction) = InterpolateRow_C;
  998. ScaleSlope(src_width, src_height, dst_width, dst_height, filtering, &x, &y,
  999. &dx, &dy);
  1000. src_width = Abs(src_width);
  1001. #if defined(HAS_INTERPOLATEROW_SSSE3)
  1002. if (TestCpuFlag(kCpuHasSSSE3)) {
  1003. InterpolateRow = InterpolateRow_Any_SSSE3;
  1004. if (IS_ALIGNED(src_width, 16)) {
  1005. InterpolateRow = InterpolateRow_SSSE3;
  1006. }
  1007. }
  1008. #endif
  1009. #if defined(HAS_INTERPOLATEROW_AVX2)
  1010. if (TestCpuFlag(kCpuHasAVX2)) {
  1011. InterpolateRow = InterpolateRow_Any_AVX2;
  1012. if (IS_ALIGNED(src_width, 32)) {
  1013. InterpolateRow = InterpolateRow_AVX2;
  1014. }
  1015. }
  1016. #endif
  1017. #if defined(HAS_INTERPOLATEROW_NEON)
  1018. if (TestCpuFlag(kCpuHasNEON)) {
  1019. InterpolateRow = InterpolateRow_Any_NEON;
  1020. if (IS_ALIGNED(src_width, 16)) {
  1021. InterpolateRow = InterpolateRow_NEON;
  1022. }
  1023. }
  1024. #endif
  1025. #if defined(HAS_INTERPOLATEROW_DSPR2)
  1026. if (TestCpuFlag(kCpuHasDSPR2)) {
  1027. InterpolateRow = InterpolateRow_Any_DSPR2;
  1028. if (IS_ALIGNED(src_width, 4)) {
  1029. InterpolateRow = InterpolateRow_DSPR2;
  1030. }
  1031. }
  1032. #endif
  1033. #if defined(HAS_INTERPOLATEROW_MSA)
  1034. if (TestCpuFlag(kCpuHasMSA)) {
  1035. InterpolateRow = InterpolateRow_Any_MSA;
  1036. if (IS_ALIGNED(src_width, 32)) {
  1037. InterpolateRow = InterpolateRow_MSA;
  1038. }
  1039. }
  1040. #endif
  1041. #if defined(HAS_SCALEFILTERCOLS_SSSE3)
  1042. if (TestCpuFlag(kCpuHasSSSE3) && src_width < 32768) {
  1043. ScaleFilterCols = ScaleFilterCols_SSSE3;
  1044. }
  1045. #endif
  1046. #if defined(HAS_SCALEFILTERCOLS_NEON)
  1047. if (TestCpuFlag(kCpuHasNEON) && src_width < 32768) {
  1048. ScaleFilterCols = ScaleFilterCols_Any_NEON;
  1049. if (IS_ALIGNED(dst_width, 8)) {
  1050. ScaleFilterCols = ScaleFilterCols_NEON;
  1051. }
  1052. }
  1053. #endif
  1054. #if defined(HAS_SCALEFILTERCOLS_MSA)
  1055. if (TestCpuFlag(kCpuHasMSA) && src_width < 32768) {
  1056. ScaleFilterCols = ScaleFilterCols_Any_MSA;
  1057. if (IS_ALIGNED(dst_width, 16)) {
  1058. ScaleFilterCols = ScaleFilterCols_MSA;
  1059. }
  1060. }
  1061. #endif
  1062. if (y > max_y) {
  1063. y = max_y;
  1064. }
  1065. for (j = 0; j < dst_height; ++j) {
  1066. int yi = y >> 16;
  1067. const uint8* src = src_ptr + yi * src_stride;
  1068. if (filtering == kFilterLinear) {
  1069. ScaleFilterCols(dst_ptr, src, dst_width, x, dx);
  1070. } else {
  1071. int yf = (y >> 8) & 255;
  1072. InterpolateRow(row, src, src_stride, src_width, yf);
  1073. ScaleFilterCols(dst_ptr, row, dst_width, x, dx);
  1074. }
  1075. dst_ptr += dst_stride;
  1076. y += dy;
  1077. if (y > max_y) {
  1078. y = max_y;
  1079. }
  1080. }
  1081. free_aligned_buffer_64(row);
  1082. }
  1083. void ScalePlaneBilinearDown_16(int src_width,
  1084. int src_height,
  1085. int dst_width,
  1086. int dst_height,
  1087. int src_stride,
  1088. int dst_stride,
  1089. const uint16* src_ptr,
  1090. uint16* dst_ptr,
  1091. enum FilterMode filtering) {
  1092. // Initial source x/y coordinate and step values as 16.16 fixed point.
  1093. int x = 0;
  1094. int y = 0;
  1095. int dx = 0;
  1096. int dy = 0;
  1097. // TODO(fbarchard): Consider not allocating row buffer for kFilterLinear.
  1098. // Allocate a row buffer.
  1099. align_buffer_64(row, src_width * 2);
  1100. const int max_y = (src_height - 1) << 16;
  1101. int j;
  1102. void (*ScaleFilterCols)(uint16 * dst_ptr, const uint16* src_ptr,
  1103. int dst_width, int x, int dx) =
  1104. (src_width >= 32768) ? ScaleFilterCols64_16_C : ScaleFilterCols_16_C;
  1105. void (*InterpolateRow)(uint16 * dst_ptr, const uint16* src_ptr,
  1106. ptrdiff_t src_stride, int dst_width,
  1107. int source_y_fraction) = InterpolateRow_16_C;
  1108. ScaleSlope(src_width, src_height, dst_width, dst_height, filtering, &x, &y,
  1109. &dx, &dy);
  1110. src_width = Abs(src_width);
  1111. #if defined(HAS_INTERPOLATEROW_16_SSE2)
  1112. if (TestCpuFlag(kCpuHasSSE2)) {
  1113. InterpolateRow = InterpolateRow_Any_16_SSE2;
  1114. if (IS_ALIGNED(src_width, 16)) {
  1115. InterpolateRow = InterpolateRow_16_SSE2;
  1116. }
  1117. }
  1118. #endif
  1119. #if defined(HAS_INTERPOLATEROW_16_SSSE3)
  1120. if (TestCpuFlag(kCpuHasSSSE3)) {
  1121. InterpolateRow = InterpolateRow_Any_16_SSSE3;
  1122. if (IS_ALIGNED(src_width, 16)) {
  1123. InterpolateRow = InterpolateRow_16_SSSE3;
  1124. }
  1125. }
  1126. #endif
  1127. #if defined(HAS_INTERPOLATEROW_16_AVX2)
  1128. if (TestCpuFlag(kCpuHasAVX2)) {
  1129. InterpolateRow = InterpolateRow_Any_16_AVX2;
  1130. if (IS_ALIGNED(src_width, 32)) {
  1131. InterpolateRow = InterpolateRow_16_AVX2;
  1132. }
  1133. }
  1134. #endif
  1135. #if defined(HAS_INTERPOLATEROW_16_NEON)
  1136. if (TestCpuFlag(kCpuHasNEON)) {
  1137. InterpolateRow = InterpolateRow_Any_16_NEON;
  1138. if (IS_ALIGNED(src_width, 16)) {
  1139. InterpolateRow = InterpolateRow_16_NEON;
  1140. }
  1141. }
  1142. #endif
  1143. #if defined(HAS_INTERPOLATEROW_16_DSPR2)
  1144. if (TestCpuFlag(kCpuHasDSPR2)) {
  1145. InterpolateRow = InterpolateRow_Any_16_DSPR2;
  1146. if (IS_ALIGNED(src_width, 4)) {
  1147. InterpolateRow = InterpolateRow_16_DSPR2;
  1148. }
  1149. }
  1150. #endif
  1151. #if defined(HAS_SCALEFILTERCOLS_16_SSSE3)
  1152. if (TestCpuFlag(kCpuHasSSSE3) && src_width < 32768) {
  1153. ScaleFilterCols = ScaleFilterCols_16_SSSE3;
  1154. }
  1155. #endif
  1156. if (y > max_y) {
  1157. y = max_y;
  1158. }
  1159. for (j = 0; j < dst_height; ++j) {
  1160. int yi = y >> 16;
  1161. const uint16* src = src_ptr + yi * src_stride;
  1162. if (filtering == kFilterLinear) {
  1163. ScaleFilterCols(dst_ptr, src, dst_width, x, dx);
  1164. } else {
  1165. int yf = (y >> 8) & 255;
  1166. InterpolateRow((uint16*)row, src, src_stride, src_width, yf);
  1167. ScaleFilterCols(dst_ptr, (uint16*)row, dst_width, x, dx);
  1168. }
  1169. dst_ptr += dst_stride;
  1170. y += dy;
  1171. if (y > max_y) {
  1172. y = max_y;
  1173. }
  1174. }
  1175. free_aligned_buffer_64(row);
  1176. }
  1177. // Scale up down with bilinear interpolation.
  1178. void ScalePlaneBilinearUp(int src_width,
  1179. int src_height,
  1180. int dst_width,
  1181. int dst_height,
  1182. int src_stride,
  1183. int dst_stride,
  1184. const uint8* src_ptr,
  1185. uint8* dst_ptr,
  1186. enum FilterMode filtering) {
  1187. int j;
  1188. // Initial source x/y coordinate and step values as 16.16 fixed point.
  1189. int x = 0;
  1190. int y = 0;
  1191. int dx = 0;
  1192. int dy = 0;
  1193. const int max_y = (src_height - 1) << 16;
  1194. void (*InterpolateRow)(uint8 * dst_ptr, const uint8* src_ptr,
  1195. ptrdiff_t src_stride, int dst_width,
  1196. int source_y_fraction) = InterpolateRow_C;
  1197. void (*ScaleFilterCols)(uint8 * dst_ptr, const uint8* src_ptr, int dst_width,
  1198. int x, int dx) =
  1199. filtering ? ScaleFilterCols_C : ScaleCols_C;
  1200. ScaleSlope(src_width, src_height, dst_width, dst_height, filtering, &x, &y,
  1201. &dx, &dy);
  1202. src_width = Abs(src_width);
  1203. #if defined(HAS_INTERPOLATEROW_SSSE3)
  1204. if (TestCpuFlag(kCpuHasSSSE3)) {
  1205. InterpolateRow = InterpolateRow_Any_SSSE3;
  1206. if (IS_ALIGNED(dst_width, 16)) {
  1207. InterpolateRow = InterpolateRow_SSSE3;
  1208. }
  1209. }
  1210. #endif
  1211. #if defined(HAS_INTERPOLATEROW_AVX2)
  1212. if (TestCpuFlag(kCpuHasAVX2)) {
  1213. InterpolateRow = InterpolateRow_Any_AVX2;
  1214. if (IS_ALIGNED(dst_width, 32)) {
  1215. InterpolateRow = InterpolateRow_AVX2;
  1216. }
  1217. }
  1218. #endif
  1219. #if defined(HAS_INTERPOLATEROW_NEON)
  1220. if (TestCpuFlag(kCpuHasNEON)) {
  1221. InterpolateRow = InterpolateRow_Any_NEON;
  1222. if (IS_ALIGNED(dst_width, 16)) {
  1223. InterpolateRow = InterpolateRow_NEON;
  1224. }
  1225. }
  1226. #endif
  1227. #if defined(HAS_INTERPOLATEROW_DSPR2)
  1228. if (TestCpuFlag(kCpuHasDSPR2)) {
  1229. InterpolateRow = InterpolateRow_Any_DSPR2;
  1230. if (IS_ALIGNED(dst_width, 4)) {
  1231. InterpolateRow = InterpolateRow_DSPR2;
  1232. }
  1233. }
  1234. #endif
  1235. if (filtering && src_width >= 32768) {
  1236. ScaleFilterCols = ScaleFilterCols64_C;
  1237. }
  1238. #if defined(HAS_SCALEFILTERCOLS_SSSE3)
  1239. if (filtering && TestCpuFlag(kCpuHasSSSE3) && src_width < 32768) {
  1240. ScaleFilterCols = ScaleFilterCols_SSSE3;
  1241. }
  1242. #endif
  1243. #if defined(HAS_SCALEFILTERCOLS_NEON)
  1244. if (filtering && TestCpuFlag(kCpuHasNEON) && src_width < 32768) {
  1245. ScaleFilterCols = ScaleFilterCols_Any_NEON;
  1246. if (IS_ALIGNED(dst_width, 8)) {
  1247. ScaleFilterCols = ScaleFilterCols_NEON;
  1248. }
  1249. }
  1250. #endif
  1251. #if defined(HAS_SCALEFILTERCOLS_MSA)
  1252. if (filtering && TestCpuFlag(kCpuHasMSA) && src_width < 32768) {
  1253. ScaleFilterCols = ScaleFilterCols_Any_MSA;
  1254. if (IS_ALIGNED(dst_width, 16)) {
  1255. ScaleFilterCols = ScaleFilterCols_MSA;
  1256. }
  1257. }
  1258. #endif
  1259. if (!filtering && src_width * 2 == dst_width && x < 0x8000) {
  1260. ScaleFilterCols = ScaleColsUp2_C;
  1261. #if defined(HAS_SCALECOLS_SSE2)
  1262. if (TestCpuFlag(kCpuHasSSE2) && IS_ALIGNED(dst_width, 8)) {
  1263. ScaleFilterCols = ScaleColsUp2_SSE2;
  1264. }
  1265. #endif
  1266. }
  1267. if (y > max_y) {
  1268. y = max_y;
  1269. }
  1270. {
  1271. int yi = y >> 16;
  1272. const uint8* src = src_ptr + yi * src_stride;
  1273. // Allocate 2 row buffers.
  1274. const int kRowSize = (dst_width + 31) & ~31;
  1275. align_buffer_64(row, kRowSize * 2);
  1276. uint8* rowptr = row;
  1277. int rowstride = kRowSize;
  1278. int lasty = yi;
  1279. ScaleFilterCols(rowptr, src, dst_width, x, dx);
  1280. if (src_height > 1) {
  1281. src += src_stride;
  1282. }
  1283. ScaleFilterCols(rowptr + rowstride, src, dst_width, x, dx);
  1284. src += src_stride;
  1285. for (j = 0; j < dst_height; ++j) {
  1286. yi = y >> 16;
  1287. if (yi != lasty) {
  1288. if (y > max_y) {
  1289. y = max_y;
  1290. yi = y >> 16;
  1291. src = src_ptr + yi * src_stride;
  1292. }
  1293. if (yi != lasty) {
  1294. ScaleFilterCols(rowptr, src, dst_width, x, dx);
  1295. rowptr += rowstride;
  1296. rowstride = -rowstride;
  1297. lasty = yi;
  1298. src += src_stride;
  1299. }
  1300. }
  1301. if (filtering == kFilterLinear) {
  1302. InterpolateRow(dst_ptr, rowptr, 0, dst_width, 0);
  1303. } else {
  1304. int yf = (y >> 8) & 255;
  1305. InterpolateRow(dst_ptr, rowptr, rowstride, dst_width, yf);
  1306. }
  1307. dst_ptr += dst_stride;
  1308. y += dy;
  1309. }
  1310. free_aligned_buffer_64(row);
  1311. }
  1312. }
  1313. void ScalePlaneBilinearUp_16(int src_width,
  1314. int src_height,
  1315. int dst_width,
  1316. int dst_height,
  1317. int src_stride,
  1318. int dst_stride,
  1319. const uint16* src_ptr,
  1320. uint16* dst_ptr,
  1321. enum FilterMode filtering) {
  1322. int j;
  1323. // Initial source x/y coordinate and step values as 16.16 fixed point.
  1324. int x = 0;
  1325. int y = 0;
  1326. int dx = 0;
  1327. int dy = 0;
  1328. const int max_y = (src_height - 1) << 16;
  1329. void (*InterpolateRow)(uint16 * dst_ptr, const uint16* src_ptr,
  1330. ptrdiff_t src_stride, int dst_width,
  1331. int source_y_fraction) = InterpolateRow_16_C;
  1332. void (*ScaleFilterCols)(uint16 * dst_ptr, const uint16* src_ptr,
  1333. int dst_width, int x, int dx) =
  1334. filtering ? ScaleFilterCols_16_C : ScaleCols_16_C;
  1335. ScaleSlope(src_width, src_height, dst_width, dst_height, filtering, &x, &y,
  1336. &dx, &dy);
  1337. src_width = Abs(src_width);
  1338. #if defined(HAS_INTERPOLATEROW_16_SSE2)
  1339. if (TestCpuFlag(kCpuHasSSE2)) {
  1340. InterpolateRow = InterpolateRow_Any_16_SSE2;
  1341. if (IS_ALIGNED(dst_width, 16)) {
  1342. InterpolateRow = InterpolateRow_16_SSE2;
  1343. }
  1344. }
  1345. #endif
  1346. #if defined(HAS_INTERPOLATEROW_16_SSSE3)
  1347. if (TestCpuFlag(kCpuHasSSSE3)) {
  1348. InterpolateRow = InterpolateRow_Any_16_SSSE3;
  1349. if (IS_ALIGNED(dst_width, 16)) {
  1350. InterpolateRow = InterpolateRow_16_SSSE3;
  1351. }
  1352. }
  1353. #endif
  1354. #if defined(HAS_INTERPOLATEROW_16_AVX2)
  1355. if (TestCpuFlag(kCpuHasAVX2)) {
  1356. InterpolateRow = InterpolateRow_Any_16_AVX2;
  1357. if (IS_ALIGNED(dst_width, 32)) {
  1358. InterpolateRow = InterpolateRow_16_AVX2;
  1359. }
  1360. }
  1361. #endif
  1362. #if defined(HAS_INTERPOLATEROW_16_NEON)
  1363. if (TestCpuFlag(kCpuHasNEON)) {
  1364. InterpolateRow = InterpolateRow_Any_16_NEON;
  1365. if (IS_ALIGNED(dst_width, 16)) {
  1366. InterpolateRow = InterpolateRow_16_NEON;
  1367. }
  1368. }
  1369. #endif
  1370. #if defined(HAS_INTERPOLATEROW_16_DSPR2)
  1371. if (TestCpuFlag(kCpuHasDSPR2)) {
  1372. InterpolateRow = InterpolateRow_Any_16_DSPR2;
  1373. if (IS_ALIGNED(dst_width, 4)) {
  1374. InterpolateRow = InterpolateRow_16_DSPR2;
  1375. }
  1376. }
  1377. #endif
  1378. if (filtering && src_width >= 32768) {
  1379. ScaleFilterCols = ScaleFilterCols64_16_C;
  1380. }
  1381. #if defined(HAS_SCALEFILTERCOLS_16_SSSE3)
  1382. if (filtering && TestCpuFlag(kCpuHasSSSE3) && src_width < 32768) {
  1383. ScaleFilterCols = ScaleFilterCols_16_SSSE3;
  1384. }
  1385. #endif
  1386. if (!filtering && src_width * 2 == dst_width && x < 0x8000) {
  1387. ScaleFilterCols = ScaleColsUp2_16_C;
  1388. #if defined(HAS_SCALECOLS_16_SSE2)
  1389. if (TestCpuFlag(kCpuHasSSE2) && IS_ALIGNED(dst_width, 8)) {
  1390. ScaleFilterCols = ScaleColsUp2_16_SSE2;
  1391. }
  1392. #endif
  1393. }
  1394. if (y > max_y) {
  1395. y = max_y;
  1396. }
  1397. {
  1398. int yi = y >> 16;
  1399. const uint16* src = src_ptr + yi * src_stride;
  1400. // Allocate 2 row buffers.
  1401. const int kRowSize = (dst_width + 31) & ~31;
  1402. align_buffer_64(row, kRowSize * 4);
  1403. uint16* rowptr = (uint16*)row;
  1404. int rowstride = kRowSize;
  1405. int lasty = yi;
  1406. ScaleFilterCols(rowptr, src, dst_width, x, dx);
  1407. if (src_height > 1) {
  1408. src += src_stride;
  1409. }
  1410. ScaleFilterCols(rowptr + rowstride, src, dst_width, x, dx);
  1411. src += src_stride;
  1412. for (j = 0; j < dst_height; ++j) {
  1413. yi = y >> 16;
  1414. if (yi != lasty) {
  1415. if (y > max_y) {
  1416. y = max_y;
  1417. yi = y >> 16;
  1418. src = src_ptr + yi * src_stride;
  1419. }
  1420. if (yi != lasty) {
  1421. ScaleFilterCols(rowptr, src, dst_width, x, dx);
  1422. rowptr += rowstride;
  1423. rowstride = -rowstride;
  1424. lasty = yi;
  1425. src += src_stride;
  1426. }
  1427. }
  1428. if (filtering == kFilterLinear) {
  1429. InterpolateRow(dst_ptr, rowptr, 0, dst_width, 0);
  1430. } else {
  1431. int yf = (y >> 8) & 255;
  1432. InterpolateRow(dst_ptr, rowptr, rowstride, dst_width, yf);
  1433. }
  1434. dst_ptr += dst_stride;
  1435. y += dy;
  1436. }
  1437. free_aligned_buffer_64(row);
  1438. }
  1439. }
  1440. // Scale Plane to/from any dimensions, without interpolation.
  1441. // Fixed point math is used for performance: The upper 16 bits
  1442. // of x and dx is the integer part of the source position and
  1443. // the lower 16 bits are the fixed decimal part.
  1444. static void ScalePlaneSimple(int src_width,
  1445. int src_height,
  1446. int dst_width,
  1447. int dst_height,
  1448. int src_stride,
  1449. int dst_stride,
  1450. const uint8* src_ptr,
  1451. uint8* dst_ptr) {
  1452. int i;
  1453. void (*ScaleCols)(uint8 * dst_ptr, const uint8* src_ptr, int dst_width, int x,
  1454. int dx) = ScaleCols_C;
  1455. // Initial source x/y coordinate and step values as 16.16 fixed point.
  1456. int x = 0;
  1457. int y = 0;
  1458. int dx = 0;
  1459. int dy = 0;
  1460. ScaleSlope(src_width, src_height, dst_width, dst_height, kFilterNone, &x, &y,
  1461. &dx, &dy);
  1462. src_width = Abs(src_width);
  1463. if (src_width * 2 == dst_width && x < 0x8000) {
  1464. ScaleCols = ScaleColsUp2_C;
  1465. #if defined(HAS_SCALECOLS_SSE2)
  1466. if (TestCpuFlag(kCpuHasSSE2) && IS_ALIGNED(dst_width, 8)) {
  1467. ScaleCols = ScaleColsUp2_SSE2;
  1468. }
  1469. #endif
  1470. }
  1471. for (i = 0; i < dst_height; ++i) {
  1472. ScaleCols(dst_ptr, src_ptr + (y >> 16) * src_stride, dst_width, x, dx);
  1473. dst_ptr += dst_stride;
  1474. y += dy;
  1475. }
  1476. }
  1477. static void ScalePlaneSimple_16(int src_width,
  1478. int src_height,
  1479. int dst_width,
  1480. int dst_height,
  1481. int src_stride,
  1482. int dst_stride,
  1483. const uint16* src_ptr,
  1484. uint16* dst_ptr) {
  1485. int i;
  1486. void (*ScaleCols)(uint16 * dst_ptr, const uint16* src_ptr, int dst_width,
  1487. int x, int dx) = ScaleCols_16_C;
  1488. // Initial source x/y coordinate and step values as 16.16 fixed point.
  1489. int x = 0;
  1490. int y = 0;
  1491. int dx = 0;
  1492. int dy = 0;
  1493. ScaleSlope(src_width, src_height, dst_width, dst_height, kFilterNone, &x, &y,
  1494. &dx, &dy);
  1495. src_width = Abs(src_width);
  1496. if (src_width * 2 == dst_width && x < 0x8000) {
  1497. ScaleCols = ScaleColsUp2_16_C;
  1498. #if defined(HAS_SCALECOLS_16_SSE2)
  1499. if (TestCpuFlag(kCpuHasSSE2) && IS_ALIGNED(dst_width, 8)) {
  1500. ScaleCols = ScaleColsUp2_16_SSE2;
  1501. }
  1502. #endif
  1503. }
  1504. for (i = 0; i < dst_height; ++i) {
  1505. ScaleCols(dst_ptr, src_ptr + (y >> 16) * src_stride, dst_width, x, dx);
  1506. dst_ptr += dst_stride;
  1507. y += dy;
  1508. }
  1509. }
  1510. // Scale a plane.
  1511. // This function dispatches to a specialized scaler based on scale factor.
  1512. LIBYUV_API
  1513. void ScalePlane(const uint8* src,
  1514. int src_stride,
  1515. int src_width,
  1516. int src_height,
  1517. uint8* dst,
  1518. int dst_stride,
  1519. int dst_width,
  1520. int dst_height,
  1521. enum FilterMode filtering) {
  1522. // Simplify filtering when possible.
  1523. filtering = ScaleFilterReduce(src_width, src_height, dst_width, dst_height,
  1524. filtering);
  1525. // Negative height means invert the image.
  1526. if (src_height < 0) {
  1527. src_height = -src_height;
  1528. src = src + (src_height - 1) * src_stride;
  1529. src_stride = -src_stride;
  1530. }
  1531. // Use specialized scales to improve performance for common resolutions.
  1532. // For example, all the 1/2 scalings will use ScalePlaneDown2()
  1533. if (dst_width == src_width && dst_height == src_height) {
  1534. // Straight copy.
  1535. CopyPlane(src, src_stride, dst, dst_stride, dst_width, dst_height);
  1536. return;
  1537. }
  1538. if (dst_width == src_width && filtering != kFilterBox) {
  1539. int dy = FixedDiv(src_height, dst_height);
  1540. // Arbitrary scale vertically, but unscaled horizontally.
  1541. ScalePlaneVertical(src_height, dst_width, dst_height, src_stride,
  1542. dst_stride, src, dst, 0, 0, dy, 1, filtering);
  1543. return;
  1544. }
  1545. if (dst_width <= Abs(src_width) && dst_height <= src_height) {
  1546. // Scale down.
  1547. if (4 * dst_width == 3 * src_width && 4 * dst_height == 3 * src_height) {
  1548. // optimized, 3/4
  1549. ScalePlaneDown34(src_width, src_height, dst_width, dst_height, src_stride,
  1550. dst_stride, src, dst, filtering);
  1551. return;
  1552. }
  1553. if (2 * dst_width == src_width && 2 * dst_height == src_height) {
  1554. // optimized, 1/2
  1555. ScalePlaneDown2(src_width, src_height, dst_width, dst_height, src_stride,
  1556. dst_stride, src, dst, filtering);
  1557. return;
  1558. }
  1559. // 3/8 rounded up for odd sized chroma height.
  1560. if (8 * dst_width == 3 * src_width && 8 * dst_height == 3 * src_height) {
  1561. // optimized, 3/8
  1562. ScalePlaneDown38(src_width, src_height, dst_width, dst_height, src_stride,
  1563. dst_stride, src, dst, filtering);
  1564. return;
  1565. }
  1566. if (4 * dst_width == src_width && 4 * dst_height == src_height &&
  1567. (filtering == kFilterBox || filtering == kFilterNone)) {
  1568. // optimized, 1/4
  1569. ScalePlaneDown4(src_width, src_height, dst_width, dst_height, src_stride,
  1570. dst_stride, src, dst, filtering);
  1571. return;
  1572. }
  1573. }
  1574. if (filtering == kFilterBox && dst_height * 2 < src_height) {
  1575. ScalePlaneBox(src_width, src_height, dst_width, dst_height, src_stride,
  1576. dst_stride, src, dst);
  1577. return;
  1578. }
  1579. if (filtering && dst_height > src_height) {
  1580. ScalePlaneBilinearUp(src_width, src_height, dst_width, dst_height,
  1581. src_stride, dst_stride, src, dst, filtering);
  1582. return;
  1583. }
  1584. if (filtering) {
  1585. ScalePlaneBilinearDown(src_width, src_height, dst_width, dst_height,
  1586. src_stride, dst_stride, src, dst, filtering);
  1587. return;
  1588. }
  1589. ScalePlaneSimple(src_width, src_height, dst_width, dst_height, src_stride,
  1590. dst_stride, src, dst);
  1591. }
  1592. LIBYUV_API
  1593. void ScalePlane_16(const uint16* src,
  1594. int src_stride,
  1595. int src_width,
  1596. int src_height,
  1597. uint16* dst,
  1598. int dst_stride,
  1599. int dst_width,
  1600. int dst_height,
  1601. enum FilterMode filtering) {
  1602. // Simplify filtering when possible.
  1603. filtering = ScaleFilterReduce(src_width, src_height, dst_width, dst_height,
  1604. filtering);
  1605. // Negative height means invert the image.
  1606. if (src_height < 0) {
  1607. src_height = -src_height;
  1608. src = src + (src_height - 1) * src_stride;
  1609. src_stride = -src_stride;
  1610. }
  1611. // Use specialized scales to improve performance for common resolutions.
  1612. // For example, all the 1/2 scalings will use ScalePlaneDown2()
  1613. if (dst_width == src_width && dst_height == src_height) {
  1614. // Straight copy.
  1615. CopyPlane_16(src, src_stride, dst, dst_stride, dst_width, dst_height);
  1616. return;
  1617. }
  1618. if (dst_width == src_width && filtering != kFilterBox) {
  1619. int dy = FixedDiv(src_height, dst_height);
  1620. // Arbitrary scale vertically, but unscaled vertically.
  1621. ScalePlaneVertical_16(src_height, dst_width, dst_height, src_stride,
  1622. dst_stride, src, dst, 0, 0, dy, 1, filtering);
  1623. return;
  1624. }
  1625. if (dst_width <= Abs(src_width) && dst_height <= src_height) {
  1626. // Scale down.
  1627. if (4 * dst_width == 3 * src_width && 4 * dst_height == 3 * src_height) {
  1628. // optimized, 3/4
  1629. ScalePlaneDown34_16(src_width, src_height, dst_width, dst_height,
  1630. src_stride, dst_stride, src, dst, filtering);
  1631. return;
  1632. }
  1633. if (2 * dst_width == src_width && 2 * dst_height == src_height) {
  1634. // optimized, 1/2
  1635. ScalePlaneDown2_16(src_width, src_height, dst_width, dst_height,
  1636. src_stride, dst_stride, src, dst, filtering);
  1637. return;
  1638. }
  1639. // 3/8 rounded up for odd sized chroma height.
  1640. if (8 * dst_width == 3 * src_width && 8 * dst_height == 3 * src_height) {
  1641. // optimized, 3/8
  1642. ScalePlaneDown38_16(src_width, src_height, dst_width, dst_height,
  1643. src_stride, dst_stride, src, dst, filtering);
  1644. return;
  1645. }
  1646. if (4 * dst_width == src_width && 4 * dst_height == src_height &&
  1647. (filtering == kFilterBox || filtering == kFilterNone)) {
  1648. // optimized, 1/4
  1649. ScalePlaneDown4_16(src_width, src_height, dst_width, dst_height,
  1650. src_stride, dst_stride, src, dst, filtering);
  1651. return;
  1652. }
  1653. }
  1654. if (filtering == kFilterBox && dst_height * 2 < src_height) {
  1655. ScalePlaneBox_16(src_width, src_height, dst_width, dst_height, src_stride,
  1656. dst_stride, src, dst);
  1657. return;
  1658. }
  1659. if (filtering && dst_height > src_height) {
  1660. ScalePlaneBilinearUp_16(src_width, src_height, dst_width, dst_height,
  1661. src_stride, dst_stride, src, dst, filtering);
  1662. return;
  1663. }
  1664. if (filtering) {
  1665. ScalePlaneBilinearDown_16(src_width, src_height, dst_width, dst_height,
  1666. src_stride, dst_stride, src, dst, filtering);
  1667. return;
  1668. }
  1669. ScalePlaneSimple_16(src_width, src_height, dst_width, dst_height, src_stride,
  1670. dst_stride, src, dst);
  1671. }
  1672. // Scale an I420 image.
  1673. // This function in turn calls a scaling function for each plane.
  1674. LIBYUV_API
  1675. int I420Scale(const uint8* src_y,
  1676. int src_stride_y,
  1677. const uint8* src_u,
  1678. int src_stride_u,
  1679. const uint8* src_v,
  1680. int src_stride_v,
  1681. int src_width,
  1682. int src_height,
  1683. uint8* dst_y,
  1684. int dst_stride_y,
  1685. uint8* dst_u,
  1686. int dst_stride_u,
  1687. uint8* dst_v,
  1688. int dst_stride_v,
  1689. int dst_width,
  1690. int dst_height,
  1691. enum FilterMode filtering) {
  1692. int src_halfwidth = SUBSAMPLE(src_width, 1, 1);
  1693. int src_halfheight = SUBSAMPLE(src_height, 1, 1);
  1694. int dst_halfwidth = SUBSAMPLE(dst_width, 1, 1);
  1695. int dst_halfheight = SUBSAMPLE(dst_height, 1, 1);
  1696. if (!src_y || !src_u || !src_v || src_width == 0 || src_height == 0 ||
  1697. src_width > 32768 || src_height > 32768 || !dst_y || !dst_u || !dst_v ||
  1698. dst_width <= 0 || dst_height <= 0) {
  1699. return -1;
  1700. }
  1701. ScalePlane(src_y, src_stride_y, src_width, src_height, dst_y, dst_stride_y,
  1702. dst_width, dst_height, filtering);
  1703. ScalePlane(src_u, src_stride_u, src_halfwidth, src_halfheight, dst_u,
  1704. dst_stride_u, dst_halfwidth, dst_halfheight, filtering);
  1705. ScalePlane(src_v, src_stride_v, src_halfwidth, src_halfheight, dst_v,
  1706. dst_stride_v, dst_halfwidth, dst_halfheight, filtering);
  1707. return 0;
  1708. }
  1709. LIBYUV_API
  1710. int I420Scale_16(const uint16* src_y,
  1711. int src_stride_y,
  1712. const uint16* src_u,
  1713. int src_stride_u,
  1714. const uint16* src_v,
  1715. int src_stride_v,
  1716. int src_width,
  1717. int src_height,
  1718. uint16* dst_y,
  1719. int dst_stride_y,
  1720. uint16* dst_u,
  1721. int dst_stride_u,
  1722. uint16* dst_v,
  1723. int dst_stride_v,
  1724. int dst_width,
  1725. int dst_height,
  1726. enum FilterMode filtering) {
  1727. int src_halfwidth = SUBSAMPLE(src_width, 1, 1);
  1728. int src_halfheight = SUBSAMPLE(src_height, 1, 1);
  1729. int dst_halfwidth = SUBSAMPLE(dst_width, 1, 1);
  1730. int dst_halfheight = SUBSAMPLE(dst_height, 1, 1);
  1731. if (!src_y || !src_u || !src_v || src_width == 0 || src_height == 0 ||
  1732. src_width > 32768 || src_height > 32768 || !dst_y || !dst_u || !dst_v ||
  1733. dst_width <= 0 || dst_height <= 0) {
  1734. return -1;
  1735. }
  1736. ScalePlane_16(src_y, src_stride_y, src_width, src_height, dst_y, dst_stride_y,
  1737. dst_width, dst_height, filtering);
  1738. ScalePlane_16(src_u, src_stride_u, src_halfwidth, src_halfheight, dst_u,
  1739. dst_stride_u, dst_halfwidth, dst_halfheight, filtering);
  1740. ScalePlane_16(src_v, src_stride_v, src_halfwidth, src_halfheight, dst_v,
  1741. dst_stride_v, dst_halfwidth, dst_halfheight, filtering);
  1742. return 0;
  1743. }
  1744. // Deprecated api
  1745. LIBYUV_API
  1746. int Scale(const uint8* src_y,
  1747. const uint8* src_u,
  1748. const uint8* src_v,
  1749. int src_stride_y,
  1750. int src_stride_u,
  1751. int src_stride_v,
  1752. int src_width,
  1753. int src_height,
  1754. uint8* dst_y,
  1755. uint8* dst_u,
  1756. uint8* dst_v,
  1757. int dst_stride_y,
  1758. int dst_stride_u,
  1759. int dst_stride_v,
  1760. int dst_width,
  1761. int dst_height,
  1762. LIBYUV_BOOL interpolate) {
  1763. return I420Scale(src_y, src_stride_y, src_u, src_stride_u, src_v,
  1764. src_stride_v, src_width, src_height, dst_y, dst_stride_y,
  1765. dst_u, dst_stride_u, dst_v, dst_stride_v, dst_width,
  1766. dst_height, interpolate ? kFilterBox : kFilterNone);
  1767. }
  1768. // Deprecated api
  1769. LIBYUV_API
  1770. int ScaleOffset(const uint8* src,
  1771. int src_width,
  1772. int src_height,
  1773. uint8* dst,
  1774. int dst_width,
  1775. int dst_height,
  1776. int dst_yoffset,
  1777. LIBYUV_BOOL interpolate) {
  1778. // Chroma requires offset to multiple of 2.
  1779. int dst_yoffset_even = dst_yoffset & ~1;
  1780. int src_halfwidth = SUBSAMPLE(src_width, 1, 1);
  1781. int src_halfheight = SUBSAMPLE(src_height, 1, 1);
  1782. int dst_halfwidth = SUBSAMPLE(dst_width, 1, 1);
  1783. int dst_halfheight = SUBSAMPLE(dst_height, 1, 1);
  1784. int aheight = dst_height - dst_yoffset_even * 2; // actual output height
  1785. const uint8* src_y = src;
  1786. const uint8* src_u = src + src_width * src_height;
  1787. const uint8* src_v =
  1788. src + src_width * src_height + src_halfwidth * src_halfheight;
  1789. uint8* dst_y = dst + dst_yoffset_even * dst_width;
  1790. uint8* dst_u =
  1791. dst + dst_width * dst_height + (dst_yoffset_even >> 1) * dst_halfwidth;
  1792. uint8* dst_v = dst + dst_width * dst_height + dst_halfwidth * dst_halfheight +
  1793. (dst_yoffset_even >> 1) * dst_halfwidth;
  1794. if (!src || src_width <= 0 || src_height <= 0 || !dst || dst_width <= 0 ||
  1795. dst_height <= 0 || dst_yoffset_even < 0 ||
  1796. dst_yoffset_even >= dst_height) {
  1797. return -1;
  1798. }
  1799. return I420Scale(src_y, src_width, src_u, src_halfwidth, src_v, src_halfwidth,
  1800. src_width, src_height, dst_y, dst_width, dst_u,
  1801. dst_halfwidth, dst_v, dst_halfwidth, dst_width, aheight,
  1802. interpolate ? kFilterBox : kFilterNone);
  1803. }
  1804. #ifdef __cplusplus
  1805. } // extern "C"
  1806. } // namespace libyuv
  1807. #endif