row_neon.cc 123 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001011021031041051061071081091101111121131141151161171181191201211221231241251261271281291301311321331341351361371381391401411421431441451461471481491501511521531541551561571581591601611621631641651661671681691701711721731741751761771781791801811821831841851861871881891901911921931941951961971981992002012022032042052062072082092102112122132142152162172182192202212222232242252262272282292302312322332342352362372382392402412422432442452462472482492502512522532542552562572582592602612622632642652662672682692702712722732742752762772782792802812822832842852862872882892902912922932942952962972982993003013023033043053063073083093103113123133143153163173183193203213223233243253263273283293303313323333343353363373383393403413423433443453463473483493503513523533543553563573583593603613623633643653663673683693703713723733743753763773783793803813823833843853863873883893903913923933943953963973983994004014024034044054064074084094104114124134144154164174184194204214224234244254264274284294304314324334344354364374384394404414424434444454464474484494504514524534544554564574584594604614624634644654664674684694704714724734744754764774784794804814824834844854864874884894904914924934944954964974984995005015025035045055065075085095105115125135145155165175185195205215225235245255265275285295305315325335345355365375385395405415425435445455465475485495505515525535545555565575585595605615625635645655665675685695705715725735745755765775785795805815825835845855865875885895905915925935945955965975985996006016026036046056066076086096106116126136146156166176186196206216226236246256266276286296306316326336346356366376386396406416426436446456466476486496506516526536546556566576586596606616626636646656666676686696706716726736746756766776786796806816826836846856866876886896906916926936946956966976986997007017027037047057067077087097107117127137147157167177187197207217227237247257267277287297307317327337347357367377387397407417427437447457467477487497507517527537547557567577587597607617627637647657667677687697707717727737747757767777787797807817827837847857867877887897907917927937947957967977987998008018028038048058068078088098108118128138148158168178188198208218228238248258268278288298308318328338348358368378388398408418428438448458468478488498508518528538548558568578588598608618628638648658668678688698708718728738748758768778788798808818828838848858868878888898908918928938948958968978988999009019029039049059069079089099109119129139149159169179189199209219229239249259269279289299309319329339349359369379389399409419429439449459469479489499509519529539549559569579589599609619629639649659669679689699709719729739749759769779789799809819829839849859869879889899909919929939949959969979989991000100110021003100410051006100710081009101010111012101310141015101610171018101910201021102210231024102510261027102810291030103110321033103410351036103710381039104010411042104310441045104610471048104910501051105210531054105510561057105810591060106110621063106410651066106710681069107010711072107310741075107610771078107910801081108210831084108510861087108810891090109110921093109410951096109710981099110011011102110311041105110611071108110911101111111211131114111511161117111811191120112111221123112411251126112711281129113011311132113311341135113611371138113911401141114211431144114511461147114811491150115111521153115411551156115711581159116011611162116311641165116611671168116911701171117211731174117511761177117811791180118111821183118411851186118711881189119011911192119311941195119611971198119912001201120212031204120512061207120812091210121112121213121412151216121712181219122012211222122312241225122612271228122912301231123212331234123512361237123812391240124112421243124412451246124712481249125012511252125312541255125612571258125912601261126212631264126512661267126812691270127112721273127412751276127712781279128012811282128312841285128612871288128912901291129212931294129512961297129812991300130113021303130413051306130713081309131013111312131313141315131613171318131913201321132213231324132513261327132813291330133113321333133413351336133713381339134013411342134313441345134613471348134913501351135213531354135513561357135813591360136113621363136413651366136713681369137013711372137313741375137613771378137913801381138213831384138513861387138813891390139113921393139413951396139713981399140014011402140314041405140614071408140914101411141214131414141514161417141814191420142114221423142414251426142714281429143014311432143314341435143614371438143914401441144214431444144514461447144814491450145114521453145414551456145714581459146014611462146314641465146614671468146914701471147214731474147514761477147814791480148114821483148414851486148714881489149014911492149314941495149614971498149915001501150215031504150515061507150815091510151115121513151415151516151715181519152015211522152315241525152615271528152915301531153215331534153515361537153815391540154115421543154415451546154715481549155015511552155315541555155615571558155915601561156215631564156515661567156815691570157115721573157415751576157715781579158015811582158315841585158615871588158915901591159215931594159515961597159815991600160116021603160416051606160716081609161016111612161316141615161616171618161916201621162216231624162516261627162816291630163116321633163416351636163716381639164016411642164316441645164616471648164916501651165216531654165516561657165816591660166116621663166416651666166716681669167016711672167316741675167616771678167916801681168216831684168516861687168816891690169116921693169416951696169716981699170017011702170317041705170617071708170917101711171217131714171517161717171817191720172117221723172417251726172717281729173017311732173317341735173617371738173917401741174217431744174517461747174817491750175117521753175417551756175717581759176017611762176317641765176617671768176917701771177217731774177517761777177817791780178117821783178417851786178717881789179017911792179317941795179617971798179918001801180218031804180518061807180818091810181118121813181418151816181718181819182018211822182318241825182618271828182918301831183218331834183518361837183818391840184118421843184418451846184718481849185018511852185318541855185618571858185918601861186218631864186518661867186818691870187118721873187418751876187718781879188018811882188318841885188618871888188918901891189218931894189518961897189818991900190119021903190419051906190719081909191019111912191319141915191619171918191919201921192219231924192519261927192819291930193119321933193419351936193719381939194019411942194319441945194619471948194919501951195219531954195519561957195819591960196119621963196419651966196719681969197019711972197319741975197619771978197919801981198219831984198519861987198819891990199119921993199419951996199719981999200020012002200320042005200620072008200920102011201220132014201520162017201820192020202120222023202420252026202720282029203020312032203320342035203620372038203920402041204220432044204520462047204820492050205120522053205420552056205720582059206020612062206320642065206620672068206920702071207220732074207520762077207820792080208120822083208420852086208720882089209020912092209320942095209620972098209921002101210221032104210521062107210821092110211121122113211421152116211721182119212021212122212321242125212621272128212921302131213221332134213521362137213821392140214121422143214421452146214721482149215021512152215321542155215621572158215921602161216221632164216521662167216821692170217121722173217421752176217721782179218021812182218321842185218621872188218921902191219221932194219521962197219821992200220122022203220422052206220722082209221022112212221322142215221622172218221922202221222222232224222522262227222822292230223122322233223422352236223722382239224022412242224322442245224622472248224922502251225222532254225522562257225822592260226122622263226422652266226722682269227022712272227322742275227622772278227922802281228222832284228522862287228822892290229122922293229422952296229722982299230023012302230323042305230623072308230923102311231223132314231523162317231823192320232123222323232423252326232723282329233023312332233323342335233623372338233923402341234223432344234523462347234823492350235123522353235423552356235723582359236023612362236323642365236623672368236923702371237223732374237523762377237823792380238123822383238423852386238723882389239023912392239323942395239623972398239924002401240224032404240524062407240824092410241124122413241424152416241724182419242024212422242324242425242624272428242924302431243224332434243524362437243824392440244124422443244424452446244724482449245024512452245324542455245624572458245924602461246224632464246524662467246824692470247124722473247424752476247724782479248024812482248324842485248624872488248924902491249224932494249524962497249824992500250125022503250425052506250725082509251025112512251325142515251625172518251925202521252225232524252525262527252825292530253125322533253425352536253725382539254025412542254325442545254625472548254925502551255225532554255525562557255825592560256125622563256425652566256725682569257025712572257325742575257625772578257925802581258225832584258525862587258825892590259125922593
  1. /*
  2. * Copyright 2011 The LibYuv Project Authors. All rights reserved.
  3. *
  4. * Use of this source code is governed by a BSD-style license
  5. * that can be found in the LICENSE file in the root of the source
  6. * tree. An additional intellectual property rights grant can be found
  7. * in the file PATENTS. All contributing project authors may
  8. * be found in the AUTHORS file in the root of the source tree.
  9. */
  10. #include "libyuv/row.h"
  11. #include <stdio.h>
  12. #ifdef __cplusplus
  13. namespace libyuv {
  14. extern "C" {
  15. #endif
  16. // This module is for GCC Neon
  17. #if !defined(LIBYUV_DISABLE_NEON) && defined(__ARM_NEON__) && \
  18. !defined(__aarch64__)
  19. // Read 8 Y, 4 U and 4 V from 422
  20. #define READYUV422 \
  21. "vld1.8 {d0}, [%0]! \n" \
  22. "vld1.32 {d2[0]}, [%1]! \n" \
  23. "vld1.32 {d2[1]}, [%2]! \n"
  24. // Read 8 Y, 8 U and 8 V from 444
  25. #define READYUV444 \
  26. "vld1.8 {d0}, [%0]! \n" \
  27. "vld1.8 {d2}, [%1]! \n" \
  28. "vld1.8 {d3}, [%2]! \n" \
  29. "vpaddl.u8 q1, q1 \n" \
  30. "vrshrn.u16 d2, q1, #1 \n"
  31. // Read 8 Y, and set 4 U and 4 V to 128
  32. #define READYUV400 \
  33. "vld1.8 {d0}, [%0]! \n" \
  34. "vmov.u8 d2, #128 \n"
  35. // Read 8 Y and 4 UV from NV12
  36. #define READNV12 \
  37. "vld1.8 {d0}, [%0]! \n" \
  38. "vld1.8 {d2}, [%1]! \n" \
  39. "vmov.u8 d3, d2 \n" /* split odd/even uv apart */ \
  40. "vuzp.u8 d2, d3 \n" \
  41. "vtrn.u32 d2, d3 \n"
  42. // Read 8 Y and 4 VU from NV21
  43. #define READNV21 \
  44. "vld1.8 {d0}, [%0]! \n" \
  45. "vld1.8 {d2}, [%1]! \n" \
  46. "vmov.u8 d3, d2 \n" /* split odd/even uv apart */ \
  47. "vuzp.u8 d3, d2 \n" \
  48. "vtrn.u32 d2, d3 \n"
  49. // Read 8 YUY2
  50. #define READYUY2 \
  51. "vld2.8 {d0, d2}, [%0]! \n" \
  52. "vmov.u8 d3, d2 \n" \
  53. "vuzp.u8 d2, d3 \n" \
  54. "vtrn.u32 d2, d3 \n"
  55. // Read 8 UYVY
  56. #define READUYVY \
  57. "vld2.8 {d2, d3}, [%0]! \n" \
  58. "vmov.u8 d0, d3 \n" \
  59. "vmov.u8 d3, d2 \n" \
  60. "vuzp.u8 d2, d3 \n" \
  61. "vtrn.u32 d2, d3 \n"
  62. #define YUVTORGB_SETUP \
  63. "vld1.8 {d24}, [%[kUVToRB]] \n" \
  64. "vld1.8 {d25}, [%[kUVToG]] \n" \
  65. "vld1.16 {d26[], d27[]}, [%[kUVBiasBGR]]! \n" \
  66. "vld1.16 {d8[], d9[]}, [%[kUVBiasBGR]]! \n" \
  67. "vld1.16 {d28[], d29[]}, [%[kUVBiasBGR]] \n" \
  68. "vld1.32 {d30[], d31[]}, [%[kYToRgb]] \n"
  69. #define YUVTORGB \
  70. "vmull.u8 q8, d2, d24 \n" /* u/v B/R component */ \
  71. "vmull.u8 q9, d2, d25 \n" /* u/v G component */ \
  72. "vmovl.u8 q0, d0 \n" /* Y */ \
  73. "vmovl.s16 q10, d1 \n" \
  74. "vmovl.s16 q0, d0 \n" \
  75. "vmul.s32 q10, q10, q15 \n" \
  76. "vmul.s32 q0, q0, q15 \n" \
  77. "vqshrun.s32 d0, q0, #16 \n" \
  78. "vqshrun.s32 d1, q10, #16 \n" /* Y */ \
  79. "vadd.s16 d18, d19 \n" \
  80. "vshll.u16 q1, d16, #16 \n" /* Replicate u * UB */ \
  81. "vshll.u16 q10, d17, #16 \n" /* Replicate v * VR */ \
  82. "vshll.u16 q3, d18, #16 \n" /* Replicate (v*VG + u*UG)*/ \
  83. "vaddw.u16 q1, q1, d16 \n" \
  84. "vaddw.u16 q10, q10, d17 \n" \
  85. "vaddw.u16 q3, q3, d18 \n" \
  86. "vqadd.s16 q8, q0, q13 \n" /* B */ \
  87. "vqadd.s16 q9, q0, q14 \n" /* R */ \
  88. "vqadd.s16 q0, q0, q4 \n" /* G */ \
  89. "vqadd.s16 q8, q8, q1 \n" /* B */ \
  90. "vqadd.s16 q9, q9, q10 \n" /* R */ \
  91. "vqsub.s16 q0, q0, q3 \n" /* G */ \
  92. "vqshrun.s16 d20, q8, #6 \n" /* B */ \
  93. "vqshrun.s16 d22, q9, #6 \n" /* R */ \
  94. "vqshrun.s16 d21, q0, #6 \n" /* G */
  95. void I444ToARGBRow_NEON(const uint8* src_y,
  96. const uint8* src_u,
  97. const uint8* src_v,
  98. uint8* dst_argb,
  99. const struct YuvConstants* yuvconstants,
  100. int width) {
  101. asm volatile(
  102. YUVTORGB_SETUP
  103. "vmov.u8 d23, #255 \n"
  104. "1: \n" READYUV444 YUVTORGB
  105. "subs %4, %4, #8 \n"
  106. "vst4.8 {d20, d21, d22, d23}, [%3]! \n"
  107. "bgt 1b \n"
  108. : "+r"(src_y), // %0
  109. "+r"(src_u), // %1
  110. "+r"(src_v), // %2
  111. "+r"(dst_argb), // %3
  112. "+r"(width) // %4
  113. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  114. [kUVToG] "r"(&yuvconstants->kUVToG),
  115. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  116. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  117. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  118. "q12", "q13", "q14", "q15");
  119. }
  120. void I422ToARGBRow_NEON(const uint8* src_y,
  121. const uint8* src_u,
  122. const uint8* src_v,
  123. uint8* dst_argb,
  124. const struct YuvConstants* yuvconstants,
  125. int width) {
  126. asm volatile(
  127. YUVTORGB_SETUP
  128. "vmov.u8 d23, #255 \n"
  129. "1: \n" READYUV422 YUVTORGB
  130. "subs %4, %4, #8 \n"
  131. "vst4.8 {d20, d21, d22, d23}, [%3]! \n"
  132. "bgt 1b \n"
  133. : "+r"(src_y), // %0
  134. "+r"(src_u), // %1
  135. "+r"(src_v), // %2
  136. "+r"(dst_argb), // %3
  137. "+r"(width) // %4
  138. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  139. [kUVToG] "r"(&yuvconstants->kUVToG),
  140. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  141. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  142. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  143. "q12", "q13", "q14", "q15");
  144. }
  145. void I422AlphaToARGBRow_NEON(const uint8* src_y,
  146. const uint8* src_u,
  147. const uint8* src_v,
  148. const uint8* src_a,
  149. uint8* dst_argb,
  150. const struct YuvConstants* yuvconstants,
  151. int width) {
  152. asm volatile(
  153. YUVTORGB_SETUP
  154. "1: \n" READYUV422 YUVTORGB
  155. "subs %5, %5, #8 \n"
  156. "vld1.8 {d23}, [%3]! \n"
  157. "vst4.8 {d20, d21, d22, d23}, [%4]! \n"
  158. "bgt 1b \n"
  159. : "+r"(src_y), // %0
  160. "+r"(src_u), // %1
  161. "+r"(src_v), // %2
  162. "+r"(src_a), // %3
  163. "+r"(dst_argb), // %4
  164. "+r"(width) // %5
  165. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  166. [kUVToG] "r"(&yuvconstants->kUVToG),
  167. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  168. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  169. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  170. "q12", "q13", "q14", "q15");
  171. }
  172. void I422ToRGBARow_NEON(const uint8* src_y,
  173. const uint8* src_u,
  174. const uint8* src_v,
  175. uint8* dst_rgba,
  176. const struct YuvConstants* yuvconstants,
  177. int width) {
  178. asm volatile(
  179. YUVTORGB_SETUP
  180. "1: \n" READYUV422 YUVTORGB
  181. "subs %4, %4, #8 \n"
  182. "vmov.u8 d19, #255 \n" // d19 modified by
  183. // YUVTORGB
  184. "vst4.8 {d19, d20, d21, d22}, [%3]! \n"
  185. "bgt 1b \n"
  186. : "+r"(src_y), // %0
  187. "+r"(src_u), // %1
  188. "+r"(src_v), // %2
  189. "+r"(dst_rgba), // %3
  190. "+r"(width) // %4
  191. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  192. [kUVToG] "r"(&yuvconstants->kUVToG),
  193. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  194. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  195. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  196. "q12", "q13", "q14", "q15");
  197. }
  198. void I422ToRGB24Row_NEON(const uint8* src_y,
  199. const uint8* src_u,
  200. const uint8* src_v,
  201. uint8* dst_rgb24,
  202. const struct YuvConstants* yuvconstants,
  203. int width) {
  204. asm volatile(
  205. YUVTORGB_SETUP
  206. "1: \n" READYUV422 YUVTORGB
  207. "subs %4, %4, #8 \n"
  208. "vst3.8 {d20, d21, d22}, [%3]! \n"
  209. "bgt 1b \n"
  210. : "+r"(src_y), // %0
  211. "+r"(src_u), // %1
  212. "+r"(src_v), // %2
  213. "+r"(dst_rgb24), // %3
  214. "+r"(width) // %4
  215. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  216. [kUVToG] "r"(&yuvconstants->kUVToG),
  217. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  218. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  219. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  220. "q12", "q13", "q14", "q15");
  221. }
  222. #define ARGBTORGB565 \
  223. "vshll.u8 q0, d22, #8 \n" /* R */ \
  224. "vshll.u8 q8, d21, #8 \n" /* G */ \
  225. "vshll.u8 q9, d20, #8 \n" /* B */ \
  226. "vsri.16 q0, q8, #5 \n" /* RG */ \
  227. "vsri.16 q0, q9, #11 \n" /* RGB */
  228. void I422ToRGB565Row_NEON(const uint8* src_y,
  229. const uint8* src_u,
  230. const uint8* src_v,
  231. uint8* dst_rgb565,
  232. const struct YuvConstants* yuvconstants,
  233. int width) {
  234. asm volatile(
  235. YUVTORGB_SETUP
  236. "1: \n" READYUV422 YUVTORGB
  237. "subs %4, %4, #8 \n" ARGBTORGB565
  238. "vst1.8 {q0}, [%3]! \n" // store 8 pixels RGB565.
  239. "bgt 1b \n"
  240. : "+r"(src_y), // %0
  241. "+r"(src_u), // %1
  242. "+r"(src_v), // %2
  243. "+r"(dst_rgb565), // %3
  244. "+r"(width) // %4
  245. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  246. [kUVToG] "r"(&yuvconstants->kUVToG),
  247. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  248. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  249. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  250. "q12", "q13", "q14", "q15");
  251. }
  252. #define ARGBTOARGB1555 \
  253. "vshll.u8 q0, d23, #8 \n" /* A */ \
  254. "vshll.u8 q8, d22, #8 \n" /* R */ \
  255. "vshll.u8 q9, d21, #8 \n" /* G */ \
  256. "vshll.u8 q10, d20, #8 \n" /* B */ \
  257. "vsri.16 q0, q8, #1 \n" /* AR */ \
  258. "vsri.16 q0, q9, #6 \n" /* ARG */ \
  259. "vsri.16 q0, q10, #11 \n" /* ARGB */
  260. void I422ToARGB1555Row_NEON(const uint8* src_y,
  261. const uint8* src_u,
  262. const uint8* src_v,
  263. uint8* dst_argb1555,
  264. const struct YuvConstants* yuvconstants,
  265. int width) {
  266. asm volatile(
  267. YUVTORGB_SETUP
  268. "1: \n" READYUV422 YUVTORGB
  269. "subs %4, %4, #8 \n"
  270. "vmov.u8 d23, #255 \n" ARGBTOARGB1555
  271. "vst1.8 {q0}, [%3]! \n" // store 8 pixels
  272. // ARGB1555.
  273. "bgt 1b \n"
  274. : "+r"(src_y), // %0
  275. "+r"(src_u), // %1
  276. "+r"(src_v), // %2
  277. "+r"(dst_argb1555), // %3
  278. "+r"(width) // %4
  279. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  280. [kUVToG] "r"(&yuvconstants->kUVToG),
  281. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  282. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  283. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  284. "q12", "q13", "q14", "q15");
  285. }
  286. #define ARGBTOARGB4444 \
  287. "vshr.u8 d20, d20, #4 \n" /* B */ \
  288. "vbic.32 d21, d21, d4 \n" /* G */ \
  289. "vshr.u8 d22, d22, #4 \n" /* R */ \
  290. "vbic.32 d23, d23, d4 \n" /* A */ \
  291. "vorr d0, d20, d21 \n" /* BG */ \
  292. "vorr d1, d22, d23 \n" /* RA */ \
  293. "vzip.u8 d0, d1 \n" /* BGRA */
  294. void I422ToARGB4444Row_NEON(const uint8* src_y,
  295. const uint8* src_u,
  296. const uint8* src_v,
  297. uint8* dst_argb4444,
  298. const struct YuvConstants* yuvconstants,
  299. int width) {
  300. asm volatile(
  301. YUVTORGB_SETUP
  302. "vmov.u8 d4, #0x0f \n" // bits to clear with
  303. // vbic.
  304. "1: \n" READYUV422 YUVTORGB
  305. "subs %4, %4, #8 \n"
  306. "vmov.u8 d23, #255 \n" ARGBTOARGB4444
  307. "vst1.8 {q0}, [%3]! \n" // store 8 pixels
  308. // ARGB4444.
  309. "bgt 1b \n"
  310. : "+r"(src_y), // %0
  311. "+r"(src_u), // %1
  312. "+r"(src_v), // %2
  313. "+r"(dst_argb4444), // %3
  314. "+r"(width) // %4
  315. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  316. [kUVToG] "r"(&yuvconstants->kUVToG),
  317. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  318. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  319. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  320. "q12", "q13", "q14", "q15");
  321. }
  322. void I400ToARGBRow_NEON(const uint8* src_y, uint8* dst_argb, int width) {
  323. asm volatile(
  324. YUVTORGB_SETUP
  325. "vmov.u8 d23, #255 \n"
  326. "1: \n" READYUV400 YUVTORGB
  327. "subs %2, %2, #8 \n"
  328. "vst4.8 {d20, d21, d22, d23}, [%1]! \n"
  329. "bgt 1b \n"
  330. : "+r"(src_y), // %0
  331. "+r"(dst_argb), // %1
  332. "+r"(width) // %2
  333. : [kUVToRB] "r"(&kYuvI601Constants.kUVToRB),
  334. [kUVToG] "r"(&kYuvI601Constants.kUVToG),
  335. [kUVBiasBGR] "r"(&kYuvI601Constants.kUVBiasBGR),
  336. [kYToRgb] "r"(&kYuvI601Constants.kYToRgb)
  337. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  338. "q12", "q13", "q14", "q15");
  339. }
  340. void J400ToARGBRow_NEON(const uint8* src_y, uint8* dst_argb, int width) {
  341. asm volatile(
  342. "vmov.u8 d23, #255 \n"
  343. "1: \n"
  344. "vld1.8 {d20}, [%0]! \n"
  345. "vmov d21, d20 \n"
  346. "vmov d22, d20 \n"
  347. "subs %2, %2, #8 \n"
  348. "vst4.8 {d20, d21, d22, d23}, [%1]! \n"
  349. "bgt 1b \n"
  350. : "+r"(src_y), // %0
  351. "+r"(dst_argb), // %1
  352. "+r"(width) // %2
  353. :
  354. : "cc", "memory", "d20", "d21", "d22", "d23");
  355. }
  356. void NV12ToARGBRow_NEON(const uint8* src_y,
  357. const uint8* src_uv,
  358. uint8* dst_argb,
  359. const struct YuvConstants* yuvconstants,
  360. int width) {
  361. asm volatile(YUVTORGB_SETUP
  362. "vmov.u8 d23, #255 \n"
  363. "1: \n" READNV12 YUVTORGB
  364. "subs %3, %3, #8 \n"
  365. "vst4.8 {d20, d21, d22, d23}, [%2]! \n"
  366. "bgt 1b \n"
  367. : "+r"(src_y), // %0
  368. "+r"(src_uv), // %1
  369. "+r"(dst_argb), // %2
  370. "+r"(width) // %3
  371. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  372. [kUVToG] "r"(&yuvconstants->kUVToG),
  373. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  374. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  375. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9",
  376. "q10", "q11", "q12", "q13", "q14", "q15");
  377. }
  378. void NV21ToARGBRow_NEON(const uint8* src_y,
  379. const uint8* src_vu,
  380. uint8* dst_argb,
  381. const struct YuvConstants* yuvconstants,
  382. int width) {
  383. asm volatile(YUVTORGB_SETUP
  384. "vmov.u8 d23, #255 \n"
  385. "1: \n" READNV21 YUVTORGB
  386. "subs %3, %3, #8 \n"
  387. "vst4.8 {d20, d21, d22, d23}, [%2]! \n"
  388. "bgt 1b \n"
  389. : "+r"(src_y), // %0
  390. "+r"(src_vu), // %1
  391. "+r"(dst_argb), // %2
  392. "+r"(width) // %3
  393. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  394. [kUVToG] "r"(&yuvconstants->kUVToG),
  395. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  396. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  397. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9",
  398. "q10", "q11", "q12", "q13", "q14", "q15");
  399. }
  400. void NV12ToRGB565Row_NEON(const uint8* src_y,
  401. const uint8* src_uv,
  402. uint8* dst_rgb565,
  403. const struct YuvConstants* yuvconstants,
  404. int width) {
  405. asm volatile(
  406. YUVTORGB_SETUP
  407. "1: \n" READNV12 YUVTORGB
  408. "subs %3, %3, #8 \n" ARGBTORGB565
  409. "vst1.8 {q0}, [%2]! \n" // store 8 pixels RGB565.
  410. "bgt 1b \n"
  411. : "+r"(src_y), // %0
  412. "+r"(src_uv), // %1
  413. "+r"(dst_rgb565), // %2
  414. "+r"(width) // %3
  415. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  416. [kUVToG] "r"(&yuvconstants->kUVToG),
  417. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  418. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  419. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9", "q10", "q11",
  420. "q12", "q13", "q14", "q15");
  421. }
  422. void YUY2ToARGBRow_NEON(const uint8* src_yuy2,
  423. uint8* dst_argb,
  424. const struct YuvConstants* yuvconstants,
  425. int width) {
  426. asm volatile(YUVTORGB_SETUP
  427. "vmov.u8 d23, #255 \n"
  428. "1: \n" READYUY2 YUVTORGB
  429. "subs %2, %2, #8 \n"
  430. "vst4.8 {d20, d21, d22, d23}, [%1]! \n"
  431. "bgt 1b \n"
  432. : "+r"(src_yuy2), // %0
  433. "+r"(dst_argb), // %1
  434. "+r"(width) // %2
  435. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  436. [kUVToG] "r"(&yuvconstants->kUVToG),
  437. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  438. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  439. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9",
  440. "q10", "q11", "q12", "q13", "q14", "q15");
  441. }
  442. void UYVYToARGBRow_NEON(const uint8* src_uyvy,
  443. uint8* dst_argb,
  444. const struct YuvConstants* yuvconstants,
  445. int width) {
  446. asm volatile(YUVTORGB_SETUP
  447. "vmov.u8 d23, #255 \n"
  448. "1: \n" READUYVY YUVTORGB
  449. "subs %2, %2, #8 \n"
  450. "vst4.8 {d20, d21, d22, d23}, [%1]! \n"
  451. "bgt 1b \n"
  452. : "+r"(src_uyvy), // %0
  453. "+r"(dst_argb), // %1
  454. "+r"(width) // %2
  455. : [kUVToRB] "r"(&yuvconstants->kUVToRB),
  456. [kUVToG] "r"(&yuvconstants->kUVToG),
  457. [kUVBiasBGR] "r"(&yuvconstants->kUVBiasBGR),
  458. [kYToRgb] "r"(&yuvconstants->kYToRgb)
  459. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q8", "q9",
  460. "q10", "q11", "q12", "q13", "q14", "q15");
  461. }
  462. // Reads 16 pairs of UV and write even values to dst_u and odd to dst_v.
  463. void SplitUVRow_NEON(const uint8* src_uv,
  464. uint8* dst_u,
  465. uint8* dst_v,
  466. int width) {
  467. asm volatile(
  468. "1: \n"
  469. "vld2.8 {q0, q1}, [%0]! \n" // load 16 pairs of UV
  470. "subs %3, %3, #16 \n" // 16 processed per loop
  471. "vst1.8 {q0}, [%1]! \n" // store U
  472. "vst1.8 {q1}, [%2]! \n" // store V
  473. "bgt 1b \n"
  474. : "+r"(src_uv), // %0
  475. "+r"(dst_u), // %1
  476. "+r"(dst_v), // %2
  477. "+r"(width) // %3 // Output registers
  478. : // Input registers
  479. : "cc", "memory", "q0", "q1" // Clobber List
  480. );
  481. }
  482. // Reads 16 U's and V's and writes out 16 pairs of UV.
  483. void MergeUVRow_NEON(const uint8* src_u,
  484. const uint8* src_v,
  485. uint8* dst_uv,
  486. int width) {
  487. asm volatile(
  488. "1: \n"
  489. "vld1.8 {q0}, [%0]! \n" // load U
  490. "vld1.8 {q1}, [%1]! \n" // load V
  491. "subs %3, %3, #16 \n" // 16 processed per loop
  492. "vst2.8 {q0, q1}, [%2]! \n" // store 16 pairs of UV
  493. "bgt 1b \n"
  494. : "+r"(src_u), // %0
  495. "+r"(src_v), // %1
  496. "+r"(dst_uv), // %2
  497. "+r"(width) // %3 // Output registers
  498. : // Input registers
  499. : "cc", "memory", "q0", "q1" // Clobber List
  500. );
  501. }
  502. // Reads 16 packed RGB and write to planar dst_r, dst_g, dst_b.
  503. void SplitRGBRow_NEON(const uint8* src_rgb,
  504. uint8* dst_r,
  505. uint8* dst_g,
  506. uint8* dst_b,
  507. int width) {
  508. asm volatile(
  509. "1: \n"
  510. "vld3.8 {d0, d2, d4}, [%0]! \n" // load 8 RGB
  511. "vld3.8 {d1, d3, d5}, [%0]! \n" // next 8 RGB
  512. "subs %4, %4, #16 \n" // 16 processed per loop
  513. "vst1.8 {q0}, [%1]! \n" // store R
  514. "vst1.8 {q1}, [%2]! \n" // store G
  515. "vst1.8 {q2}, [%3]! \n" // store B
  516. "bgt 1b \n"
  517. : "+r"(src_rgb), // %0
  518. "+r"(dst_r), // %1
  519. "+r"(dst_g), // %2
  520. "+r"(dst_b), // %3
  521. "+r"(width) // %4
  522. : // Input registers
  523. : "cc", "memory", "d0", "d1", "d2" // Clobber List
  524. );
  525. }
  526. // Reads 16 planar R's, G's and B's and writes out 16 packed RGB at a time
  527. void MergeRGBRow_NEON(const uint8* src_r,
  528. const uint8* src_g,
  529. const uint8* src_b,
  530. uint8* dst_rgb,
  531. int width) {
  532. asm volatile(
  533. "1: \n"
  534. "vld1.8 {q0}, [%0]! \n" // load R
  535. "vld1.8 {q1}, [%1]! \n" // load G
  536. "vld1.8 {q2}, [%2]! \n" // load B
  537. "subs %4, %4, #16 \n" // 16 processed per loop
  538. "vst3.8 {d0, d2, d4}, [%3]! \n" // store 8 RGB
  539. "vst3.8 {d1, d3, d5}, [%3]! \n" // next 8 RGB
  540. "bgt 1b \n"
  541. : "+r"(src_r), // %0
  542. "+r"(src_g), // %1
  543. "+r"(src_b), // %2
  544. "+r"(dst_rgb), // %3
  545. "+r"(width) // %4
  546. : // Input registers
  547. : "cc", "memory", "q0", "q1", "q2" // Clobber List
  548. );
  549. }
  550. // Copy multiple of 32. vld4.8 allow unaligned and is fastest on a15.
  551. void CopyRow_NEON(const uint8* src, uint8* dst, int count) {
  552. asm volatile(
  553. "1: \n"
  554. "vld1.8 {d0, d1, d2, d3}, [%0]! \n" // load 32
  555. "subs %2, %2, #32 \n" // 32 processed per loop
  556. "vst1.8 {d0, d1, d2, d3}, [%1]! \n" // store 32
  557. "bgt 1b \n"
  558. : "+r"(src), // %0
  559. "+r"(dst), // %1
  560. "+r"(count) // %2 // Output registers
  561. : // Input registers
  562. : "cc", "memory", "q0", "q1" // Clobber List
  563. );
  564. }
  565. // SetRow writes 'count' bytes using an 8 bit value repeated.
  566. void SetRow_NEON(uint8* dst, uint8 v8, int count) {
  567. asm volatile(
  568. "vdup.8 q0, %2 \n" // duplicate 16 bytes
  569. "1: \n"
  570. "subs %1, %1, #16 \n" // 16 bytes per loop
  571. "vst1.8 {q0}, [%0]! \n" // store
  572. "bgt 1b \n"
  573. : "+r"(dst), // %0
  574. "+r"(count) // %1
  575. : "r"(v8) // %2
  576. : "cc", "memory", "q0");
  577. }
  578. // ARGBSetRow writes 'count' pixels using an 32 bit value repeated.
  579. void ARGBSetRow_NEON(uint8* dst, uint32 v32, int count) {
  580. asm volatile(
  581. "vdup.u32 q0, %2 \n" // duplicate 4 ints
  582. "1: \n"
  583. "subs %1, %1, #4 \n" // 4 pixels per loop
  584. "vst1.8 {q0}, [%0]! \n" // store
  585. "bgt 1b \n"
  586. : "+r"(dst), // %0
  587. "+r"(count) // %1
  588. : "r"(v32) // %2
  589. : "cc", "memory", "q0");
  590. }
  591. void MirrorRow_NEON(const uint8* src, uint8* dst, int width) {
  592. asm volatile(
  593. // Start at end of source row.
  594. "mov r3, #-16 \n"
  595. "add %0, %0, %2 \n"
  596. "sub %0, #16 \n"
  597. "1: \n"
  598. "vld1.8 {q0}, [%0], r3 \n" // src -= 16
  599. "subs %2, #16 \n" // 16 pixels per loop.
  600. "vrev64.8 q0, q0 \n"
  601. "vst1.8 {d1}, [%1]! \n" // dst += 16
  602. "vst1.8 {d0}, [%1]! \n"
  603. "bgt 1b \n"
  604. : "+r"(src), // %0
  605. "+r"(dst), // %1
  606. "+r"(width) // %2
  607. :
  608. : "cc", "memory", "r3", "q0");
  609. }
  610. void MirrorUVRow_NEON(const uint8* src_uv,
  611. uint8* dst_u,
  612. uint8* dst_v,
  613. int width) {
  614. asm volatile(
  615. // Start at end of source row.
  616. "mov r12, #-16 \n"
  617. "add %0, %0, %3, lsl #1 \n"
  618. "sub %0, #16 \n"
  619. "1: \n"
  620. "vld2.8 {d0, d1}, [%0], r12 \n" // src -= 16
  621. "subs %3, #8 \n" // 8 pixels per loop.
  622. "vrev64.8 q0, q0 \n"
  623. "vst1.8 {d0}, [%1]! \n" // dst += 8
  624. "vst1.8 {d1}, [%2]! \n"
  625. "bgt 1b \n"
  626. : "+r"(src_uv), // %0
  627. "+r"(dst_u), // %1
  628. "+r"(dst_v), // %2
  629. "+r"(width) // %3
  630. :
  631. : "cc", "memory", "r12", "q0");
  632. }
  633. void ARGBMirrorRow_NEON(const uint8* src, uint8* dst, int width) {
  634. asm volatile(
  635. // Start at end of source row.
  636. "mov r3, #-16 \n"
  637. "add %0, %0, %2, lsl #2 \n"
  638. "sub %0, #16 \n"
  639. "1: \n"
  640. "vld1.8 {q0}, [%0], r3 \n" // src -= 16
  641. "subs %2, #4 \n" // 4 pixels per loop.
  642. "vrev64.32 q0, q0 \n"
  643. "vst1.8 {d1}, [%1]! \n" // dst += 16
  644. "vst1.8 {d0}, [%1]! \n"
  645. "bgt 1b \n"
  646. : "+r"(src), // %0
  647. "+r"(dst), // %1
  648. "+r"(width) // %2
  649. :
  650. : "cc", "memory", "r3", "q0");
  651. }
  652. void RGB24ToARGBRow_NEON(const uint8* src_rgb24, uint8* dst_argb, int width) {
  653. asm volatile(
  654. "vmov.u8 d4, #255 \n" // Alpha
  655. "1: \n"
  656. "vld3.8 {d1, d2, d3}, [%0]! \n" // load 8 pixels of RGB24.
  657. "subs %2, %2, #8 \n" // 8 processed per loop.
  658. "vst4.8 {d1, d2, d3, d4}, [%1]! \n" // store 8 pixels of ARGB.
  659. "bgt 1b \n"
  660. : "+r"(src_rgb24), // %0
  661. "+r"(dst_argb), // %1
  662. "+r"(width) // %2
  663. :
  664. : "cc", "memory", "d1", "d2", "d3", "d4" // Clobber List
  665. );
  666. }
  667. void RAWToARGBRow_NEON(const uint8* src_raw, uint8* dst_argb, int width) {
  668. asm volatile(
  669. "vmov.u8 d4, #255 \n" // Alpha
  670. "1: \n"
  671. "vld3.8 {d1, d2, d3}, [%0]! \n" // load 8 pixels of RAW.
  672. "subs %2, %2, #8 \n" // 8 processed per loop.
  673. "vswp.u8 d1, d3 \n" // swap R, B
  674. "vst4.8 {d1, d2, d3, d4}, [%1]! \n" // store 8 pixels of ARGB.
  675. "bgt 1b \n"
  676. : "+r"(src_raw), // %0
  677. "+r"(dst_argb), // %1
  678. "+r"(width) // %2
  679. :
  680. : "cc", "memory", "d1", "d2", "d3", "d4" // Clobber List
  681. );
  682. }
  683. void RAWToRGB24Row_NEON(const uint8* src_raw, uint8* dst_rgb24, int width) {
  684. asm volatile(
  685. "1: \n"
  686. "vld3.8 {d1, d2, d3}, [%0]! \n" // load 8 pixels of RAW.
  687. "subs %2, %2, #8 \n" // 8 processed per loop.
  688. "vswp.u8 d1, d3 \n" // swap R, B
  689. "vst3.8 {d1, d2, d3}, [%1]! \n" // store 8 pixels of
  690. // RGB24.
  691. "bgt 1b \n"
  692. : "+r"(src_raw), // %0
  693. "+r"(dst_rgb24), // %1
  694. "+r"(width) // %2
  695. :
  696. : "cc", "memory", "d1", "d2", "d3" // Clobber List
  697. );
  698. }
  699. #define RGB565TOARGB \
  700. "vshrn.u16 d6, q0, #5 \n" /* G xxGGGGGG */ \
  701. "vuzp.u8 d0, d1 \n" /* d0 xxxBBBBB RRRRRxxx */ \
  702. "vshl.u8 d6, d6, #2 \n" /* G GGGGGG00 upper 6 */ \
  703. "vshr.u8 d1, d1, #3 \n" /* R 000RRRRR lower 5 */ \
  704. "vshl.u8 q0, q0, #3 \n" /* B,R BBBBB000 upper 5 */ \
  705. "vshr.u8 q2, q0, #5 \n" /* B,R 00000BBB lower 3 */ \
  706. "vorr.u8 d0, d0, d4 \n" /* B */ \
  707. "vshr.u8 d4, d6, #6 \n" /* G 000000GG lower 2 */ \
  708. "vorr.u8 d2, d1, d5 \n" /* R */ \
  709. "vorr.u8 d1, d4, d6 \n" /* G */
  710. void RGB565ToARGBRow_NEON(const uint8* src_rgb565, uint8* dst_argb, int width) {
  711. asm volatile(
  712. "vmov.u8 d3, #255 \n" // Alpha
  713. "1: \n"
  714. "vld1.8 {q0}, [%0]! \n" // load 8 RGB565 pixels.
  715. "subs %2, %2, #8 \n" // 8 processed per loop.
  716. RGB565TOARGB
  717. "vst4.8 {d0, d1, d2, d3}, [%1]! \n" // store 8 pixels of ARGB.
  718. "bgt 1b \n"
  719. : "+r"(src_rgb565), // %0
  720. "+r"(dst_argb), // %1
  721. "+r"(width) // %2
  722. :
  723. : "cc", "memory", "q0", "q1", "q2", "q3" // Clobber List
  724. );
  725. }
  726. #define ARGB1555TOARGB \
  727. "vshrn.u16 d7, q0, #8 \n" /* A Arrrrrxx */ \
  728. "vshr.u8 d6, d7, #2 \n" /* R xxxRRRRR */ \
  729. "vshrn.u16 d5, q0, #5 \n" /* G xxxGGGGG */ \
  730. "vmovn.u16 d4, q0 \n" /* B xxxBBBBB */ \
  731. "vshr.u8 d7, d7, #7 \n" /* A 0000000A */ \
  732. "vneg.s8 d7, d7 \n" /* A AAAAAAAA upper 8 */ \
  733. "vshl.u8 d6, d6, #3 \n" /* R RRRRR000 upper 5 */ \
  734. "vshr.u8 q1, q3, #5 \n" /* R,A 00000RRR lower 3 */ \
  735. "vshl.u8 q0, q2, #3 \n" /* B,G BBBBB000 upper 5 */ \
  736. "vshr.u8 q2, q0, #5 \n" /* B,G 00000BBB lower 3 */ \
  737. "vorr.u8 q1, q1, q3 \n" /* R,A */ \
  738. "vorr.u8 q0, q0, q2 \n" /* B,G */
  739. // RGB555TOARGB is same as ARGB1555TOARGB but ignores alpha.
  740. #define RGB555TOARGB \
  741. "vshrn.u16 d6, q0, #5 \n" /* G xxxGGGGG */ \
  742. "vuzp.u8 d0, d1 \n" /* d0 xxxBBBBB xRRRRRxx */ \
  743. "vshl.u8 d6, d6, #3 \n" /* G GGGGG000 upper 5 */ \
  744. "vshr.u8 d1, d1, #2 \n" /* R 00xRRRRR lower 5 */ \
  745. "vshl.u8 q0, q0, #3 \n" /* B,R BBBBB000 upper 5 */ \
  746. "vshr.u8 q2, q0, #5 \n" /* B,R 00000BBB lower 3 */ \
  747. "vorr.u8 d0, d0, d4 \n" /* B */ \
  748. "vshr.u8 d4, d6, #5 \n" /* G 00000GGG lower 3 */ \
  749. "vorr.u8 d2, d1, d5 \n" /* R */ \
  750. "vorr.u8 d1, d4, d6 \n" /* G */
  751. void ARGB1555ToARGBRow_NEON(const uint8* src_argb1555,
  752. uint8* dst_argb,
  753. int width) {
  754. asm volatile(
  755. "vmov.u8 d3, #255 \n" // Alpha
  756. "1: \n"
  757. "vld1.8 {q0}, [%0]! \n" // load 8 ARGB1555 pixels.
  758. "subs %2, %2, #8 \n" // 8 processed per loop.
  759. ARGB1555TOARGB
  760. "vst4.8 {d0, d1, d2, d3}, [%1]! \n" // store 8 pixels of ARGB.
  761. "bgt 1b \n"
  762. : "+r"(src_argb1555), // %0
  763. "+r"(dst_argb), // %1
  764. "+r"(width) // %2
  765. :
  766. : "cc", "memory", "q0", "q1", "q2", "q3" // Clobber List
  767. );
  768. }
  769. #define ARGB4444TOARGB \
  770. "vuzp.u8 d0, d1 \n" /* d0 BG, d1 RA */ \
  771. "vshl.u8 q2, q0, #4 \n" /* B,R BBBB0000 */ \
  772. "vshr.u8 q1, q0, #4 \n" /* G,A 0000GGGG */ \
  773. "vshr.u8 q0, q2, #4 \n" /* B,R 0000BBBB */ \
  774. "vorr.u8 q0, q0, q2 \n" /* B,R BBBBBBBB */ \
  775. "vshl.u8 q2, q1, #4 \n" /* G,A GGGG0000 */ \
  776. "vorr.u8 q1, q1, q2 \n" /* G,A GGGGGGGG */ \
  777. "vswp.u8 d1, d2 \n" /* B,R,G,A -> B,G,R,A */
  778. void ARGB4444ToARGBRow_NEON(const uint8* src_argb4444,
  779. uint8* dst_argb,
  780. int width) {
  781. asm volatile(
  782. "vmov.u8 d3, #255 \n" // Alpha
  783. "1: \n"
  784. "vld1.8 {q0}, [%0]! \n" // load 8 ARGB4444 pixels.
  785. "subs %2, %2, #8 \n" // 8 processed per loop.
  786. ARGB4444TOARGB
  787. "vst4.8 {d0, d1, d2, d3}, [%1]! \n" // store 8 pixels of ARGB.
  788. "bgt 1b \n"
  789. : "+r"(src_argb4444), // %0
  790. "+r"(dst_argb), // %1
  791. "+r"(width) // %2
  792. :
  793. : "cc", "memory", "q0", "q1", "q2" // Clobber List
  794. );
  795. }
  796. void ARGBToRGB24Row_NEON(const uint8* src_argb, uint8* dst_rgb24, int width) {
  797. asm volatile(
  798. "1: \n"
  799. "vld4.8 {d1, d2, d3, d4}, [%0]! \n" // load 8 pixels of ARGB.
  800. "subs %2, %2, #8 \n" // 8 processed per loop.
  801. "vst3.8 {d1, d2, d3}, [%1]! \n" // store 8 pixels of
  802. // RGB24.
  803. "bgt 1b \n"
  804. : "+r"(src_argb), // %0
  805. "+r"(dst_rgb24), // %1
  806. "+r"(width) // %2
  807. :
  808. : "cc", "memory", "d1", "d2", "d3", "d4" // Clobber List
  809. );
  810. }
  811. void ARGBToRAWRow_NEON(const uint8* src_argb, uint8* dst_raw, int width) {
  812. asm volatile(
  813. "1: \n"
  814. "vld4.8 {d1, d2, d3, d4}, [%0]! \n" // load 8 pixels of ARGB.
  815. "subs %2, %2, #8 \n" // 8 processed per loop.
  816. "vswp.u8 d1, d3 \n" // swap R, B
  817. "vst3.8 {d1, d2, d3}, [%1]! \n" // store 8 pixels of RAW.
  818. "bgt 1b \n"
  819. : "+r"(src_argb), // %0
  820. "+r"(dst_raw), // %1
  821. "+r"(width) // %2
  822. :
  823. : "cc", "memory", "d1", "d2", "d3", "d4" // Clobber List
  824. );
  825. }
  826. void YUY2ToYRow_NEON(const uint8* src_yuy2, uint8* dst_y, int width) {
  827. asm volatile(
  828. "1: \n"
  829. "vld2.8 {q0, q1}, [%0]! \n" // load 16 pixels of YUY2.
  830. "subs %2, %2, #16 \n" // 16 processed per loop.
  831. "vst1.8 {q0}, [%1]! \n" // store 16 pixels of Y.
  832. "bgt 1b \n"
  833. : "+r"(src_yuy2), // %0
  834. "+r"(dst_y), // %1
  835. "+r"(width) // %2
  836. :
  837. : "cc", "memory", "q0", "q1" // Clobber List
  838. );
  839. }
  840. void UYVYToYRow_NEON(const uint8* src_uyvy, uint8* dst_y, int width) {
  841. asm volatile(
  842. "1: \n"
  843. "vld2.8 {q0, q1}, [%0]! \n" // load 16 pixels of UYVY.
  844. "subs %2, %2, #16 \n" // 16 processed per loop.
  845. "vst1.8 {q1}, [%1]! \n" // store 16 pixels of Y.
  846. "bgt 1b \n"
  847. : "+r"(src_uyvy), // %0
  848. "+r"(dst_y), // %1
  849. "+r"(width) // %2
  850. :
  851. : "cc", "memory", "q0", "q1" // Clobber List
  852. );
  853. }
  854. void YUY2ToUV422Row_NEON(const uint8* src_yuy2,
  855. uint8* dst_u,
  856. uint8* dst_v,
  857. int width) {
  858. asm volatile(
  859. "1: \n"
  860. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 16 pixels of YUY2.
  861. "subs %3, %3, #16 \n" // 16 pixels = 8 UVs.
  862. "vst1.8 {d1}, [%1]! \n" // store 8 U.
  863. "vst1.8 {d3}, [%2]! \n" // store 8 V.
  864. "bgt 1b \n"
  865. : "+r"(src_yuy2), // %0
  866. "+r"(dst_u), // %1
  867. "+r"(dst_v), // %2
  868. "+r"(width) // %3
  869. :
  870. : "cc", "memory", "d0", "d1", "d2", "d3" // Clobber List
  871. );
  872. }
  873. void UYVYToUV422Row_NEON(const uint8* src_uyvy,
  874. uint8* dst_u,
  875. uint8* dst_v,
  876. int width) {
  877. asm volatile(
  878. "1: \n"
  879. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 16 pixels of UYVY.
  880. "subs %3, %3, #16 \n" // 16 pixels = 8 UVs.
  881. "vst1.8 {d0}, [%1]! \n" // store 8 U.
  882. "vst1.8 {d2}, [%2]! \n" // store 8 V.
  883. "bgt 1b \n"
  884. : "+r"(src_uyvy), // %0
  885. "+r"(dst_u), // %1
  886. "+r"(dst_v), // %2
  887. "+r"(width) // %3
  888. :
  889. : "cc", "memory", "d0", "d1", "d2", "d3" // Clobber List
  890. );
  891. }
  892. void YUY2ToUVRow_NEON(const uint8* src_yuy2,
  893. int stride_yuy2,
  894. uint8* dst_u,
  895. uint8* dst_v,
  896. int width) {
  897. asm volatile(
  898. "add %1, %0, %1 \n" // stride + src_yuy2
  899. "1: \n"
  900. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 16 pixels of YUY2.
  901. "subs %4, %4, #16 \n" // 16 pixels = 8 UVs.
  902. "vld4.8 {d4, d5, d6, d7}, [%1]! \n" // load next row YUY2.
  903. "vrhadd.u8 d1, d1, d5 \n" // average rows of U
  904. "vrhadd.u8 d3, d3, d7 \n" // average rows of V
  905. "vst1.8 {d1}, [%2]! \n" // store 8 U.
  906. "vst1.8 {d3}, [%3]! \n" // store 8 V.
  907. "bgt 1b \n"
  908. : "+r"(src_yuy2), // %0
  909. "+r"(stride_yuy2), // %1
  910. "+r"(dst_u), // %2
  911. "+r"(dst_v), // %3
  912. "+r"(width) // %4
  913. :
  914. : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6",
  915. "d7" // Clobber List
  916. );
  917. }
  918. void UYVYToUVRow_NEON(const uint8* src_uyvy,
  919. int stride_uyvy,
  920. uint8* dst_u,
  921. uint8* dst_v,
  922. int width) {
  923. asm volatile(
  924. "add %1, %0, %1 \n" // stride + src_uyvy
  925. "1: \n"
  926. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 16 pixels of UYVY.
  927. "subs %4, %4, #16 \n" // 16 pixels = 8 UVs.
  928. "vld4.8 {d4, d5, d6, d7}, [%1]! \n" // load next row UYVY.
  929. "vrhadd.u8 d0, d0, d4 \n" // average rows of U
  930. "vrhadd.u8 d2, d2, d6 \n" // average rows of V
  931. "vst1.8 {d0}, [%2]! \n" // store 8 U.
  932. "vst1.8 {d2}, [%3]! \n" // store 8 V.
  933. "bgt 1b \n"
  934. : "+r"(src_uyvy), // %0
  935. "+r"(stride_uyvy), // %1
  936. "+r"(dst_u), // %2
  937. "+r"(dst_v), // %3
  938. "+r"(width) // %4
  939. :
  940. : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6",
  941. "d7" // Clobber List
  942. );
  943. }
  944. // For BGRAToARGB, ABGRToARGB, RGBAToARGB, and ARGBToRGBA.
  945. void ARGBShuffleRow_NEON(const uint8* src_argb,
  946. uint8* dst_argb,
  947. const uint8* shuffler,
  948. int width) {
  949. asm volatile(
  950. "vld1.8 {q2}, [%3] \n" // shuffler
  951. "1: \n"
  952. "vld1.8 {q0}, [%0]! \n" // load 4 pixels.
  953. "subs %2, %2, #4 \n" // 4 processed per loop
  954. "vtbl.8 d2, {d0, d1}, d4 \n" // look up 2 first pixels
  955. "vtbl.8 d3, {d0, d1}, d5 \n" // look up 2 next pixels
  956. "vst1.8 {q1}, [%1]! \n" // store 4.
  957. "bgt 1b \n"
  958. : "+r"(src_argb), // %0
  959. "+r"(dst_argb), // %1
  960. "+r"(width) // %2
  961. : "r"(shuffler) // %3
  962. : "cc", "memory", "q0", "q1", "q2" // Clobber List
  963. );
  964. }
  965. void I422ToYUY2Row_NEON(const uint8* src_y,
  966. const uint8* src_u,
  967. const uint8* src_v,
  968. uint8* dst_yuy2,
  969. int width) {
  970. asm volatile(
  971. "1: \n"
  972. "vld2.8 {d0, d2}, [%0]! \n" // load 16 Ys
  973. "vld1.8 {d1}, [%1]! \n" // load 8 Us
  974. "vld1.8 {d3}, [%2]! \n" // load 8 Vs
  975. "subs %4, %4, #16 \n" // 16 pixels
  976. "vst4.8 {d0, d1, d2, d3}, [%3]! \n" // Store 8 YUY2/16 pixels.
  977. "bgt 1b \n"
  978. : "+r"(src_y), // %0
  979. "+r"(src_u), // %1
  980. "+r"(src_v), // %2
  981. "+r"(dst_yuy2), // %3
  982. "+r"(width) // %4
  983. :
  984. : "cc", "memory", "d0", "d1", "d2", "d3");
  985. }
  986. void I422ToUYVYRow_NEON(const uint8* src_y,
  987. const uint8* src_u,
  988. const uint8* src_v,
  989. uint8* dst_uyvy,
  990. int width) {
  991. asm volatile(
  992. "1: \n"
  993. "vld2.8 {d1, d3}, [%0]! \n" // load 16 Ys
  994. "vld1.8 {d0}, [%1]! \n" // load 8 Us
  995. "vld1.8 {d2}, [%2]! \n" // load 8 Vs
  996. "subs %4, %4, #16 \n" // 16 pixels
  997. "vst4.8 {d0, d1, d2, d3}, [%3]! \n" // Store 8 UYVY/16 pixels.
  998. "bgt 1b \n"
  999. : "+r"(src_y), // %0
  1000. "+r"(src_u), // %1
  1001. "+r"(src_v), // %2
  1002. "+r"(dst_uyvy), // %3
  1003. "+r"(width) // %4
  1004. :
  1005. : "cc", "memory", "d0", "d1", "d2", "d3");
  1006. }
  1007. void ARGBToRGB565Row_NEON(const uint8* src_argb, uint8* dst_rgb565, int width) {
  1008. asm volatile(
  1009. "1: \n"
  1010. "vld4.8 {d20, d21, d22, d23}, [%0]! \n" // load 8 pixels of ARGB.
  1011. "subs %2, %2, #8 \n" // 8 processed per loop.
  1012. ARGBTORGB565
  1013. "vst1.8 {q0}, [%1]! \n" // store 8 pixels RGB565.
  1014. "bgt 1b \n"
  1015. : "+r"(src_argb), // %0
  1016. "+r"(dst_rgb565), // %1
  1017. "+r"(width) // %2
  1018. :
  1019. : "cc", "memory", "q0", "q8", "q9", "q10", "q11");
  1020. }
  1021. void ARGBToRGB565DitherRow_NEON(const uint8* src_argb,
  1022. uint8* dst_rgb,
  1023. const uint32 dither4,
  1024. int width) {
  1025. asm volatile(
  1026. "vdup.32 d2, %2 \n" // dither4
  1027. "1: \n"
  1028. "vld4.8 {d20, d21, d22, d23}, [%1]! \n" // load 8 pixels of ARGB.
  1029. "subs %3, %3, #8 \n" // 8 processed per loop.
  1030. "vqadd.u8 d20, d20, d2 \n"
  1031. "vqadd.u8 d21, d21, d2 \n"
  1032. "vqadd.u8 d22, d22, d2 \n" // add for dither
  1033. ARGBTORGB565
  1034. "vst1.8 {q0}, [%0]! \n" // store 8 RGB565.
  1035. "bgt 1b \n"
  1036. : "+r"(dst_rgb) // %0
  1037. : "r"(src_argb), // %1
  1038. "r"(dither4), // %2
  1039. "r"(width) // %3
  1040. : "cc", "memory", "q0", "q1", "q8", "q9", "q10", "q11");
  1041. }
  1042. void ARGBToARGB1555Row_NEON(const uint8* src_argb,
  1043. uint8* dst_argb1555,
  1044. int width) {
  1045. asm volatile(
  1046. "1: \n"
  1047. "vld4.8 {d20, d21, d22, d23}, [%0]! \n" // load 8 pixels of ARGB.
  1048. "subs %2, %2, #8 \n" // 8 processed per loop.
  1049. ARGBTOARGB1555
  1050. "vst1.8 {q0}, [%1]! \n" // store 8 ARGB1555.
  1051. "bgt 1b \n"
  1052. : "+r"(src_argb), // %0
  1053. "+r"(dst_argb1555), // %1
  1054. "+r"(width) // %2
  1055. :
  1056. : "cc", "memory", "q0", "q8", "q9", "q10", "q11");
  1057. }
  1058. void ARGBToARGB4444Row_NEON(const uint8* src_argb,
  1059. uint8* dst_argb4444,
  1060. int width) {
  1061. asm volatile(
  1062. "vmov.u8 d4, #0x0f \n" // bits to clear with
  1063. // vbic.
  1064. "1: \n"
  1065. "vld4.8 {d20, d21, d22, d23}, [%0]! \n" // load 8 pixels of ARGB.
  1066. "subs %2, %2, #8 \n" // 8 processed per loop.
  1067. ARGBTOARGB4444
  1068. "vst1.8 {q0}, [%1]! \n" // store 8 ARGB4444.
  1069. "bgt 1b \n"
  1070. : "+r"(src_argb), // %0
  1071. "+r"(dst_argb4444), // %1
  1072. "+r"(width) // %2
  1073. :
  1074. : "cc", "memory", "q0", "q8", "q9", "q10", "q11");
  1075. }
  1076. void ARGBToYRow_NEON(const uint8* src_argb, uint8* dst_y, int width) {
  1077. asm volatile(
  1078. "vmov.u8 d24, #13 \n" // B * 0.1016 coefficient
  1079. "vmov.u8 d25, #65 \n" // G * 0.5078 coefficient
  1080. "vmov.u8 d26, #33 \n" // R * 0.2578 coefficient
  1081. "vmov.u8 d27, #16 \n" // Add 16 constant
  1082. "1: \n"
  1083. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 ARGB pixels.
  1084. "subs %2, %2, #8 \n" // 8 processed per loop.
  1085. "vmull.u8 q2, d0, d24 \n" // B
  1086. "vmlal.u8 q2, d1, d25 \n" // G
  1087. "vmlal.u8 q2, d2, d26 \n" // R
  1088. "vqrshrun.s16 d0, q2, #7 \n" // 16 bit to 8 bit Y
  1089. "vqadd.u8 d0, d27 \n"
  1090. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1091. "bgt 1b \n"
  1092. : "+r"(src_argb), // %0
  1093. "+r"(dst_y), // %1
  1094. "+r"(width) // %2
  1095. :
  1096. : "cc", "memory", "q0", "q1", "q2", "q12", "q13");
  1097. }
  1098. void ARGBExtractAlphaRow_NEON(const uint8* src_argb, uint8* dst_a, int width) {
  1099. asm volatile(
  1100. "1: \n"
  1101. "vld4.8 {d0, d2, d4, d6}, [%0]! \n" // load 8 ARGB pixels
  1102. "vld4.8 {d1, d3, d5, d7}, [%0]! \n" // load next 8 ARGB pixels
  1103. "subs %2, %2, #16 \n" // 16 processed per loop
  1104. "vst1.8 {q3}, [%1]! \n" // store 16 A's.
  1105. "bgt 1b \n"
  1106. : "+r"(src_argb), // %0
  1107. "+r"(dst_a), // %1
  1108. "+r"(width) // %2
  1109. :
  1110. : "cc", "memory", "q0", "q1", "q2", "q3" // Clobber List
  1111. );
  1112. }
  1113. void ARGBToYJRow_NEON(const uint8* src_argb, uint8* dst_y, int width) {
  1114. asm volatile(
  1115. "vmov.u8 d24, #15 \n" // B * 0.11400 coefficient
  1116. "vmov.u8 d25, #75 \n" // G * 0.58700 coefficient
  1117. "vmov.u8 d26, #38 \n" // R * 0.29900 coefficient
  1118. "1: \n"
  1119. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 ARGB pixels.
  1120. "subs %2, %2, #8 \n" // 8 processed per loop.
  1121. "vmull.u8 q2, d0, d24 \n" // B
  1122. "vmlal.u8 q2, d1, d25 \n" // G
  1123. "vmlal.u8 q2, d2, d26 \n" // R
  1124. "vqrshrun.s16 d0, q2, #7 \n" // 15 bit to 8 bit Y
  1125. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1126. "bgt 1b \n"
  1127. : "+r"(src_argb), // %0
  1128. "+r"(dst_y), // %1
  1129. "+r"(width) // %2
  1130. :
  1131. : "cc", "memory", "q0", "q1", "q2", "q12", "q13");
  1132. }
  1133. // 8x1 pixels.
  1134. void ARGBToUV444Row_NEON(const uint8* src_argb,
  1135. uint8* dst_u,
  1136. uint8* dst_v,
  1137. int width) {
  1138. asm volatile(
  1139. "vmov.u8 d24, #112 \n" // UB / VR 0.875
  1140. // coefficient
  1141. "vmov.u8 d25, #74 \n" // UG -0.5781 coefficient
  1142. "vmov.u8 d26, #38 \n" // UR -0.2969 coefficient
  1143. "vmov.u8 d27, #18 \n" // VB -0.1406 coefficient
  1144. "vmov.u8 d28, #94 \n" // VG -0.7344 coefficient
  1145. "vmov.u16 q15, #0x8080 \n" // 128.5
  1146. "1: \n"
  1147. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 ARGB pixels.
  1148. "subs %3, %3, #8 \n" // 8 processed per loop.
  1149. "vmull.u8 q2, d0, d24 \n" // B
  1150. "vmlsl.u8 q2, d1, d25 \n" // G
  1151. "vmlsl.u8 q2, d2, d26 \n" // R
  1152. "vadd.u16 q2, q2, q15 \n" // +128 -> unsigned
  1153. "vmull.u8 q3, d2, d24 \n" // R
  1154. "vmlsl.u8 q3, d1, d28 \n" // G
  1155. "vmlsl.u8 q3, d0, d27 \n" // B
  1156. "vadd.u16 q3, q3, q15 \n" // +128 -> unsigned
  1157. "vqshrn.u16 d0, q2, #8 \n" // 16 bit to 8 bit U
  1158. "vqshrn.u16 d1, q3, #8 \n" // 16 bit to 8 bit V
  1159. "vst1.8 {d0}, [%1]! \n" // store 8 pixels U.
  1160. "vst1.8 {d1}, [%2]! \n" // store 8 pixels V.
  1161. "bgt 1b \n"
  1162. : "+r"(src_argb), // %0
  1163. "+r"(dst_u), // %1
  1164. "+r"(dst_v), // %2
  1165. "+r"(width) // %3
  1166. :
  1167. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q12", "q13", "q14",
  1168. "q15");
  1169. }
  1170. // clang-format off
  1171. // 16x2 pixels -> 8x1. width is number of argb pixels. e.g. 16.
  1172. #define RGBTOUV(QB, QG, QR) \
  1173. "vmul.s16 q8, " #QB ", q10 \n" /* B */ \
  1174. "vmls.s16 q8, " #QG ", q11 \n" /* G */ \
  1175. "vmls.s16 q8, " #QR ", q12 \n" /* R */ \
  1176. "vadd.u16 q8, q8, q15 \n" /* +128 -> unsigned */ \
  1177. "vmul.s16 q9, " #QR ", q10 \n" /* R */ \
  1178. "vmls.s16 q9, " #QG ", q14 \n" /* G */ \
  1179. "vmls.s16 q9, " #QB ", q13 \n" /* B */ \
  1180. "vadd.u16 q9, q9, q15 \n" /* +128 -> unsigned */ \
  1181. "vqshrn.u16 d0, q8, #8 \n" /* 16 bit to 8 bit U */ \
  1182. "vqshrn.u16 d1, q9, #8 \n" /* 16 bit to 8 bit V */
  1183. // clang-format on
  1184. // TODO(fbarchard): Consider vhadd vertical, then vpaddl horizontal, avoid shr.
  1185. void ARGBToUVRow_NEON(const uint8* src_argb,
  1186. int src_stride_argb,
  1187. uint8* dst_u,
  1188. uint8* dst_v,
  1189. int width) {
  1190. asm volatile (
  1191. "add %1, %0, %1 \n" // src_stride + src_argb
  1192. "vmov.s16 q10, #112 / 2 \n" // UB / VR 0.875 coefficient
  1193. "vmov.s16 q11, #74 / 2 \n" // UG -0.5781 coefficient
  1194. "vmov.s16 q12, #38 / 2 \n" // UR -0.2969 coefficient
  1195. "vmov.s16 q13, #18 / 2 \n" // VB -0.1406 coefficient
  1196. "vmov.s16 q14, #94 / 2 \n" // VG -0.7344 coefficient
  1197. "vmov.u16 q15, #0x8080 \n" // 128.5
  1198. "1: \n"
  1199. "vld4.8 {d0, d2, d4, d6}, [%0]! \n" // load 8 ARGB pixels.
  1200. "vld4.8 {d1, d3, d5, d7}, [%0]! \n" // load next 8 ARGB pixels.
  1201. "vpaddl.u8 q0, q0 \n" // B 16 bytes -> 8 shorts.
  1202. "vpaddl.u8 q1, q1 \n" // G 16 bytes -> 8 shorts.
  1203. "vpaddl.u8 q2, q2 \n" // R 16 bytes -> 8 shorts.
  1204. "vld4.8 {d8, d10, d12, d14}, [%1]! \n" // load 8 more ARGB pixels.
  1205. "vld4.8 {d9, d11, d13, d15}, [%1]! \n" // load last 8 ARGB pixels.
  1206. "vpadal.u8 q0, q4 \n" // B 16 bytes -> 8 shorts.
  1207. "vpadal.u8 q1, q5 \n" // G 16 bytes -> 8 shorts.
  1208. "vpadal.u8 q2, q6 \n" // R 16 bytes -> 8 shorts.
  1209. "vrshr.u16 q0, q0, #1 \n" // 2x average
  1210. "vrshr.u16 q1, q1, #1 \n"
  1211. "vrshr.u16 q2, q2, #1 \n"
  1212. "subs %4, %4, #16 \n" // 32 processed per loop.
  1213. RGBTOUV(q0, q1, q2)
  1214. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1215. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1216. "bgt 1b \n"
  1217. : "+r"(src_argb), // %0
  1218. "+r"(src_stride_argb), // %1
  1219. "+r"(dst_u), // %2
  1220. "+r"(dst_v), // %3
  1221. "+r"(width) // %4
  1222. :
  1223. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
  1224. "q8", "q9", "q10", "q11", "q12", "q13", "q14", "q15"
  1225. );
  1226. }
  1227. // TODO(fbarchard): Subsample match C code.
  1228. void ARGBToUVJRow_NEON(const uint8* src_argb,
  1229. int src_stride_argb,
  1230. uint8* dst_u,
  1231. uint8* dst_v,
  1232. int width) {
  1233. asm volatile (
  1234. "add %1, %0, %1 \n" // src_stride + src_argb
  1235. "vmov.s16 q10, #127 / 2 \n" // UB / VR 0.500 coefficient
  1236. "vmov.s16 q11, #84 / 2 \n" // UG -0.33126 coefficient
  1237. "vmov.s16 q12, #43 / 2 \n" // UR -0.16874 coefficient
  1238. "vmov.s16 q13, #20 / 2 \n" // VB -0.08131 coefficient
  1239. "vmov.s16 q14, #107 / 2 \n" // VG -0.41869 coefficient
  1240. "vmov.u16 q15, #0x8080 \n" // 128.5
  1241. "1: \n"
  1242. "vld4.8 {d0, d2, d4, d6}, [%0]! \n" // load 8 ARGB pixels.
  1243. "vld4.8 {d1, d3, d5, d7}, [%0]! \n" // load next 8 ARGB pixels.
  1244. "vpaddl.u8 q0, q0 \n" // B 16 bytes -> 8 shorts.
  1245. "vpaddl.u8 q1, q1 \n" // G 16 bytes -> 8 shorts.
  1246. "vpaddl.u8 q2, q2 \n" // R 16 bytes -> 8 shorts.
  1247. "vld4.8 {d8, d10, d12, d14}, [%1]! \n" // load 8 more ARGB pixels.
  1248. "vld4.8 {d9, d11, d13, d15}, [%1]! \n" // load last 8 ARGB pixels.
  1249. "vpadal.u8 q0, q4 \n" // B 16 bytes -> 8 shorts.
  1250. "vpadal.u8 q1, q5 \n" // G 16 bytes -> 8 shorts.
  1251. "vpadal.u8 q2, q6 \n" // R 16 bytes -> 8 shorts.
  1252. "vrshr.u16 q0, q0, #1 \n" // 2x average
  1253. "vrshr.u16 q1, q1, #1 \n"
  1254. "vrshr.u16 q2, q2, #1 \n"
  1255. "subs %4, %4, #16 \n" // 32 processed per loop.
  1256. RGBTOUV(q0, q1, q2)
  1257. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1258. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1259. "bgt 1b \n"
  1260. : "+r"(src_argb), // %0
  1261. "+r"(src_stride_argb), // %1
  1262. "+r"(dst_u), // %2
  1263. "+r"(dst_v), // %3
  1264. "+r"(width) // %4
  1265. :
  1266. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
  1267. "q8", "q9", "q10", "q11", "q12", "q13", "q14", "q15"
  1268. );
  1269. }
  1270. void BGRAToUVRow_NEON(const uint8* src_bgra,
  1271. int src_stride_bgra,
  1272. uint8* dst_u,
  1273. uint8* dst_v,
  1274. int width) {
  1275. asm volatile (
  1276. "add %1, %0, %1 \n" // src_stride + src_bgra
  1277. "vmov.s16 q10, #112 / 2 \n" // UB / VR 0.875 coefficient
  1278. "vmov.s16 q11, #74 / 2 \n" // UG -0.5781 coefficient
  1279. "vmov.s16 q12, #38 / 2 \n" // UR -0.2969 coefficient
  1280. "vmov.s16 q13, #18 / 2 \n" // VB -0.1406 coefficient
  1281. "vmov.s16 q14, #94 / 2 \n" // VG -0.7344 coefficient
  1282. "vmov.u16 q15, #0x8080 \n" // 128.5
  1283. "1: \n"
  1284. "vld4.8 {d0, d2, d4, d6}, [%0]! \n" // load 8 BGRA pixels.
  1285. "vld4.8 {d1, d3, d5, d7}, [%0]! \n" // load next 8 BGRA pixels.
  1286. "vpaddl.u8 q3, q3 \n" // B 16 bytes -> 8 shorts.
  1287. "vpaddl.u8 q2, q2 \n" // G 16 bytes -> 8 shorts.
  1288. "vpaddl.u8 q1, q1 \n" // R 16 bytes -> 8 shorts.
  1289. "vld4.8 {d8, d10, d12, d14}, [%1]! \n" // load 8 more BGRA pixels.
  1290. "vld4.8 {d9, d11, d13, d15}, [%1]! \n" // load last 8 BGRA pixels.
  1291. "vpadal.u8 q3, q7 \n" // B 16 bytes -> 8 shorts.
  1292. "vpadal.u8 q2, q6 \n" // G 16 bytes -> 8 shorts.
  1293. "vpadal.u8 q1, q5 \n" // R 16 bytes -> 8 shorts.
  1294. "vrshr.u16 q1, q1, #1 \n" // 2x average
  1295. "vrshr.u16 q2, q2, #1 \n"
  1296. "vrshr.u16 q3, q3, #1 \n"
  1297. "subs %4, %4, #16 \n" // 32 processed per loop.
  1298. RGBTOUV(q3, q2, q1)
  1299. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1300. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1301. "bgt 1b \n"
  1302. : "+r"(src_bgra), // %0
  1303. "+r"(src_stride_bgra), // %1
  1304. "+r"(dst_u), // %2
  1305. "+r"(dst_v), // %3
  1306. "+r"(width) // %4
  1307. :
  1308. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
  1309. "q8", "q9", "q10", "q11", "q12", "q13", "q14", "q15"
  1310. );
  1311. }
  1312. void ABGRToUVRow_NEON(const uint8* src_abgr,
  1313. int src_stride_abgr,
  1314. uint8* dst_u,
  1315. uint8* dst_v,
  1316. int width) {
  1317. asm volatile (
  1318. "add %1, %0, %1 \n" // src_stride + src_abgr
  1319. "vmov.s16 q10, #112 / 2 \n" // UB / VR 0.875 coefficient
  1320. "vmov.s16 q11, #74 / 2 \n" // UG -0.5781 coefficient
  1321. "vmov.s16 q12, #38 / 2 \n" // UR -0.2969 coefficient
  1322. "vmov.s16 q13, #18 / 2 \n" // VB -0.1406 coefficient
  1323. "vmov.s16 q14, #94 / 2 \n" // VG -0.7344 coefficient
  1324. "vmov.u16 q15, #0x8080 \n" // 128.5
  1325. "1: \n"
  1326. "vld4.8 {d0, d2, d4, d6}, [%0]! \n" // load 8 ABGR pixels.
  1327. "vld4.8 {d1, d3, d5, d7}, [%0]! \n" // load next 8 ABGR pixels.
  1328. "vpaddl.u8 q2, q2 \n" // B 16 bytes -> 8 shorts.
  1329. "vpaddl.u8 q1, q1 \n" // G 16 bytes -> 8 shorts.
  1330. "vpaddl.u8 q0, q0 \n" // R 16 bytes -> 8 shorts.
  1331. "vld4.8 {d8, d10, d12, d14}, [%1]! \n" // load 8 more ABGR pixels.
  1332. "vld4.8 {d9, d11, d13, d15}, [%1]! \n" // load last 8 ABGR pixels.
  1333. "vpadal.u8 q2, q6 \n" // B 16 bytes -> 8 shorts.
  1334. "vpadal.u8 q1, q5 \n" // G 16 bytes -> 8 shorts.
  1335. "vpadal.u8 q0, q4 \n" // R 16 bytes -> 8 shorts.
  1336. "vrshr.u16 q0, q0, #1 \n" // 2x average
  1337. "vrshr.u16 q1, q1, #1 \n"
  1338. "vrshr.u16 q2, q2, #1 \n"
  1339. "subs %4, %4, #16 \n" // 32 processed per loop.
  1340. RGBTOUV(q2, q1, q0)
  1341. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1342. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1343. "bgt 1b \n"
  1344. : "+r"(src_abgr), // %0
  1345. "+r"(src_stride_abgr), // %1
  1346. "+r"(dst_u), // %2
  1347. "+r"(dst_v), // %3
  1348. "+r"(width) // %4
  1349. :
  1350. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
  1351. "q8", "q9", "q10", "q11", "q12", "q13", "q14", "q15"
  1352. );
  1353. }
  1354. void RGBAToUVRow_NEON(const uint8* src_rgba,
  1355. int src_stride_rgba,
  1356. uint8* dst_u,
  1357. uint8* dst_v,
  1358. int width) {
  1359. asm volatile (
  1360. "add %1, %0, %1 \n" // src_stride + src_rgba
  1361. "vmov.s16 q10, #112 / 2 \n" // UB / VR 0.875 coefficient
  1362. "vmov.s16 q11, #74 / 2 \n" // UG -0.5781 coefficient
  1363. "vmov.s16 q12, #38 / 2 \n" // UR -0.2969 coefficient
  1364. "vmov.s16 q13, #18 / 2 \n" // VB -0.1406 coefficient
  1365. "vmov.s16 q14, #94 / 2 \n" // VG -0.7344 coefficient
  1366. "vmov.u16 q15, #0x8080 \n" // 128.5
  1367. "1: \n"
  1368. "vld4.8 {d0, d2, d4, d6}, [%0]! \n" // load 8 RGBA pixels.
  1369. "vld4.8 {d1, d3, d5, d7}, [%0]! \n" // load next 8 RGBA pixels.
  1370. "vpaddl.u8 q0, q1 \n" // B 16 bytes -> 8 shorts.
  1371. "vpaddl.u8 q1, q2 \n" // G 16 bytes -> 8 shorts.
  1372. "vpaddl.u8 q2, q3 \n" // R 16 bytes -> 8 shorts.
  1373. "vld4.8 {d8, d10, d12, d14}, [%1]! \n" // load 8 more RGBA pixels.
  1374. "vld4.8 {d9, d11, d13, d15}, [%1]! \n" // load last 8 RGBA pixels.
  1375. "vpadal.u8 q0, q5 \n" // B 16 bytes -> 8 shorts.
  1376. "vpadal.u8 q1, q6 \n" // G 16 bytes -> 8 shorts.
  1377. "vpadal.u8 q2, q7 \n" // R 16 bytes -> 8 shorts.
  1378. "vrshr.u16 q0, q0, #1 \n" // 2x average
  1379. "vrshr.u16 q1, q1, #1 \n"
  1380. "vrshr.u16 q2, q2, #1 \n"
  1381. "subs %4, %4, #16 \n" // 32 processed per loop.
  1382. RGBTOUV(q0, q1, q2)
  1383. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1384. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1385. "bgt 1b \n"
  1386. : "+r"(src_rgba), // %0
  1387. "+r"(src_stride_rgba), // %1
  1388. "+r"(dst_u), // %2
  1389. "+r"(dst_v), // %3
  1390. "+r"(width) // %4
  1391. :
  1392. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
  1393. "q8", "q9", "q10", "q11", "q12", "q13", "q14", "q15"
  1394. );
  1395. }
  1396. void RGB24ToUVRow_NEON(const uint8* src_rgb24,
  1397. int src_stride_rgb24,
  1398. uint8* dst_u,
  1399. uint8* dst_v,
  1400. int width) {
  1401. asm volatile (
  1402. "add %1, %0, %1 \n" // src_stride + src_rgb24
  1403. "vmov.s16 q10, #112 / 2 \n" // UB / VR 0.875 coefficient
  1404. "vmov.s16 q11, #74 / 2 \n" // UG -0.5781 coefficient
  1405. "vmov.s16 q12, #38 / 2 \n" // UR -0.2969 coefficient
  1406. "vmov.s16 q13, #18 / 2 \n" // VB -0.1406 coefficient
  1407. "vmov.s16 q14, #94 / 2 \n" // VG -0.7344 coefficient
  1408. "vmov.u16 q15, #0x8080 \n" // 128.5
  1409. "1: \n"
  1410. "vld3.8 {d0, d2, d4}, [%0]! \n" // load 8 RGB24 pixels.
  1411. "vld3.8 {d1, d3, d5}, [%0]! \n" // load next 8 RGB24 pixels.
  1412. "vpaddl.u8 q0, q0 \n" // B 16 bytes -> 8 shorts.
  1413. "vpaddl.u8 q1, q1 \n" // G 16 bytes -> 8 shorts.
  1414. "vpaddl.u8 q2, q2 \n" // R 16 bytes -> 8 shorts.
  1415. "vld3.8 {d8, d10, d12}, [%1]! \n" // load 8 more RGB24 pixels.
  1416. "vld3.8 {d9, d11, d13}, [%1]! \n" // load last 8 RGB24 pixels.
  1417. "vpadal.u8 q0, q4 \n" // B 16 bytes -> 8 shorts.
  1418. "vpadal.u8 q1, q5 \n" // G 16 bytes -> 8 shorts.
  1419. "vpadal.u8 q2, q6 \n" // R 16 bytes -> 8 shorts.
  1420. "vrshr.u16 q0, q0, #1 \n" // 2x average
  1421. "vrshr.u16 q1, q1, #1 \n"
  1422. "vrshr.u16 q2, q2, #1 \n"
  1423. "subs %4, %4, #16 \n" // 32 processed per loop.
  1424. RGBTOUV(q0, q1, q2)
  1425. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1426. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1427. "bgt 1b \n"
  1428. : "+r"(src_rgb24), // %0
  1429. "+r"(src_stride_rgb24), // %1
  1430. "+r"(dst_u), // %2
  1431. "+r"(dst_v), // %3
  1432. "+r"(width) // %4
  1433. :
  1434. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
  1435. "q8", "q9", "q10", "q11", "q12", "q13", "q14", "q15"
  1436. );
  1437. }
  1438. void RAWToUVRow_NEON(const uint8* src_raw,
  1439. int src_stride_raw,
  1440. uint8* dst_u,
  1441. uint8* dst_v,
  1442. int width) {
  1443. asm volatile (
  1444. "add %1, %0, %1 \n" // src_stride + src_raw
  1445. "vmov.s16 q10, #112 / 2 \n" // UB / VR 0.875 coefficient
  1446. "vmov.s16 q11, #74 / 2 \n" // UG -0.5781 coefficient
  1447. "vmov.s16 q12, #38 / 2 \n" // UR -0.2969 coefficient
  1448. "vmov.s16 q13, #18 / 2 \n" // VB -0.1406 coefficient
  1449. "vmov.s16 q14, #94 / 2 \n" // VG -0.7344 coefficient
  1450. "vmov.u16 q15, #0x8080 \n" // 128.5
  1451. "1: \n"
  1452. "vld3.8 {d0, d2, d4}, [%0]! \n" // load 8 RAW pixels.
  1453. "vld3.8 {d1, d3, d5}, [%0]! \n" // load next 8 RAW pixels.
  1454. "vpaddl.u8 q2, q2 \n" // B 16 bytes -> 8 shorts.
  1455. "vpaddl.u8 q1, q1 \n" // G 16 bytes -> 8 shorts.
  1456. "vpaddl.u8 q0, q0 \n" // R 16 bytes -> 8 shorts.
  1457. "vld3.8 {d8, d10, d12}, [%1]! \n" // load 8 more RAW pixels.
  1458. "vld3.8 {d9, d11, d13}, [%1]! \n" // load last 8 RAW pixels.
  1459. "vpadal.u8 q2, q6 \n" // B 16 bytes -> 8 shorts.
  1460. "vpadal.u8 q1, q5 \n" // G 16 bytes -> 8 shorts.
  1461. "vpadal.u8 q0, q4 \n" // R 16 bytes -> 8 shorts.
  1462. "vrshr.u16 q0, q0, #1 \n" // 2x average
  1463. "vrshr.u16 q1, q1, #1 \n"
  1464. "vrshr.u16 q2, q2, #1 \n"
  1465. "subs %4, %4, #16 \n" // 32 processed per loop.
  1466. RGBTOUV(q2, q1, q0)
  1467. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1468. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1469. "bgt 1b \n"
  1470. : "+r"(src_raw), // %0
  1471. "+r"(src_stride_raw), // %1
  1472. "+r"(dst_u), // %2
  1473. "+r"(dst_v), // %3
  1474. "+r"(width) // %4
  1475. :
  1476. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7",
  1477. "q8", "q9", "q10", "q11", "q12", "q13", "q14", "q15"
  1478. );
  1479. }
  1480. // 16x2 pixels -> 8x1. width is number of argb pixels. e.g. 16.
  1481. void RGB565ToUVRow_NEON(const uint8* src_rgb565,
  1482. int src_stride_rgb565,
  1483. uint8* dst_u,
  1484. uint8* dst_v,
  1485. int width) {
  1486. asm volatile(
  1487. "add %1, %0, %1 \n" // src_stride + src_argb
  1488. "vmov.s16 q10, #112 / 2 \n" // UB / VR 0.875
  1489. // coefficient
  1490. "vmov.s16 q11, #74 / 2 \n" // UG -0.5781 coefficient
  1491. "vmov.s16 q12, #38 / 2 \n" // UR -0.2969 coefficient
  1492. "vmov.s16 q13, #18 / 2 \n" // VB -0.1406 coefficient
  1493. "vmov.s16 q14, #94 / 2 \n" // VG -0.7344 coefficient
  1494. "vmov.u16 q15, #0x8080 \n" // 128.5
  1495. "1: \n"
  1496. "vld1.8 {q0}, [%0]! \n" // load 8 RGB565 pixels.
  1497. RGB565TOARGB
  1498. "vpaddl.u8 d8, d0 \n" // B 8 bytes -> 4 shorts.
  1499. "vpaddl.u8 d10, d1 \n" // G 8 bytes -> 4 shorts.
  1500. "vpaddl.u8 d12, d2 \n" // R 8 bytes -> 4 shorts.
  1501. "vld1.8 {q0}, [%0]! \n" // next 8 RGB565 pixels.
  1502. RGB565TOARGB
  1503. "vpaddl.u8 d9, d0 \n" // B 8 bytes -> 4 shorts.
  1504. "vpaddl.u8 d11, d1 \n" // G 8 bytes -> 4 shorts.
  1505. "vpaddl.u8 d13, d2 \n" // R 8 bytes -> 4 shorts.
  1506. "vld1.8 {q0}, [%1]! \n" // load 8 RGB565 pixels.
  1507. RGB565TOARGB
  1508. "vpadal.u8 d8, d0 \n" // B 8 bytes -> 4 shorts.
  1509. "vpadal.u8 d10, d1 \n" // G 8 bytes -> 4 shorts.
  1510. "vpadal.u8 d12, d2 \n" // R 8 bytes -> 4 shorts.
  1511. "vld1.8 {q0}, [%1]! \n" // next 8 RGB565 pixels.
  1512. RGB565TOARGB
  1513. "vpadal.u8 d9, d0 \n" // B 8 bytes -> 4 shorts.
  1514. "vpadal.u8 d11, d1 \n" // G 8 bytes -> 4 shorts.
  1515. "vpadal.u8 d13, d2 \n" // R 8 bytes -> 4 shorts.
  1516. "vrshr.u16 q4, q4, #1 \n" // 2x average
  1517. "vrshr.u16 q5, q5, #1 \n"
  1518. "vrshr.u16 q6, q6, #1 \n"
  1519. "subs %4, %4, #16 \n" // 16 processed per loop.
  1520. "vmul.s16 q8, q4, q10 \n" // B
  1521. "vmls.s16 q8, q5, q11 \n" // G
  1522. "vmls.s16 q8, q6, q12 \n" // R
  1523. "vadd.u16 q8, q8, q15 \n" // +128 -> unsigned
  1524. "vmul.s16 q9, q6, q10 \n" // R
  1525. "vmls.s16 q9, q5, q14 \n" // G
  1526. "vmls.s16 q9, q4, q13 \n" // B
  1527. "vadd.u16 q9, q9, q15 \n" // +128 -> unsigned
  1528. "vqshrn.u16 d0, q8, #8 \n" // 16 bit to 8 bit U
  1529. "vqshrn.u16 d1, q9, #8 \n" // 16 bit to 8 bit V
  1530. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1531. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1532. "bgt 1b \n"
  1533. : "+r"(src_rgb565), // %0
  1534. "+r"(src_stride_rgb565), // %1
  1535. "+r"(dst_u), // %2
  1536. "+r"(dst_v), // %3
  1537. "+r"(width) // %4
  1538. :
  1539. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8",
  1540. "q9", "q10", "q11", "q12", "q13", "q14", "q15");
  1541. }
  1542. // 16x2 pixels -> 8x1. width is number of argb pixels. e.g. 16.
  1543. void ARGB1555ToUVRow_NEON(const uint8* src_argb1555,
  1544. int src_stride_argb1555,
  1545. uint8* dst_u,
  1546. uint8* dst_v,
  1547. int width) {
  1548. asm volatile(
  1549. "add %1, %0, %1 \n" // src_stride + src_argb
  1550. "vmov.s16 q10, #112 / 2 \n" // UB / VR 0.875
  1551. // coefficient
  1552. "vmov.s16 q11, #74 / 2 \n" // UG -0.5781 coefficient
  1553. "vmov.s16 q12, #38 / 2 \n" // UR -0.2969 coefficient
  1554. "vmov.s16 q13, #18 / 2 \n" // VB -0.1406 coefficient
  1555. "vmov.s16 q14, #94 / 2 \n" // VG -0.7344 coefficient
  1556. "vmov.u16 q15, #0x8080 \n" // 128.5
  1557. "1: \n"
  1558. "vld1.8 {q0}, [%0]! \n" // load 8 ARGB1555 pixels.
  1559. RGB555TOARGB
  1560. "vpaddl.u8 d8, d0 \n" // B 8 bytes -> 4 shorts.
  1561. "vpaddl.u8 d10, d1 \n" // G 8 bytes -> 4 shorts.
  1562. "vpaddl.u8 d12, d2 \n" // R 8 bytes -> 4 shorts.
  1563. "vld1.8 {q0}, [%0]! \n" // next 8 ARGB1555 pixels.
  1564. RGB555TOARGB
  1565. "vpaddl.u8 d9, d0 \n" // B 8 bytes -> 4 shorts.
  1566. "vpaddl.u8 d11, d1 \n" // G 8 bytes -> 4 shorts.
  1567. "vpaddl.u8 d13, d2 \n" // R 8 bytes -> 4 shorts.
  1568. "vld1.8 {q0}, [%1]! \n" // load 8 ARGB1555 pixels.
  1569. RGB555TOARGB
  1570. "vpadal.u8 d8, d0 \n" // B 8 bytes -> 4 shorts.
  1571. "vpadal.u8 d10, d1 \n" // G 8 bytes -> 4 shorts.
  1572. "vpadal.u8 d12, d2 \n" // R 8 bytes -> 4 shorts.
  1573. "vld1.8 {q0}, [%1]! \n" // next 8 ARGB1555 pixels.
  1574. RGB555TOARGB
  1575. "vpadal.u8 d9, d0 \n" // B 8 bytes -> 4 shorts.
  1576. "vpadal.u8 d11, d1 \n" // G 8 bytes -> 4 shorts.
  1577. "vpadal.u8 d13, d2 \n" // R 8 bytes -> 4 shorts.
  1578. "vrshr.u16 q4, q4, #1 \n" // 2x average
  1579. "vrshr.u16 q5, q5, #1 \n"
  1580. "vrshr.u16 q6, q6, #1 \n"
  1581. "subs %4, %4, #16 \n" // 16 processed per loop.
  1582. "vmul.s16 q8, q4, q10 \n" // B
  1583. "vmls.s16 q8, q5, q11 \n" // G
  1584. "vmls.s16 q8, q6, q12 \n" // R
  1585. "vadd.u16 q8, q8, q15 \n" // +128 -> unsigned
  1586. "vmul.s16 q9, q6, q10 \n" // R
  1587. "vmls.s16 q9, q5, q14 \n" // G
  1588. "vmls.s16 q9, q4, q13 \n" // B
  1589. "vadd.u16 q9, q9, q15 \n" // +128 -> unsigned
  1590. "vqshrn.u16 d0, q8, #8 \n" // 16 bit to 8 bit U
  1591. "vqshrn.u16 d1, q9, #8 \n" // 16 bit to 8 bit V
  1592. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1593. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1594. "bgt 1b \n"
  1595. : "+r"(src_argb1555), // %0
  1596. "+r"(src_stride_argb1555), // %1
  1597. "+r"(dst_u), // %2
  1598. "+r"(dst_v), // %3
  1599. "+r"(width) // %4
  1600. :
  1601. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8",
  1602. "q9", "q10", "q11", "q12", "q13", "q14", "q15");
  1603. }
  1604. // 16x2 pixels -> 8x1. width is number of argb pixels. e.g. 16.
  1605. void ARGB4444ToUVRow_NEON(const uint8* src_argb4444,
  1606. int src_stride_argb4444,
  1607. uint8* dst_u,
  1608. uint8* dst_v,
  1609. int width) {
  1610. asm volatile(
  1611. "add %1, %0, %1 \n" // src_stride + src_argb
  1612. "vmov.s16 q10, #112 / 2 \n" // UB / VR 0.875
  1613. // coefficient
  1614. "vmov.s16 q11, #74 / 2 \n" // UG -0.5781 coefficient
  1615. "vmov.s16 q12, #38 / 2 \n" // UR -0.2969 coefficient
  1616. "vmov.s16 q13, #18 / 2 \n" // VB -0.1406 coefficient
  1617. "vmov.s16 q14, #94 / 2 \n" // VG -0.7344 coefficient
  1618. "vmov.u16 q15, #0x8080 \n" // 128.5
  1619. "1: \n"
  1620. "vld1.8 {q0}, [%0]! \n" // load 8 ARGB4444 pixels.
  1621. ARGB4444TOARGB
  1622. "vpaddl.u8 d8, d0 \n" // B 8 bytes -> 4 shorts.
  1623. "vpaddl.u8 d10, d1 \n" // G 8 bytes -> 4 shorts.
  1624. "vpaddl.u8 d12, d2 \n" // R 8 bytes -> 4 shorts.
  1625. "vld1.8 {q0}, [%0]! \n" // next 8 ARGB4444 pixels.
  1626. ARGB4444TOARGB
  1627. "vpaddl.u8 d9, d0 \n" // B 8 bytes -> 4 shorts.
  1628. "vpaddl.u8 d11, d1 \n" // G 8 bytes -> 4 shorts.
  1629. "vpaddl.u8 d13, d2 \n" // R 8 bytes -> 4 shorts.
  1630. "vld1.8 {q0}, [%1]! \n" // load 8 ARGB4444 pixels.
  1631. ARGB4444TOARGB
  1632. "vpadal.u8 d8, d0 \n" // B 8 bytes -> 4 shorts.
  1633. "vpadal.u8 d10, d1 \n" // G 8 bytes -> 4 shorts.
  1634. "vpadal.u8 d12, d2 \n" // R 8 bytes -> 4 shorts.
  1635. "vld1.8 {q0}, [%1]! \n" // next 8 ARGB4444 pixels.
  1636. ARGB4444TOARGB
  1637. "vpadal.u8 d9, d0 \n" // B 8 bytes -> 4 shorts.
  1638. "vpadal.u8 d11, d1 \n" // G 8 bytes -> 4 shorts.
  1639. "vpadal.u8 d13, d2 \n" // R 8 bytes -> 4 shorts.
  1640. "vrshr.u16 q4, q4, #1 \n" // 2x average
  1641. "vrshr.u16 q5, q5, #1 \n"
  1642. "vrshr.u16 q6, q6, #1 \n"
  1643. "subs %4, %4, #16 \n" // 16 processed per loop.
  1644. "vmul.s16 q8, q4, q10 \n" // B
  1645. "vmls.s16 q8, q5, q11 \n" // G
  1646. "vmls.s16 q8, q6, q12 \n" // R
  1647. "vadd.u16 q8, q8, q15 \n" // +128 -> unsigned
  1648. "vmul.s16 q9, q6, q10 \n" // R
  1649. "vmls.s16 q9, q5, q14 \n" // G
  1650. "vmls.s16 q9, q4, q13 \n" // B
  1651. "vadd.u16 q9, q9, q15 \n" // +128 -> unsigned
  1652. "vqshrn.u16 d0, q8, #8 \n" // 16 bit to 8 bit U
  1653. "vqshrn.u16 d1, q9, #8 \n" // 16 bit to 8 bit V
  1654. "vst1.8 {d0}, [%2]! \n" // store 8 pixels U.
  1655. "vst1.8 {d1}, [%3]! \n" // store 8 pixels V.
  1656. "bgt 1b \n"
  1657. : "+r"(src_argb4444), // %0
  1658. "+r"(src_stride_argb4444), // %1
  1659. "+r"(dst_u), // %2
  1660. "+r"(dst_v), // %3
  1661. "+r"(width) // %4
  1662. :
  1663. : "cc", "memory", "q0", "q1", "q2", "q3", "q4", "q5", "q6", "q7", "q8",
  1664. "q9", "q10", "q11", "q12", "q13", "q14", "q15");
  1665. }
  1666. void RGB565ToYRow_NEON(const uint8* src_rgb565, uint8* dst_y, int width) {
  1667. asm volatile(
  1668. "vmov.u8 d24, #13 \n" // B * 0.1016 coefficient
  1669. "vmov.u8 d25, #65 \n" // G * 0.5078 coefficient
  1670. "vmov.u8 d26, #33 \n" // R * 0.2578 coefficient
  1671. "vmov.u8 d27, #16 \n" // Add 16 constant
  1672. "1: \n"
  1673. "vld1.8 {q0}, [%0]! \n" // load 8 RGB565 pixels.
  1674. "subs %2, %2, #8 \n" // 8 processed per loop.
  1675. RGB565TOARGB
  1676. "vmull.u8 q2, d0, d24 \n" // B
  1677. "vmlal.u8 q2, d1, d25 \n" // G
  1678. "vmlal.u8 q2, d2, d26 \n" // R
  1679. "vqrshrun.s16 d0, q2, #7 \n" // 16 bit to 8 bit Y
  1680. "vqadd.u8 d0, d27 \n"
  1681. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1682. "bgt 1b \n"
  1683. : "+r"(src_rgb565), // %0
  1684. "+r"(dst_y), // %1
  1685. "+r"(width) // %2
  1686. :
  1687. : "cc", "memory", "q0", "q1", "q2", "q3", "q12", "q13");
  1688. }
  1689. void ARGB1555ToYRow_NEON(const uint8* src_argb1555, uint8* dst_y, int width) {
  1690. asm volatile(
  1691. "vmov.u8 d24, #13 \n" // B * 0.1016 coefficient
  1692. "vmov.u8 d25, #65 \n" // G * 0.5078 coefficient
  1693. "vmov.u8 d26, #33 \n" // R * 0.2578 coefficient
  1694. "vmov.u8 d27, #16 \n" // Add 16 constant
  1695. "1: \n"
  1696. "vld1.8 {q0}, [%0]! \n" // load 8 ARGB1555 pixels.
  1697. "subs %2, %2, #8 \n" // 8 processed per loop.
  1698. ARGB1555TOARGB
  1699. "vmull.u8 q2, d0, d24 \n" // B
  1700. "vmlal.u8 q2, d1, d25 \n" // G
  1701. "vmlal.u8 q2, d2, d26 \n" // R
  1702. "vqrshrun.s16 d0, q2, #7 \n" // 16 bit to 8 bit Y
  1703. "vqadd.u8 d0, d27 \n"
  1704. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1705. "bgt 1b \n"
  1706. : "+r"(src_argb1555), // %0
  1707. "+r"(dst_y), // %1
  1708. "+r"(width) // %2
  1709. :
  1710. : "cc", "memory", "q0", "q1", "q2", "q3", "q12", "q13");
  1711. }
  1712. void ARGB4444ToYRow_NEON(const uint8* src_argb4444, uint8* dst_y, int width) {
  1713. asm volatile(
  1714. "vmov.u8 d24, #13 \n" // B * 0.1016 coefficient
  1715. "vmov.u8 d25, #65 \n" // G * 0.5078 coefficient
  1716. "vmov.u8 d26, #33 \n" // R * 0.2578 coefficient
  1717. "vmov.u8 d27, #16 \n" // Add 16 constant
  1718. "1: \n"
  1719. "vld1.8 {q0}, [%0]! \n" // load 8 ARGB4444 pixels.
  1720. "subs %2, %2, #8 \n" // 8 processed per loop.
  1721. ARGB4444TOARGB
  1722. "vmull.u8 q2, d0, d24 \n" // B
  1723. "vmlal.u8 q2, d1, d25 \n" // G
  1724. "vmlal.u8 q2, d2, d26 \n" // R
  1725. "vqrshrun.s16 d0, q2, #7 \n" // 16 bit to 8 bit Y
  1726. "vqadd.u8 d0, d27 \n"
  1727. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1728. "bgt 1b \n"
  1729. : "+r"(src_argb4444), // %0
  1730. "+r"(dst_y), // %1
  1731. "+r"(width) // %2
  1732. :
  1733. : "cc", "memory", "q0", "q1", "q2", "q3", "q12", "q13");
  1734. }
  1735. void BGRAToYRow_NEON(const uint8* src_bgra, uint8* dst_y, int width) {
  1736. asm volatile(
  1737. "vmov.u8 d4, #33 \n" // R * 0.2578 coefficient
  1738. "vmov.u8 d5, #65 \n" // G * 0.5078 coefficient
  1739. "vmov.u8 d6, #13 \n" // B * 0.1016 coefficient
  1740. "vmov.u8 d7, #16 \n" // Add 16 constant
  1741. "1: \n"
  1742. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 pixels of BGRA.
  1743. "subs %2, %2, #8 \n" // 8 processed per loop.
  1744. "vmull.u8 q8, d1, d4 \n" // R
  1745. "vmlal.u8 q8, d2, d5 \n" // G
  1746. "vmlal.u8 q8, d3, d6 \n" // B
  1747. "vqrshrun.s16 d0, q8, #7 \n" // 16 bit to 8 bit Y
  1748. "vqadd.u8 d0, d7 \n"
  1749. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1750. "bgt 1b \n"
  1751. : "+r"(src_bgra), // %0
  1752. "+r"(dst_y), // %1
  1753. "+r"(width) // %2
  1754. :
  1755. : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7", "q8");
  1756. }
  1757. void ABGRToYRow_NEON(const uint8* src_abgr, uint8* dst_y, int width) {
  1758. asm volatile(
  1759. "vmov.u8 d4, #33 \n" // R * 0.2578 coefficient
  1760. "vmov.u8 d5, #65 \n" // G * 0.5078 coefficient
  1761. "vmov.u8 d6, #13 \n" // B * 0.1016 coefficient
  1762. "vmov.u8 d7, #16 \n" // Add 16 constant
  1763. "1: \n"
  1764. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 pixels of ABGR.
  1765. "subs %2, %2, #8 \n" // 8 processed per loop.
  1766. "vmull.u8 q8, d0, d4 \n" // R
  1767. "vmlal.u8 q8, d1, d5 \n" // G
  1768. "vmlal.u8 q8, d2, d6 \n" // B
  1769. "vqrshrun.s16 d0, q8, #7 \n" // 16 bit to 8 bit Y
  1770. "vqadd.u8 d0, d7 \n"
  1771. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1772. "bgt 1b \n"
  1773. : "+r"(src_abgr), // %0
  1774. "+r"(dst_y), // %1
  1775. "+r"(width) // %2
  1776. :
  1777. : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7", "q8");
  1778. }
  1779. void RGBAToYRow_NEON(const uint8* src_rgba, uint8* dst_y, int width) {
  1780. asm volatile(
  1781. "vmov.u8 d4, #13 \n" // B * 0.1016 coefficient
  1782. "vmov.u8 d5, #65 \n" // G * 0.5078 coefficient
  1783. "vmov.u8 d6, #33 \n" // R * 0.2578 coefficient
  1784. "vmov.u8 d7, #16 \n" // Add 16 constant
  1785. "1: \n"
  1786. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 pixels of RGBA.
  1787. "subs %2, %2, #8 \n" // 8 processed per loop.
  1788. "vmull.u8 q8, d1, d4 \n" // B
  1789. "vmlal.u8 q8, d2, d5 \n" // G
  1790. "vmlal.u8 q8, d3, d6 \n" // R
  1791. "vqrshrun.s16 d0, q8, #7 \n" // 16 bit to 8 bit Y
  1792. "vqadd.u8 d0, d7 \n"
  1793. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1794. "bgt 1b \n"
  1795. : "+r"(src_rgba), // %0
  1796. "+r"(dst_y), // %1
  1797. "+r"(width) // %2
  1798. :
  1799. : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7", "q8");
  1800. }
  1801. void RGB24ToYRow_NEON(const uint8* src_rgb24, uint8* dst_y, int width) {
  1802. asm volatile(
  1803. "vmov.u8 d4, #13 \n" // B * 0.1016 coefficient
  1804. "vmov.u8 d5, #65 \n" // G * 0.5078 coefficient
  1805. "vmov.u8 d6, #33 \n" // R * 0.2578 coefficient
  1806. "vmov.u8 d7, #16 \n" // Add 16 constant
  1807. "1: \n"
  1808. "vld3.8 {d0, d1, d2}, [%0]! \n" // load 8 pixels of RGB24.
  1809. "subs %2, %2, #8 \n" // 8 processed per loop.
  1810. "vmull.u8 q8, d0, d4 \n" // B
  1811. "vmlal.u8 q8, d1, d5 \n" // G
  1812. "vmlal.u8 q8, d2, d6 \n" // R
  1813. "vqrshrun.s16 d0, q8, #7 \n" // 16 bit to 8 bit Y
  1814. "vqadd.u8 d0, d7 \n"
  1815. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1816. "bgt 1b \n"
  1817. : "+r"(src_rgb24), // %0
  1818. "+r"(dst_y), // %1
  1819. "+r"(width) // %2
  1820. :
  1821. : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7", "q8");
  1822. }
  1823. void RAWToYRow_NEON(const uint8* src_raw, uint8* dst_y, int width) {
  1824. asm volatile(
  1825. "vmov.u8 d4, #33 \n" // R * 0.2578 coefficient
  1826. "vmov.u8 d5, #65 \n" // G * 0.5078 coefficient
  1827. "vmov.u8 d6, #13 \n" // B * 0.1016 coefficient
  1828. "vmov.u8 d7, #16 \n" // Add 16 constant
  1829. "1: \n"
  1830. "vld3.8 {d0, d1, d2}, [%0]! \n" // load 8 pixels of RAW.
  1831. "subs %2, %2, #8 \n" // 8 processed per loop.
  1832. "vmull.u8 q8, d0, d4 \n" // B
  1833. "vmlal.u8 q8, d1, d5 \n" // G
  1834. "vmlal.u8 q8, d2, d6 \n" // R
  1835. "vqrshrun.s16 d0, q8, #7 \n" // 16 bit to 8 bit Y
  1836. "vqadd.u8 d0, d7 \n"
  1837. "vst1.8 {d0}, [%1]! \n" // store 8 pixels Y.
  1838. "bgt 1b \n"
  1839. : "+r"(src_raw), // %0
  1840. "+r"(dst_y), // %1
  1841. "+r"(width) // %2
  1842. :
  1843. : "cc", "memory", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7", "q8");
  1844. }
  1845. // Bilinear filter 16x2 -> 16x1
  1846. void InterpolateRow_NEON(uint8* dst_ptr,
  1847. const uint8* src_ptr,
  1848. ptrdiff_t src_stride,
  1849. int dst_width,
  1850. int source_y_fraction) {
  1851. int y1_fraction = source_y_fraction;
  1852. asm volatile(
  1853. "cmp %4, #0 \n"
  1854. "beq 100f \n"
  1855. "add %2, %1 \n"
  1856. "cmp %4, #128 \n"
  1857. "beq 50f \n"
  1858. "vdup.8 d5, %4 \n"
  1859. "rsb %4, #256 \n"
  1860. "vdup.8 d4, %4 \n"
  1861. // General purpose row blend.
  1862. "1: \n"
  1863. "vld1.8 {q0}, [%1]! \n"
  1864. "vld1.8 {q1}, [%2]! \n"
  1865. "subs %3, %3, #16 \n"
  1866. "vmull.u8 q13, d0, d4 \n"
  1867. "vmull.u8 q14, d1, d4 \n"
  1868. "vmlal.u8 q13, d2, d5 \n"
  1869. "vmlal.u8 q14, d3, d5 \n"
  1870. "vrshrn.u16 d0, q13, #8 \n"
  1871. "vrshrn.u16 d1, q14, #8 \n"
  1872. "vst1.8 {q0}, [%0]! \n"
  1873. "bgt 1b \n"
  1874. "b 99f \n"
  1875. // Blend 50 / 50.
  1876. "50: \n"
  1877. "vld1.8 {q0}, [%1]! \n"
  1878. "vld1.8 {q1}, [%2]! \n"
  1879. "subs %3, %3, #16 \n"
  1880. "vrhadd.u8 q0, q1 \n"
  1881. "vst1.8 {q0}, [%0]! \n"
  1882. "bgt 50b \n"
  1883. "b 99f \n"
  1884. // Blend 100 / 0 - Copy row unchanged.
  1885. "100: \n"
  1886. "vld1.8 {q0}, [%1]! \n"
  1887. "subs %3, %3, #16 \n"
  1888. "vst1.8 {q0}, [%0]! \n"
  1889. "bgt 100b \n"
  1890. "99: \n"
  1891. : "+r"(dst_ptr), // %0
  1892. "+r"(src_ptr), // %1
  1893. "+r"(src_stride), // %2
  1894. "+r"(dst_width), // %3
  1895. "+r"(y1_fraction) // %4
  1896. :
  1897. : "cc", "memory", "q0", "q1", "d4", "d5", "q13", "q14");
  1898. }
  1899. // dr * (256 - sa) / 256 + sr = dr - dr * sa / 256 + sr
  1900. void ARGBBlendRow_NEON(const uint8* src_argb0,
  1901. const uint8* src_argb1,
  1902. uint8* dst_argb,
  1903. int width) {
  1904. asm volatile(
  1905. "subs %3, #8 \n"
  1906. "blt 89f \n"
  1907. // Blend 8 pixels.
  1908. "8: \n"
  1909. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 pixels of ARGB0.
  1910. "vld4.8 {d4, d5, d6, d7}, [%1]! \n" // load 8 pixels of ARGB1.
  1911. "subs %3, %3, #8 \n" // 8 processed per loop.
  1912. "vmull.u8 q10, d4, d3 \n" // db * a
  1913. "vmull.u8 q11, d5, d3 \n" // dg * a
  1914. "vmull.u8 q12, d6, d3 \n" // dr * a
  1915. "vqrshrn.u16 d20, q10, #8 \n" // db >>= 8
  1916. "vqrshrn.u16 d21, q11, #8 \n" // dg >>= 8
  1917. "vqrshrn.u16 d22, q12, #8 \n" // dr >>= 8
  1918. "vqsub.u8 q2, q2, q10 \n" // dbg - dbg * a / 256
  1919. "vqsub.u8 d6, d6, d22 \n" // dr - dr * a / 256
  1920. "vqadd.u8 q0, q0, q2 \n" // + sbg
  1921. "vqadd.u8 d2, d2, d6 \n" // + sr
  1922. "vmov.u8 d3, #255 \n" // a = 255
  1923. "vst4.8 {d0, d1, d2, d3}, [%2]! \n" // store 8 pixels of ARGB.
  1924. "bge 8b \n"
  1925. "89: \n"
  1926. "adds %3, #8-1 \n"
  1927. "blt 99f \n"
  1928. // Blend 1 pixels.
  1929. "1: \n"
  1930. "vld4.8 {d0[0],d1[0],d2[0],d3[0]}, [%0]! \n" // load 1 pixel ARGB0.
  1931. "vld4.8 {d4[0],d5[0],d6[0],d7[0]}, [%1]! \n" // load 1 pixel ARGB1.
  1932. "subs %3, %3, #1 \n" // 1 processed per loop.
  1933. "vmull.u8 q10, d4, d3 \n" // db * a
  1934. "vmull.u8 q11, d5, d3 \n" // dg * a
  1935. "vmull.u8 q12, d6, d3 \n" // dr * a
  1936. "vqrshrn.u16 d20, q10, #8 \n" // db >>= 8
  1937. "vqrshrn.u16 d21, q11, #8 \n" // dg >>= 8
  1938. "vqrshrn.u16 d22, q12, #8 \n" // dr >>= 8
  1939. "vqsub.u8 q2, q2, q10 \n" // dbg - dbg * a / 256
  1940. "vqsub.u8 d6, d6, d22 \n" // dr - dr * a / 256
  1941. "vqadd.u8 q0, q0, q2 \n" // + sbg
  1942. "vqadd.u8 d2, d2, d6 \n" // + sr
  1943. "vmov.u8 d3, #255 \n" // a = 255
  1944. "vst4.8 {d0[0],d1[0],d2[0],d3[0]}, [%2]! \n" // store 1 pixel.
  1945. "bge 1b \n"
  1946. "99: \n"
  1947. : "+r"(src_argb0), // %0
  1948. "+r"(src_argb1), // %1
  1949. "+r"(dst_argb), // %2
  1950. "+r"(width) // %3
  1951. :
  1952. : "cc", "memory", "q0", "q1", "q2", "q3", "q10", "q11", "q12");
  1953. }
  1954. // Attenuate 8 pixels at a time.
  1955. void ARGBAttenuateRow_NEON(const uint8* src_argb, uint8* dst_argb, int width) {
  1956. asm volatile(
  1957. // Attenuate 8 pixels.
  1958. "1: \n"
  1959. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 pixels of ARGB.
  1960. "subs %2, %2, #8 \n" // 8 processed per loop.
  1961. "vmull.u8 q10, d0, d3 \n" // b * a
  1962. "vmull.u8 q11, d1, d3 \n" // g * a
  1963. "vmull.u8 q12, d2, d3 \n" // r * a
  1964. "vqrshrn.u16 d0, q10, #8 \n" // b >>= 8
  1965. "vqrshrn.u16 d1, q11, #8 \n" // g >>= 8
  1966. "vqrshrn.u16 d2, q12, #8 \n" // r >>= 8
  1967. "vst4.8 {d0, d1, d2, d3}, [%1]! \n" // store 8 pixels of ARGB.
  1968. "bgt 1b \n"
  1969. : "+r"(src_argb), // %0
  1970. "+r"(dst_argb), // %1
  1971. "+r"(width) // %2
  1972. :
  1973. : "cc", "memory", "q0", "q1", "q10", "q11", "q12");
  1974. }
  1975. // Quantize 8 ARGB pixels (32 bytes).
  1976. // dst = (dst * scale >> 16) * interval_size + interval_offset;
  1977. void ARGBQuantizeRow_NEON(uint8* dst_argb,
  1978. int scale,
  1979. int interval_size,
  1980. int interval_offset,
  1981. int width) {
  1982. asm volatile(
  1983. "vdup.u16 q8, %2 \n"
  1984. "vshr.u16 q8, q8, #1 \n" // scale >>= 1
  1985. "vdup.u16 q9, %3 \n" // interval multiply.
  1986. "vdup.u16 q10, %4 \n" // interval add
  1987. // 8 pixel loop.
  1988. "1: \n"
  1989. "vld4.8 {d0, d2, d4, d6}, [%0] \n" // load 8 pixels of ARGB.
  1990. "subs %1, %1, #8 \n" // 8 processed per loop.
  1991. "vmovl.u8 q0, d0 \n" // b (0 .. 255)
  1992. "vmovl.u8 q1, d2 \n"
  1993. "vmovl.u8 q2, d4 \n"
  1994. "vqdmulh.s16 q0, q0, q8 \n" // b * scale
  1995. "vqdmulh.s16 q1, q1, q8 \n" // g
  1996. "vqdmulh.s16 q2, q2, q8 \n" // r
  1997. "vmul.u16 q0, q0, q9 \n" // b * interval_size
  1998. "vmul.u16 q1, q1, q9 \n" // g
  1999. "vmul.u16 q2, q2, q9 \n" // r
  2000. "vadd.u16 q0, q0, q10 \n" // b + interval_offset
  2001. "vadd.u16 q1, q1, q10 \n" // g
  2002. "vadd.u16 q2, q2, q10 \n" // r
  2003. "vqmovn.u16 d0, q0 \n"
  2004. "vqmovn.u16 d2, q1 \n"
  2005. "vqmovn.u16 d4, q2 \n"
  2006. "vst4.8 {d0, d2, d4, d6}, [%0]! \n" // store 8 pixels of ARGB.
  2007. "bgt 1b \n"
  2008. : "+r"(dst_argb), // %0
  2009. "+r"(width) // %1
  2010. : "r"(scale), // %2
  2011. "r"(interval_size), // %3
  2012. "r"(interval_offset) // %4
  2013. : "cc", "memory", "q0", "q1", "q2", "q3", "q8", "q9", "q10");
  2014. }
  2015. // Shade 8 pixels at a time by specified value.
  2016. // NOTE vqrdmulh.s16 q10, q10, d0[0] must use a scaler register from 0 to 8.
  2017. // Rounding in vqrdmulh does +1 to high if high bit of low s16 is set.
  2018. void ARGBShadeRow_NEON(const uint8* src_argb,
  2019. uint8* dst_argb,
  2020. int width,
  2021. uint32 value) {
  2022. asm volatile(
  2023. "vdup.u32 q0, %3 \n" // duplicate scale value.
  2024. "vzip.u8 d0, d1 \n" // d0 aarrggbb.
  2025. "vshr.u16 q0, q0, #1 \n" // scale / 2.
  2026. // 8 pixel loop.
  2027. "1: \n"
  2028. "vld4.8 {d20, d22, d24, d26}, [%0]! \n" // load 8 pixels of ARGB.
  2029. "subs %2, %2, #8 \n" // 8 processed per loop.
  2030. "vmovl.u8 q10, d20 \n" // b (0 .. 255)
  2031. "vmovl.u8 q11, d22 \n"
  2032. "vmovl.u8 q12, d24 \n"
  2033. "vmovl.u8 q13, d26 \n"
  2034. "vqrdmulh.s16 q10, q10, d0[0] \n" // b * scale * 2
  2035. "vqrdmulh.s16 q11, q11, d0[1] \n" // g
  2036. "vqrdmulh.s16 q12, q12, d0[2] \n" // r
  2037. "vqrdmulh.s16 q13, q13, d0[3] \n" // a
  2038. "vqmovn.u16 d20, q10 \n"
  2039. "vqmovn.u16 d22, q11 \n"
  2040. "vqmovn.u16 d24, q12 \n"
  2041. "vqmovn.u16 d26, q13 \n"
  2042. "vst4.8 {d20, d22, d24, d26}, [%1]! \n" // store 8 pixels of ARGB.
  2043. "bgt 1b \n"
  2044. : "+r"(src_argb), // %0
  2045. "+r"(dst_argb), // %1
  2046. "+r"(width) // %2
  2047. : "r"(value) // %3
  2048. : "cc", "memory", "q0", "q10", "q11", "q12", "q13");
  2049. }
  2050. // Convert 8 ARGB pixels (64 bytes) to 8 Gray ARGB pixels
  2051. // Similar to ARGBToYJ but stores ARGB.
  2052. // C code is (15 * b + 75 * g + 38 * r + 64) >> 7;
  2053. void ARGBGrayRow_NEON(const uint8* src_argb, uint8* dst_argb, int width) {
  2054. asm volatile(
  2055. "vmov.u8 d24, #15 \n" // B * 0.11400 coefficient
  2056. "vmov.u8 d25, #75 \n" // G * 0.58700 coefficient
  2057. "vmov.u8 d26, #38 \n" // R * 0.29900 coefficient
  2058. "1: \n"
  2059. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 ARGB pixels.
  2060. "subs %2, %2, #8 \n" // 8 processed per loop.
  2061. "vmull.u8 q2, d0, d24 \n" // B
  2062. "vmlal.u8 q2, d1, d25 \n" // G
  2063. "vmlal.u8 q2, d2, d26 \n" // R
  2064. "vqrshrun.s16 d0, q2, #7 \n" // 15 bit to 8 bit B
  2065. "vmov d1, d0 \n" // G
  2066. "vmov d2, d0 \n" // R
  2067. "vst4.8 {d0, d1, d2, d3}, [%1]! \n" // store 8 ARGB pixels.
  2068. "bgt 1b \n"
  2069. : "+r"(src_argb), // %0
  2070. "+r"(dst_argb), // %1
  2071. "+r"(width) // %2
  2072. :
  2073. : "cc", "memory", "q0", "q1", "q2", "q12", "q13");
  2074. }
  2075. // Convert 8 ARGB pixels (32 bytes) to 8 Sepia ARGB pixels.
  2076. // b = (r * 35 + g * 68 + b * 17) >> 7
  2077. // g = (r * 45 + g * 88 + b * 22) >> 7
  2078. // r = (r * 50 + g * 98 + b * 24) >> 7
  2079. void ARGBSepiaRow_NEON(uint8* dst_argb, int width) {
  2080. asm volatile(
  2081. "vmov.u8 d20, #17 \n" // BB coefficient
  2082. "vmov.u8 d21, #68 \n" // BG coefficient
  2083. "vmov.u8 d22, #35 \n" // BR coefficient
  2084. "vmov.u8 d24, #22 \n" // GB coefficient
  2085. "vmov.u8 d25, #88 \n" // GG coefficient
  2086. "vmov.u8 d26, #45 \n" // GR coefficient
  2087. "vmov.u8 d28, #24 \n" // BB coefficient
  2088. "vmov.u8 d29, #98 \n" // BG coefficient
  2089. "vmov.u8 d30, #50 \n" // BR coefficient
  2090. "1: \n"
  2091. "vld4.8 {d0, d1, d2, d3}, [%0] \n" // load 8 ARGB pixels.
  2092. "subs %1, %1, #8 \n" // 8 processed per loop.
  2093. "vmull.u8 q2, d0, d20 \n" // B to Sepia B
  2094. "vmlal.u8 q2, d1, d21 \n" // G
  2095. "vmlal.u8 q2, d2, d22 \n" // R
  2096. "vmull.u8 q3, d0, d24 \n" // B to Sepia G
  2097. "vmlal.u8 q3, d1, d25 \n" // G
  2098. "vmlal.u8 q3, d2, d26 \n" // R
  2099. "vmull.u8 q8, d0, d28 \n" // B to Sepia R
  2100. "vmlal.u8 q8, d1, d29 \n" // G
  2101. "vmlal.u8 q8, d2, d30 \n" // R
  2102. "vqshrn.u16 d0, q2, #7 \n" // 16 bit to 8 bit B
  2103. "vqshrn.u16 d1, q3, #7 \n" // 16 bit to 8 bit G
  2104. "vqshrn.u16 d2, q8, #7 \n" // 16 bit to 8 bit R
  2105. "vst4.8 {d0, d1, d2, d3}, [%0]! \n" // store 8 ARGB pixels.
  2106. "bgt 1b \n"
  2107. : "+r"(dst_argb), // %0
  2108. "+r"(width) // %1
  2109. :
  2110. : "cc", "memory", "q0", "q1", "q2", "q3", "q10", "q11", "q12", "q13",
  2111. "q14", "q15");
  2112. }
  2113. // Tranform 8 ARGB pixels (32 bytes) with color matrix.
  2114. // TODO(fbarchard): Was same as Sepia except matrix is provided. This function
  2115. // needs to saturate. Consider doing a non-saturating version.
  2116. void ARGBColorMatrixRow_NEON(const uint8* src_argb,
  2117. uint8* dst_argb,
  2118. const int8* matrix_argb,
  2119. int width) {
  2120. asm volatile(
  2121. "vld1.8 {q2}, [%3] \n" // load 3 ARGB vectors.
  2122. "vmovl.s8 q0, d4 \n" // B,G coefficients s16.
  2123. "vmovl.s8 q1, d5 \n" // R,A coefficients s16.
  2124. "1: \n"
  2125. "vld4.8 {d16, d18, d20, d22}, [%0]! \n" // load 8 ARGB pixels.
  2126. "subs %2, %2, #8 \n" // 8 processed per loop.
  2127. "vmovl.u8 q8, d16 \n" // b (0 .. 255) 16 bit
  2128. "vmovl.u8 q9, d18 \n" // g
  2129. "vmovl.u8 q10, d20 \n" // r
  2130. "vmovl.u8 q11, d22 \n" // a
  2131. "vmul.s16 q12, q8, d0[0] \n" // B = B * Matrix B
  2132. "vmul.s16 q13, q8, d1[0] \n" // G = B * Matrix G
  2133. "vmul.s16 q14, q8, d2[0] \n" // R = B * Matrix R
  2134. "vmul.s16 q15, q8, d3[0] \n" // A = B * Matrix A
  2135. "vmul.s16 q4, q9, d0[1] \n" // B += G * Matrix B
  2136. "vmul.s16 q5, q9, d1[1] \n" // G += G * Matrix G
  2137. "vmul.s16 q6, q9, d2[1] \n" // R += G * Matrix R
  2138. "vmul.s16 q7, q9, d3[1] \n" // A += G * Matrix A
  2139. "vqadd.s16 q12, q12, q4 \n" // Accumulate B
  2140. "vqadd.s16 q13, q13, q5 \n" // Accumulate G
  2141. "vqadd.s16 q14, q14, q6 \n" // Accumulate R
  2142. "vqadd.s16 q15, q15, q7 \n" // Accumulate A
  2143. "vmul.s16 q4, q10, d0[2] \n" // B += R * Matrix B
  2144. "vmul.s16 q5, q10, d1[2] \n" // G += R * Matrix G
  2145. "vmul.s16 q6, q10, d2[2] \n" // R += R * Matrix R
  2146. "vmul.s16 q7, q10, d3[2] \n" // A += R * Matrix A
  2147. "vqadd.s16 q12, q12, q4 \n" // Accumulate B
  2148. "vqadd.s16 q13, q13, q5 \n" // Accumulate G
  2149. "vqadd.s16 q14, q14, q6 \n" // Accumulate R
  2150. "vqadd.s16 q15, q15, q7 \n" // Accumulate A
  2151. "vmul.s16 q4, q11, d0[3] \n" // B += A * Matrix B
  2152. "vmul.s16 q5, q11, d1[3] \n" // G += A * Matrix G
  2153. "vmul.s16 q6, q11, d2[3] \n" // R += A * Matrix R
  2154. "vmul.s16 q7, q11, d3[3] \n" // A += A * Matrix A
  2155. "vqadd.s16 q12, q12, q4 \n" // Accumulate B
  2156. "vqadd.s16 q13, q13, q5 \n" // Accumulate G
  2157. "vqadd.s16 q14, q14, q6 \n" // Accumulate R
  2158. "vqadd.s16 q15, q15, q7 \n" // Accumulate A
  2159. "vqshrun.s16 d16, q12, #6 \n" // 16 bit to 8 bit B
  2160. "vqshrun.s16 d18, q13, #6 \n" // 16 bit to 8 bit G
  2161. "vqshrun.s16 d20, q14, #6 \n" // 16 bit to 8 bit R
  2162. "vqshrun.s16 d22, q15, #6 \n" // 16 bit to 8 bit A
  2163. "vst4.8 {d16, d18, d20, d22}, [%1]! \n" // store 8 ARGB pixels.
  2164. "bgt 1b \n"
  2165. : "+r"(src_argb), // %0
  2166. "+r"(dst_argb), // %1
  2167. "+r"(width) // %2
  2168. : "r"(matrix_argb) // %3
  2169. : "cc", "memory", "q0", "q1", "q2", "q4", "q5", "q6", "q7", "q8", "q9",
  2170. "q10", "q11", "q12", "q13", "q14", "q15");
  2171. }
  2172. // Multiply 2 rows of ARGB pixels together, 8 pixels at a time.
  2173. void ARGBMultiplyRow_NEON(const uint8* src_argb0,
  2174. const uint8* src_argb1,
  2175. uint8* dst_argb,
  2176. int width) {
  2177. asm volatile(
  2178. // 8 pixel loop.
  2179. "1: \n"
  2180. "vld4.8 {d0, d2, d4, d6}, [%0]! \n" // load 8 ARGB pixels.
  2181. "vld4.8 {d1, d3, d5, d7}, [%1]! \n" // load 8 more ARGB
  2182. "subs %3, %3, #8 \n" // 8 processed per loop.
  2183. "vmull.u8 q0, d0, d1 \n" // multiply B
  2184. "vmull.u8 q1, d2, d3 \n" // multiply G
  2185. "vmull.u8 q2, d4, d5 \n" // multiply R
  2186. "vmull.u8 q3, d6, d7 \n" // multiply A
  2187. "vrshrn.u16 d0, q0, #8 \n" // 16 bit to 8 bit B
  2188. "vrshrn.u16 d1, q1, #8 \n" // 16 bit to 8 bit G
  2189. "vrshrn.u16 d2, q2, #8 \n" // 16 bit to 8 bit R
  2190. "vrshrn.u16 d3, q3, #8 \n" // 16 bit to 8 bit A
  2191. "vst4.8 {d0, d1, d2, d3}, [%2]! \n" // store 8 ARGB pixels.
  2192. "bgt 1b \n"
  2193. : "+r"(src_argb0), // %0
  2194. "+r"(src_argb1), // %1
  2195. "+r"(dst_argb), // %2
  2196. "+r"(width) // %3
  2197. :
  2198. : "cc", "memory", "q0", "q1", "q2", "q3");
  2199. }
  2200. // Add 2 rows of ARGB pixels together, 8 pixels at a time.
  2201. void ARGBAddRow_NEON(const uint8* src_argb0,
  2202. const uint8* src_argb1,
  2203. uint8* dst_argb,
  2204. int width) {
  2205. asm volatile(
  2206. // 8 pixel loop.
  2207. "1: \n"
  2208. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 ARGB pixels.
  2209. "vld4.8 {d4, d5, d6, d7}, [%1]! \n" // load 8 more ARGB
  2210. "subs %3, %3, #8 \n" // 8 processed per loop.
  2211. "vqadd.u8 q0, q0, q2 \n" // add B, G
  2212. "vqadd.u8 q1, q1, q3 \n" // add R, A
  2213. "vst4.8 {d0, d1, d2, d3}, [%2]! \n" // store 8 ARGB pixels.
  2214. "bgt 1b \n"
  2215. : "+r"(src_argb0), // %0
  2216. "+r"(src_argb1), // %1
  2217. "+r"(dst_argb), // %2
  2218. "+r"(width) // %3
  2219. :
  2220. : "cc", "memory", "q0", "q1", "q2", "q3");
  2221. }
  2222. // Subtract 2 rows of ARGB pixels, 8 pixels at a time.
  2223. void ARGBSubtractRow_NEON(const uint8* src_argb0,
  2224. const uint8* src_argb1,
  2225. uint8* dst_argb,
  2226. int width) {
  2227. asm volatile(
  2228. // 8 pixel loop.
  2229. "1: \n"
  2230. "vld4.8 {d0, d1, d2, d3}, [%0]! \n" // load 8 ARGB pixels.
  2231. "vld4.8 {d4, d5, d6, d7}, [%1]! \n" // load 8 more ARGB
  2232. "subs %3, %3, #8 \n" // 8 processed per loop.
  2233. "vqsub.u8 q0, q0, q2 \n" // subtract B, G
  2234. "vqsub.u8 q1, q1, q3 \n" // subtract R, A
  2235. "vst4.8 {d0, d1, d2, d3}, [%2]! \n" // store 8 ARGB pixels.
  2236. "bgt 1b \n"
  2237. : "+r"(src_argb0), // %0
  2238. "+r"(src_argb1), // %1
  2239. "+r"(dst_argb), // %2
  2240. "+r"(width) // %3
  2241. :
  2242. : "cc", "memory", "q0", "q1", "q2", "q3");
  2243. }
  2244. // Adds Sobel X and Sobel Y and stores Sobel into ARGB.
  2245. // A = 255
  2246. // R = Sobel
  2247. // G = Sobel
  2248. // B = Sobel
  2249. void SobelRow_NEON(const uint8* src_sobelx,
  2250. const uint8* src_sobely,
  2251. uint8* dst_argb,
  2252. int width) {
  2253. asm volatile(
  2254. "vmov.u8 d3, #255 \n" // alpha
  2255. // 8 pixel loop.
  2256. "1: \n"
  2257. "vld1.8 {d0}, [%0]! \n" // load 8 sobelx.
  2258. "vld1.8 {d1}, [%1]! \n" // load 8 sobely.
  2259. "subs %3, %3, #8 \n" // 8 processed per loop.
  2260. "vqadd.u8 d0, d0, d1 \n" // add
  2261. "vmov.u8 d1, d0 \n"
  2262. "vmov.u8 d2, d0 \n"
  2263. "vst4.8 {d0, d1, d2, d3}, [%2]! \n" // store 8 ARGB pixels.
  2264. "bgt 1b \n"
  2265. : "+r"(src_sobelx), // %0
  2266. "+r"(src_sobely), // %1
  2267. "+r"(dst_argb), // %2
  2268. "+r"(width) // %3
  2269. :
  2270. : "cc", "memory", "q0", "q1");
  2271. }
  2272. // Adds Sobel X and Sobel Y and stores Sobel into plane.
  2273. void SobelToPlaneRow_NEON(const uint8* src_sobelx,
  2274. const uint8* src_sobely,
  2275. uint8* dst_y,
  2276. int width) {
  2277. asm volatile(
  2278. // 16 pixel loop.
  2279. "1: \n"
  2280. "vld1.8 {q0}, [%0]! \n" // load 16 sobelx.
  2281. "vld1.8 {q1}, [%1]! \n" // load 16 sobely.
  2282. "subs %3, %3, #16 \n" // 16 processed per loop.
  2283. "vqadd.u8 q0, q0, q1 \n" // add
  2284. "vst1.8 {q0}, [%2]! \n" // store 16 pixels.
  2285. "bgt 1b \n"
  2286. : "+r"(src_sobelx), // %0
  2287. "+r"(src_sobely), // %1
  2288. "+r"(dst_y), // %2
  2289. "+r"(width) // %3
  2290. :
  2291. : "cc", "memory", "q0", "q1");
  2292. }
  2293. // Mixes Sobel X, Sobel Y and Sobel into ARGB.
  2294. // A = 255
  2295. // R = Sobel X
  2296. // G = Sobel
  2297. // B = Sobel Y
  2298. void SobelXYRow_NEON(const uint8* src_sobelx,
  2299. const uint8* src_sobely,
  2300. uint8* dst_argb,
  2301. int width) {
  2302. asm volatile(
  2303. "vmov.u8 d3, #255 \n" // alpha
  2304. // 8 pixel loop.
  2305. "1: \n"
  2306. "vld1.8 {d2}, [%0]! \n" // load 8 sobelx.
  2307. "vld1.8 {d0}, [%1]! \n" // load 8 sobely.
  2308. "subs %3, %3, #8 \n" // 8 processed per loop.
  2309. "vqadd.u8 d1, d0, d2 \n" // add
  2310. "vst4.8 {d0, d1, d2, d3}, [%2]! \n" // store 8 ARGB pixels.
  2311. "bgt 1b \n"
  2312. : "+r"(src_sobelx), // %0
  2313. "+r"(src_sobely), // %1
  2314. "+r"(dst_argb), // %2
  2315. "+r"(width) // %3
  2316. :
  2317. : "cc", "memory", "q0", "q1");
  2318. }
  2319. // SobelX as a matrix is
  2320. // -1 0 1
  2321. // -2 0 2
  2322. // -1 0 1
  2323. void SobelXRow_NEON(const uint8* src_y0,
  2324. const uint8* src_y1,
  2325. const uint8* src_y2,
  2326. uint8* dst_sobelx,
  2327. int width) {
  2328. asm volatile(
  2329. "1: \n"
  2330. "vld1.8 {d0}, [%0],%5 \n" // top
  2331. "vld1.8 {d1}, [%0],%6 \n"
  2332. "vsubl.u8 q0, d0, d1 \n"
  2333. "vld1.8 {d2}, [%1],%5 \n" // center * 2
  2334. "vld1.8 {d3}, [%1],%6 \n"
  2335. "vsubl.u8 q1, d2, d3 \n"
  2336. "vadd.s16 q0, q0, q1 \n"
  2337. "vadd.s16 q0, q0, q1 \n"
  2338. "vld1.8 {d2}, [%2],%5 \n" // bottom
  2339. "vld1.8 {d3}, [%2],%6 \n"
  2340. "subs %4, %4, #8 \n" // 8 pixels
  2341. "vsubl.u8 q1, d2, d3 \n"
  2342. "vadd.s16 q0, q0, q1 \n"
  2343. "vabs.s16 q0, q0 \n"
  2344. "vqmovn.u16 d0, q0 \n"
  2345. "vst1.8 {d0}, [%3]! \n" // store 8 sobelx
  2346. "bgt 1b \n"
  2347. : "+r"(src_y0), // %0
  2348. "+r"(src_y1), // %1
  2349. "+r"(src_y2), // %2
  2350. "+r"(dst_sobelx), // %3
  2351. "+r"(width) // %4
  2352. : "r"(2), // %5
  2353. "r"(6) // %6
  2354. : "cc", "memory", "q0", "q1" // Clobber List
  2355. );
  2356. }
  2357. // SobelY as a matrix is
  2358. // -1 -2 -1
  2359. // 0 0 0
  2360. // 1 2 1
  2361. void SobelYRow_NEON(const uint8* src_y0,
  2362. const uint8* src_y1,
  2363. uint8* dst_sobely,
  2364. int width) {
  2365. asm volatile(
  2366. "1: \n"
  2367. "vld1.8 {d0}, [%0],%4 \n" // left
  2368. "vld1.8 {d1}, [%1],%4 \n"
  2369. "vsubl.u8 q0, d0, d1 \n"
  2370. "vld1.8 {d2}, [%0],%4 \n" // center * 2
  2371. "vld1.8 {d3}, [%1],%4 \n"
  2372. "vsubl.u8 q1, d2, d3 \n"
  2373. "vadd.s16 q0, q0, q1 \n"
  2374. "vadd.s16 q0, q0, q1 \n"
  2375. "vld1.8 {d2}, [%0],%5 \n" // right
  2376. "vld1.8 {d3}, [%1],%5 \n"
  2377. "subs %3, %3, #8 \n" // 8 pixels
  2378. "vsubl.u8 q1, d2, d3 \n"
  2379. "vadd.s16 q0, q0, q1 \n"
  2380. "vabs.s16 q0, q0 \n"
  2381. "vqmovn.u16 d0, q0 \n"
  2382. "vst1.8 {d0}, [%2]! \n" // store 8 sobely
  2383. "bgt 1b \n"
  2384. : "+r"(src_y0), // %0
  2385. "+r"(src_y1), // %1
  2386. "+r"(dst_sobely), // %2
  2387. "+r"(width) // %3
  2388. : "r"(1), // %4
  2389. "r"(6) // %5
  2390. : "cc", "memory", "q0", "q1" // Clobber List
  2391. );
  2392. }
  2393. void HalfFloat1Row_NEON(const uint16* src, uint16* dst, float, int width) {
  2394. asm volatile(
  2395. "vdup.32 q0, %3 \n"
  2396. "1: \n"
  2397. "vld1.8 {q1}, [%0]! \n" // load 8 shorts
  2398. "subs %2, %2, #8 \n" // 8 pixels per loop
  2399. "vmovl.u16 q2, d2 \n" // 8 int's
  2400. "vmovl.u16 q3, d3 \n"
  2401. "vcvt.f32.u32 q2, q2 \n" // 8 floats
  2402. "vcvt.f32.u32 q3, q3 \n"
  2403. "vmul.f32 q2, q2, q0 \n" // adjust exponent
  2404. "vmul.f32 q3, q3, q0 \n"
  2405. "vqshrn.u32 d2, q2, #13 \n" // isolate halffloat
  2406. "vqshrn.u32 d3, q3, #13 \n"
  2407. "vst1.8 {q1}, [%1]! \n"
  2408. "bgt 1b \n"
  2409. : "+r"(src), // %0
  2410. "+r"(dst), // %1
  2411. "+r"(width) // %2
  2412. : "r"(1.9259299444e-34f) // %3
  2413. : "cc", "memory", "q0", "q1", "q2", "q3");
  2414. }
  2415. // TODO(fbarchard): multiply by element.
  2416. void HalfFloatRow_NEON(const uint16* src, uint16* dst, float scale, int width) {
  2417. asm volatile(
  2418. "vdup.32 q0, %3 \n"
  2419. "1: \n"
  2420. "vld1.8 {q1}, [%0]! \n" // load 8 shorts
  2421. "subs %2, %2, #8 \n" // 8 pixels per loop
  2422. "vmovl.u16 q2, d2 \n" // 8 int's
  2423. "vmovl.u16 q3, d3 \n"
  2424. "vcvt.f32.u32 q2, q2 \n" // 8 floats
  2425. "vcvt.f32.u32 q3, q3 \n"
  2426. "vmul.f32 q2, q2, q0 \n" // adjust exponent
  2427. "vmul.f32 q3, q3, q0 \n"
  2428. "vqshrn.u32 d2, q2, #13 \n" // isolate halffloat
  2429. "vqshrn.u32 d3, q3, #13 \n"
  2430. "vst1.8 {q1}, [%1]! \n"
  2431. "bgt 1b \n"
  2432. : "+r"(src), // %0
  2433. "+r"(dst), // %1
  2434. "+r"(width) // %2
  2435. : "r"(scale * 1.9259299444e-34f) // %3
  2436. : "cc", "memory", "q0", "q1", "q2", "q3");
  2437. }
  2438. #endif // !defined(LIBYUV_DISABLE_NEON) && defined(__ARM_NEON__)..
  2439. #ifdef __cplusplus
  2440. } // extern "C"
  2441. } // namespace libyuv
  2442. #endif