PDF થી એક્સેલ (XLSX) કન્વર્ટર
પીડીએફમાંથી કોષ્ટકો અને ટેક્સ્ટને એક્સટ્રેક્ટ કરો અને તેને તમારા બ્રાઉઝરમાં સુરક્ષિત રીતે એક્સેલ XLSX સ્પ્રેડશીટ્સમાં કન્વર્ટ કરો.
પીડીએફ ફાઈલ અહીં મૂકો
અથવા ફાઇલ પસંદ કરવા માટે ક્લિક કરો
પીડીએફમાંથી કોષ્ટકો અને ટેક્સ્ટને એક્સટ્રેક્ટ કરો અને તેને તમારા બ્રાઉઝરમાં સુરક્ષિત રીતે એક્સેલ XLSX સ્પ્રેડશીટ્સમાં કન્વર્ટ કરો.
અથવા ફાઇલ પસંદ કરવા માટે ક્લિક કરો
ટેબ્યુલર ડેટાને પીડીએફમાંથી અને સ્પ્રેડશીટમાં ખેંચવો એ ઑફિસમાં સૌથી સામાન્ય દસ્તાવેજ વર્કફ્લો છે જે ઇન્વૉઇસ, નાણાકીય અહેવાલો, વૈજ્ઞાનિક કાગળો અને સરકારી ડેટાને હેન્ડલ કરે છે. પીડીએફ ફોર્મેટ મૂળ રીતે કોષ્ટકોને સમજી શકતું નથી — તે ફક્ત પૃષ્ઠ પર ગ્લિફ સ્થિતિઓનું વર્ણન કરે છે — તેથી એક્સેલમાં રૂપાંતરિત કરવા માટે ટેક્સ્ટની ભૂમિતિમાંથી કોષ્ટક માળખું અનુમાનિત કરવું જરૂરી છે. જ્યાં એક કોષ સમાપ્ત થાય છે અને બીજો શરૂ થાય છે તે આડી સફેદ જગ્યા પરથી અનુમાન લગાવવું આવશ્યક છે; જ્યાં એક પંક્તિ સમાપ્ત થાય છે અને બીજી શરૂ થાય છે, ઊભી વ્હાઇટસ્પેસથી.
આ ટૂલ PDF.js નો ઉપયોગ કરીને PDF ને પાર્સ કરે છે, તેમના બાઉન્ડિંગ બોક્સ સાથે ટેક્સ્ટ આઇટમ્સ કાઢે છે, અને સ્થિતિના આધારે વસ્તુઓને પંક્તિઓ અને કૉલમ્સમાં ક્લસ્ટર કરે છે. શોધાયેલ કોષ્ટકને SheetJS xlsx લાઇબ્રેરીનો ઉપયોગ કરીને એક્સેલ વર્કબુકમાં લખવામાં આવે છે. આઉટપુટ એ પ્રમાણભૂત .xlsx ફાઇલ છે જે Excel, Google Sheets, Numbers અથવા અન્ય કોઈપણ સ્પ્રેડશીટ એપ્લિકેશનમાં ખુલે છે.
પીડીએફ કોષ્ટક નિષ્કર્ષણ ખરેખર મુશ્કેલ છે, અને કોઈપણ એક્સ્ટ્રક્ટર દરેક પીડીએફ પર સંપૂર્ણ પરિણામો ઉત્પન્ન કરતું નથી. સુસંગત કૉલમ સીમાઓ, કોઈ મર્જ કરેલ કોષો અને સ્પષ્ટ વર્ટિકલ સંરેખણ સાથે કોષ્ટકો સ્વચ્છ રીતે રૂપાંતરિત થાય છે. મર્જ કરેલ કોષો, મલ્ટિ-લાઇન એન્ટ્રીઓ, ફૂટનોટ્સ અથવા અસામાન્ય લેઆઉટ સાથેના કોષ્ટકોને સામાન્ય રીતે નિષ્કર્ષણ પછી મેન્યુઅલ ક્લિનઅપની જરૂર હોય છે. સમીક્ષા માટે યોજના.
કારણ લગભગ હંમેશા વિશ્લેષણ છે. પીડીએફમાં ફસાયેલા ડેટાને સૉર્ટ, ફિલ્ટર, સારાંશ, ચાર્ટ અથવા પિવટ કરી શકાતા નથી. એકવાર તે એક્સેલમાં આવી જાય, દરેક પ્રમાણભૂત સ્પ્રેડશીટ ઑપરેશન ઉપલબ્ધ થઈ જાય છે — અને તે સ્ટેટિક રિપોર્ટને જોવા અને ખરેખર તેમાંના નંબરો સાથે કામ કરવા વચ્ચેનો તફાવત ખોલે છે.
પીડીએફમાં બલ્ક ડેટા વર્ક અશક્ય છે. બહુવિધ પીડીએફ રિપોર્ટ્સમાં ત્રિમાસિક આંકડાઓને એકત્ર કરવા, વિક્રેતાઓમાં લાઇન આઇટમ્સની તુલના કરવી અથવા ડાઉનસ્ટ્રીમ વિશ્લેષણ માટે ચોક્કસ કૉલમ ખેંચવા માટે ડેટાને ફોર્મેટમાં મેળવવાની જરૂર છે જે તે ઑપરેશન્સને સપોર્ટ કરે છે. એક્સેલ અને CSV તે ફોર્મેટ છે. રૂપાંતર એ સેતુ છે.
ટેબ્યુલર ડેટા ધરાવતી પીડીએફ છોડો, દરેક ટેબલ સાથે તેની પોતાની શીટ પર વર્કબુક મેળવો.
PDF.js એક getTextContent API ને ઉજાગર કરે છે જે તેમના બાઉન્ડિંગ બોક્સ સાથે ટેક્સ્ટ આઇટમ પરત કરે છે. દરેક વસ્તુમાં સ્ટ્રિંગ, ટ્રાન્સફોર્મ મેટ્રિક્સ (સ્થિતિ અને પરિભ્રમણ માટે), અને પહોળાઈ/ઊંચાઈ હોય છે. કન્વર્ટર લીટીઓ ઓળખવા માટે Y-કોઓર્ડિનેટ દ્વારા વસ્તુઓને વર્ગીકૃત કરે છે, પછી X-સંકલન દ્વારા દરેક લાઇનની અંદર. ખૂબ સમાન Y સ્થાનો પરની વસ્તુઓ એક પંક્તિ બનાવે છે.
કૉલમ ડિટેક્શન ગેપ પૃથ્થકરણનો ઉપયોગ કરે છે: એક પંક્તિમાં સળંગ આઇટમ્સ વચ્ચેનું X-અંતર સૂચવે છે કે શું તે એક જ કોષ અથવા અડીને આવેલા કોષોની છે. થ્રેશોલ્ડ કરતા મોટો ગેપ (સામાન્ય રીતે 1-2 અક્ષરની પહોળાઈ) કૉલમની સીમાનો સંકેત આપે છે. થ્રેશોલ્ડ ટ્યુનિંગ અડીને આવેલા કૉલમને મર્જ કરવા અને સિંગલ કૉલમને વિભાજિત કરવા વચ્ચે વેપાર કરે છે.
એક્સેલ આઉટપુટ મેમરીમાં વર્કબુક બનાવવા માટે SheetJS નો ઉપયોગ કરે છે, દરેક શોધાયેલ ટેબલ સાથે તેની પોતાની શીટ પર Sheet1, Sheet2, વગેરે. વર્કબુકને .xlsx (ઓફિસ ઓપન XML) ફોર્મેટમાં શ્રેણીબદ્ધ કરવામાં આવે છે અને ડાઉનલોડ તરીકે ઓફર કરવામાં આવે છે. પરિણામ Excel 2007+, Google Sheets, LibreOffice Calc અને Apple Numbers માં ખુલે છે.