ഈ ടൂളിനെ കുറിച്ച്
ഇൻവോയ്സുകൾ, സാമ്പത്തിക റിപ്പോർട്ടുകൾ, സയൻ്റിഫിക് പേപ്പറുകൾ, സർക്കാർ ഡാറ്റ എന്നിവ കൈകാര്യം ചെയ്യുന്ന ഓഫീസുകളിലെ ഏറ്റവും സാധാരണമായ ഡോക്യുമെൻ്റ് വർക്ക്ഫ്ലോകളിൽ ഒന്നാണ് PDF-ൽ നിന്നും സ്പ്രെഡ്ഷീറ്റിലേക്കും പട്ടിക ഡാറ്റ വലിക്കുന്നത്. PDF ഫോർമാറ്റിന് ടേബിളുകൾ പ്രാദേശികമായി മനസ്സിലാകുന്നില്ല - ഇത് ഒരു പേജിലെ ഗ്ലിഫ് സ്ഥാനങ്ങൾ വിവരിക്കുന്നു - അതിനാൽ Excel-ലേക്ക് പരിവർത്തനം ചെയ്യുന്നതിന് ടെക്സ്റ്റിൻ്റെ ജ്യാമിതിയിൽ നിന്ന് പട്ടിക ഘടന അനുമാനിക്കേണ്ടതുണ്ട്. ഒരു സെൽ അവസാനിക്കുന്നതും അടുത്തത് ആരംഭിക്കുന്നതും തിരശ്ചീന വൈറ്റ്സ്പെയ്സിൽ നിന്ന് ഊഹിക്കേണ്ടതാണ്; ഒരു വരി അവസാനിക്കുന്നതും അടുത്തത് ആരംഭിക്കുന്നതും, ലംബമായ വൈറ്റ്സ്പെയ്സിൽ നിന്ന്.
ഈ ടൂൾ PDF.js ഉപയോഗിച്ച് PDF പാഴ്സ് ചെയ്യുന്നു, ടെക്സ്റ്റ് ഇനങ്ങൾ അവയുടെ ബൗണ്ടിംഗ് ബോക്സുകൾ ഉപയോഗിച്ച് എക്സ്ട്രാക്റ്റുചെയ്യുന്നു, കൂടാതെ ഇനങ്ങളെ സ്ഥാനത്തെ അടിസ്ഥാനമാക്കി വരികളിലേക്കും നിരകളിലേക്കും ക്ലസ്റ്റർ ചെയ്യുന്നു. കണ്ടെത്തിയ പട്ടിക SheetJS xlsx ലൈബ്രറി ഉപയോഗിച്ച് ഒരു Excel വർക്ക്ബുക്കിലേക്ക് എഴുതിയിരിക്കുന്നു. Excel, Google ഷീറ്റുകൾ, നമ്പറുകൾ അല്ലെങ്കിൽ മറ്റേതെങ്കിലും സ്പ്രെഡ്ഷീറ്റ് ആപ്ലിക്കേഷനിൽ തുറക്കുന്ന ഒരു സാധാരണ .xlsx ഫയലാണ് ഔട്ട്പുട്ട്.
PDF പട്ടിക എക്സ്ട്രാക്ഷൻ ശരിക്കും ബുദ്ധിമുട്ടാണ്, കൂടാതെ ഒരു എക്സ്ട്രാക്ടറും എല്ലാ PDF-ലും മികച്ച ഫലങ്ങൾ നൽകുന്നില്ല. സ്ഥിരമായ കോളം അതിരുകളുള്ള പട്ടികകൾ, ലയിപ്പിച്ച സെല്ലുകൾ ഇല്ല, വ്യക്തമായ ലംബ വിന്യാസം എന്നിവ വൃത്തിയായി പരിവർത്തനം ചെയ്യുന്നു. ലയിപ്പിച്ച സെല്ലുകളോ മൾട്ടി-ലൈൻ എൻട്രികളോ അടിക്കുറിപ്പുകളോ അസാധാരണമായ ലേഔട്ടുകളോ ഉള്ള ടേബിളുകൾ വേർതിരിച്ചെടുത്തതിന് ശേഷം സ്വമേധയാ വൃത്തിയാക്കേണ്ടതുണ്ട്. അവലോകനത്തിനായി ആസൂത്രണം ചെയ്യുക.
എന്തുകൊണ്ടാണ് PDF-ലേക്ക് Excel-ലേക്ക് പരിവർത്തനം ചെയ്യുന്നത്
കാരണം മിക്കവാറും എല്ലായ്പ്പോഴും വിശകലനമാണ്. ഒരു PDF-ൽ കുടുങ്ങിയ ഡാറ്റ അടുക്കാനോ ഫിൽട്ടർ ചെയ്യാനോ സംഗ്രഹിക്കാനോ ചാർട്ട് ചെയ്യാനോ പിവറ്റ് ചെയ്യാനോ കഴിയില്ല. അത് Excel-ൽ ആയിക്കഴിഞ്ഞാൽ, എല്ലാ സ്റ്റാൻഡേർഡ് സ്പ്രെഡ്ഷീറ്റ് ഓപ്പറേഷനും ലഭ്യമാകും - ഇത് ഒരു സ്റ്റാറ്റിക് റിപ്പോർട്ടിൽ ഉറ്റുനോക്കുന്നതും അതിലെ നമ്പറുകൾക്കൊപ്പം യഥാർത്ഥത്തിൽ പ്രവർത്തിക്കുന്നതും തമ്മിലുള്ള വ്യത്യാസം തുറക്കുന്നു.
PDF-ൽ ബൾക്ക് ഡാറ്റ വർക്ക് അസാധ്യമാണ്. ഒന്നിലധികം PDF റിപ്പോർട്ടുകളിലുടനീളം ത്രൈമാസ കണക്കുകൾ സമാഹരിക്കുക, വെണ്ടർമാരിൽ ഉടനീളം ലൈൻ ഇനങ്ങൾ താരതമ്യം ചെയ്യുക, അല്ലെങ്കിൽ ഡൗൺസ്ട്രീം വിശകലനത്തിനായി നിർദ്ദിഷ്ട നിരകൾ വലിക്കുക എന്നിവയെല്ലാം ആ പ്രവർത്തനങ്ങളെ പിന്തുണയ്ക്കുന്ന ഒരു ഫോർമാറ്റിലേക്ക് ഡാറ്റ നേടേണ്ടതുണ്ട്. Excel ഉം CSV ഉം ആ ഫോർമാറ്റുകളാണ്. പരിവർത്തനമാണ് പാലം.
സാങ്കേതിക വിശദാംശങ്ങൾ
PDF.js ഒരു getTextContent API തുറന്നുകാട്ടുന്നു, അത് ടെക്സ്റ്റ് ഇനങ്ങൾ അവയുടെ ബൗണ്ടിംഗ് ബോക്സുകൾക്കൊപ്പം നൽകുന്നു. ഓരോ ഇനത്തിനും ഒരു സ്ട്രിംഗ്, ഒരു രൂപാന്തര മാട്രിക്സ് (സ്ഥാനത്തിനും ഭ്രമണത്തിനും), വീതി/ഉയരം എന്നിവയുണ്ട്. കൺവെർട്ടർ ലൈനുകൾ തിരിച്ചറിയാൻ Y-കോർഡിനേറ്റ് ഉപയോഗിച്ച് ഇനങ്ങൾ അടുക്കുന്നു, തുടർന്ന് ഓരോ വരിയിലും X-കോർഡിനേറ്റ് പ്രകാരം. വളരെ സമാനമായ Y സ്ഥാനങ്ങളിലുള്ള ഇനങ്ങൾ ഒരു വരിയായി മാറുന്നു.
കോളം കണ്ടെത്തൽ വിടവ് വിശകലനം ഉപയോഗിക്കുന്നു: ഒരു നിരയിലെ തുടർച്ചയായ ഇനങ്ങൾ തമ്മിലുള്ള എക്സ്-ദൂരം അവ ഒരേ സെല്ലിൽ പെട്ടതാണോ അതോ അടുത്തുള്ള സെല്ലുകളിൽ പെട്ടതാണോ എന്ന് സൂചിപ്പിക്കുന്നു. ത്രെഷോൾഡിനേക്കാൾ വലിയ വിടവ് (സാധാരണയായി 1-2 പ്രതീകങ്ങളുടെ വീതി) കോളത്തിൻ്റെ അതിർത്തിയെ സൂചിപ്പിക്കുന്നു. ത്രെഷോൾഡ് ട്യൂണിംഗ് അടുത്തുള്ള നിരകൾ ലയിപ്പിക്കുന്നതിനും ഒറ്റ നിരകൾ വിഭജിക്കുന്നതിനും ഇടയിൽ ട്രേഡ് ചെയ്യുന്നു.
Excel ഔട്ട്പുട്ട് മെമ്മറിയിൽ ഒരു വർക്ക്ബുക്ക് നിർമ്മിക്കാൻ SheetJS ഉപയോഗിക്കുന്നു, കണ്ടെത്തിയ ഓരോ ടേബിളും ഷീറ്റ്1, ഷീറ്റ്2 എന്നിങ്ങനെ പേരുള്ള സ്വന്തം ഷീറ്റിലുണ്ട്. വർക്ക്ബുക്ക് .xlsx (ഓഫീസ് ഓപ്പൺ XML) ഫോർമാറ്റിലേക്ക് സീരിയലൈസ് ചെയ്യുകയും ഡൗൺലോഡ് ആയി നൽകുകയും ചെയ്യുന്നു. ഫലം Excel 2007+, Google Sheets, LibreOffice Calc, Apple നമ്പറുകൾ എന്നിവയിൽ തുറക്കുന്നു.
പതിവ് ചോദ്യങ്ങള്
- PDF-നെ EXCEL-ലേക്ക് പരിവർത്തനം ചെയ്യുന്നത് ഉള്ളടക്കത്തെ മാറ്റുമോ?
- ഉള്ളടക്കം കഴിയുന്നത്ര കൃത്യമായി സംരക്ഷിച്ചിരിക്കുന്നു. എന്നിരുന്നാലും, ചില ഫോർമാറ്റ്-നിർദ്ദിഷ്ട സവിശേഷതകൾക്ക് നേരിട്ടുള്ള തുല്യതകൾ ഉണ്ടാകണമെന്നില്ല, അതിനാൽ ചെറിയ ഫോർമാറ്റിംഗ് വ്യത്യാസങ്ങൾ ഉണ്ടാകാം.
- EXCEL ഫോർമാറ്റ് എന്തിനുവേണ്ടിയാണ് ഉപയോഗിക്കുന്നത്?
- XLSX (മൈക്രോസോഫ്റ്റ് എക്സൽ സ്പ്രെഡ്ഷീറ്റ്) പ്രധാനമായും ഫോർമുലകൾ, ചാർട്ടുകൾ, ഡാറ്റ വിശകലനം എന്നിവയുള്ള സ്പ്രെഡ്ഷീറ്റുകൾക്ക് ഉപയോഗിക്കുന്നു.
- അറിഞ്ഞിരിക്കേണ്ട എന്തെങ്കിലും പരിമിതികൾ ഉണ്ടോ?
- 50MB വരെയുള്ള ഫയലുകൾ പിന്തുണയ്ക്കുന്നു. വളരെ വലുതോ സങ്കീർണ്ണമോ ആയ ഫയലുകൾ പ്രോസസ്സ് ചെയ്യാൻ കൂടുതൽ സമയമെടുത്തേക്കാം. എല്ലാ പരിവർത്തനങ്ങളും നിങ്ങളുടെ ബ്രൗസറിൽ നടക്കുന്നു, അതിനാൽ പ്രോസസ്സിംഗ് വേഗത നിങ്ങളുടെ ഉപകരണത്തെ ആശ്രയിച്ചിരിക്കുന്നു.
- എൻ്റെ ഡോക്യുമെൻ്റ് ഡാറ്റ സുരക്ഷിതമാണോ?
- അതെ. ഡോക്യുമെൻ്റ് പ്രോസസ്സിംഗ് പൂർണ്ണമായും നിങ്ങളുടെ ബ്രൗസറിൽ പ്രവർത്തിക്കുന്നു. നിങ്ങളുടെ ഫയലുകളും അവയുടെ ഉള്ളടക്കങ്ങളും ഒരിക്കലും ഒരു സെർവറിലേക്കും അപ്ലോഡ് ചെയ്യില്ല. ഇത് സെൻസിറ്റീവ് അല്ലെങ്കിൽ രഹസ്യാത്മക പ്രമാണങ്ങൾ പരിവർത്തനം ചെയ്യുന്നത് സുരക്ഷിതമാക്കുന്നു.
- ഏത് ഔട്ട്പുട്ട് ഫോർമാറ്റാണ് നിർമ്മിക്കുന്നത്?
- .xlsx (ഓഫീസ് ഓപ്പൺ XML), ആധുനിക Excel ഫോർമാറ്റ്. Excel 2007+, Google ഷീറ്റുകൾ, LibreOffice Calc, Apple നമ്പറുകൾ, മറ്റേതെങ്കിലും ആധുനിക സ്പ്രെഡ്ഷീറ്റ് എന്നിവയിൽ ഫയൽ തുറക്കുന്നു.
- എൻ്റെ PDF ഒരു സെർവറിലേക്ക് അപ്ലോഡ് ചെയ്തിട്ടുണ്ടോ?
- ഇല്ല. PDF.js, SheetJS എന്നിവ ഉപയോഗിച്ച് നിങ്ങളുടെ ബ്രൗസറിൽ പാഴ്സിംഗും Excel ജനറേഷനും നടക്കുന്നു.
- പരമാവധി ഫയൽ വലുപ്പം എന്താണ്?
- 50 എം.ബി. പരിവർത്തന സമയം ഫയൽ വലുപ്പത്തേക്കാൾ ഡോക്യുമെൻ്റിൻ്റെ സങ്കീർണ്ണതയെ ആശ്രയിച്ചിരിക്കുന്നു - ഒരു ഗ്രാഫിക്സ്-ഹെവി 50 MB PDF എക്സ്ട്രാക്റ്റുചെയ്യാൻ ടെക്സ്റ്റ്-ഹെവിയേക്കാൾ കൂടുതൽ സമയമെടുത്തേക്കാം.
- എന്തുകൊണ്ടാണ് എൻ്റെ നമ്പറുകൾ തെറ്റായ കോളങ്ങളിൽ വന്നത്?
- കൺവെർട്ടറിൻ്റെ കോളം കണ്ടെത്തൽ പരിധി PDF-ൻ്റെ യഥാർത്ഥ ലേഔട്ടുമായി പൊരുത്തപ്പെടാത്തതിനാൽ മിക്കവാറും എല്ലായ്പ്പോഴും. സോഴ്സ് PDF തുറക്കുക, നിരകൾ ദൃശ്യപരമായി തകരുന്നത് എവിടെയാണെന്ന് നോക്കുക, ആവശ്യാനുസരണം Excel-ലെ സെല്ലുകൾ സ്വമേധയാ മാറ്റുക.