PDF కు ఎక్సెల్ (XLSX) కన్వర్టర్
PDF నుండి పట్టికలు మరియు వచనాన్ని సంగ్రహించి, వాటిని మీ బ్రౌజర్లో సురక్షితంగా Excel XLSX స్ప్రెడ్షీట్లకు మార్చండి.
PDF ఫైల్ను ఇక్కడ వదలండి
లేదా ఫైల్ని ఎంచుకోవడానికి క్లిక్ చేయండి
PDF నుండి పట్టికలు మరియు వచనాన్ని సంగ్రహించి, వాటిని మీ బ్రౌజర్లో సురక్షితంగా Excel XLSX స్ప్రెడ్షీట్లకు మార్చండి.
లేదా ఫైల్ని ఎంచుకోవడానికి క్లిక్ చేయండి
ఇన్వాయిస్లు, ఆర్థిక నివేదికలు, శాస్త్రీయ పత్రాలు మరియు ప్రభుత్వ డేటాను నిర్వహించే కార్యాలయాలలో అత్యంత సాధారణ డాక్యుమెంట్ వర్క్ఫ్లోలలో PDF నుండి మరియు స్ప్రెడ్షీట్లోకి టేబుల్ డేటాను లాగడం ఒకటి. PDF ఆకృతి పట్టికలను స్థానికంగా అర్థం చేసుకోదు - ఇది కేవలం పేజీలోని గ్లిఫ్ స్థానాలను వివరిస్తుంది - కాబట్టి Excelకి మార్చడానికి టెక్స్ట్ యొక్క జ్యామితి నుండి పట్టిక నిర్మాణాన్ని ఊహించడం అవసరం. ఒక కణం ఎక్కడ ముగుస్తుంది మరియు తదుపరిది ఎక్కడ ప్రారంభమవుతుంది అనేది క్షితిజ సమాంతర ఖాళీ స్థలం నుండి ఊహించబడాలి; నిలువు ఖాళీ స్థలం నుండి ఒక అడ్డు వరుస ముగుస్తుంది మరియు తదుపరిది ప్రారంభమవుతుంది.
ఈ సాధనం PDF.jsని ఉపయోగించి PDFని అన్వయిస్తుంది, టెక్స్ట్ ఐటెమ్లను వాటి సరిహద్దు పెట్టెలతో సంగ్రహిస్తుంది మరియు స్థానం ఆధారంగా అంశాలను వరుసలు మరియు నిలువు వరుసలుగా క్లస్టర్ చేస్తుంది. కనుగొనబడిన పట్టిక SheetJS xlsx లైబ్రరీని ఉపయోగించి Excel వర్క్బుక్కి వ్రాయబడింది. అవుట్పుట్ అనేది Excel, Google షీట్లు, నంబర్లు లేదా ఏదైనా ఇతర స్ప్రెడ్షీట్ అప్లికేషన్లో తెరవబడే ప్రామాణిక .xlsx ఫైల్.
PDF పట్టిక వెలికితీత నిజంగా కష్టం, మరియు ప్రతి PDFలో ఏ ఎక్స్ట్రాక్టర్ ఖచ్చితమైన ఫలితాలను అందించదు. స్థిరమైన నిలువు వరుస సరిహద్దులు, విలీనమైన సెల్లు లేవు మరియు స్పష్టమైన నిలువు సమలేఖనంతో పట్టికలు శుభ్రంగా మార్చబడతాయి. విలీనమైన సెల్లు, బహుళ-లైన్ ఎంట్రీలు, ఫుట్నోట్లు లేదా అసాధారణ లేఅవుట్లతో కూడిన పట్టికలు సాధారణంగా వెలికితీసిన తర్వాత మాన్యువల్ క్లీనప్ అవసరం. సమీక్ష కోసం ప్లాన్ చేయండి.
కారణం దాదాపు ఎల్లప్పుడూ విశ్లేషణ. PDFలో చిక్కుకున్న డేటాను క్రమబద్ధీకరించడం, ఫిల్టర్ చేయడం, సంగ్రహించడం, చార్ట్ చేయడం లేదా పైవట్ చేయడం సాధ్యం కాదు. ఇది ఎక్సెల్లో ఉన్న తర్వాత, ప్రతి స్టాండర్డ్ స్ప్రెడ్షీట్ ఆపరేషన్ అందుబాటులోకి వస్తుంది - మరియు అది స్టాటిక్ రిపోర్ట్ను చూస్తూ దానిలోని సంఖ్యలతో పని చేయడం మధ్య వ్యత్యాసాన్ని తెరుస్తుంది.
PDFలో బల్క్ డేటా పని అసాధ్యం. బహుళ PDF నివేదికలలో త్రైమాసిక గణాంకాలను సమగ్రపరచడం, విక్రేతల అంతటా లైన్ ఐటెమ్లను సరిపోల్చడం లేదా దిగువ విశ్లేషణ కోసం నిర్దిష్ట నిలువు వరుసలను లాగడం వంటివి ఆ కార్యకలాపాలకు మద్దతు ఇచ్చే ఫార్మాట్లోకి డేటాను పొందడం అవసరం. Excel మరియు CSV ఆ ఫార్మాట్లు. మార్పిడి వంతెన.
పట్టిక డేటాను కలిగి ఉన్న PDFని వదలండి, ప్రతి పట్టికతో దాని స్వంత షీట్లో వర్క్బుక్ను పొందండి.
PDF.js ఒక getTextContent APIని బహిర్గతం చేస్తుంది, అది టెక్స్ట్ ఐటెమ్లను వాటి బౌండింగ్ బాక్స్లతో అందిస్తుంది. ప్రతి అంశానికి స్ట్రింగ్, ట్రాన్స్ఫార్మ్ మ్యాట్రిక్స్ (స్థానం మరియు భ్రమణానికి) మరియు వెడల్పు/ఎత్తు ఉంటుంది. కన్వర్టర్ పంక్తులను గుర్తించడానికి Y-కోఆర్డినేట్ ద్వారా అంశాలను క్రమబద్ధీకరిస్తుంది, ఆపై ప్రతి పంక్తిలో X-కోఆర్డినేట్ ద్వారా. చాలా సారూప్యమైన Y స్థానాల్లో ఉన్న అంశాలు వరుసను ఏర్పరుస్తాయి.
కాలమ్ డిటెక్షన్ గ్యాప్ అనాలిసిస్ని ఉపయోగిస్తుంది: వరుసలో ఉన్న వరుస అంశాల మధ్య X-దూరం అవి ఒకే సెల్ లేదా ప్రక్కనే ఉన్న సెల్లకు చెందినవా అని సూచిస్తుంది. థ్రెషోల్డ్ (సాధారణంగా 1–2 అక్షరాలు వెడల్పు) కంటే పెద్ద గ్యాప్ కాలమ్ సరిహద్దును సూచిస్తుంది. ప్రక్కనే ఉన్న నిలువు వరుసలను విలీనం చేయడం మరియు ఒకే నిలువు వరుసలను విభజించడం మధ్య థ్రెషోల్డ్ ట్యూనింగ్ ట్రేడ్ అవుతుంది.
Excel అవుట్పుట్ మెమరీలో వర్క్బుక్ను రూపొందించడానికి SheetJSని ఉపయోగిస్తుంది, షీట్1, షీట్2, మొదలైన వాటి పేర్లతో గుర్తించబడిన ప్రతి టేబుల్ను కలిగి ఉంటుంది. వర్క్బుక్ .xlsx (ఆఫీస్ ఓపెన్ XML) ఫార్మాట్కు సీరియల్గా మార్చబడింది మరియు డౌన్లోడ్గా అందించబడుతుంది. ఫలితం Excel 2007+, Google Sheets, LibreOffice Calc మరియు Apple నంబర్లలో తెరవబడుతుంది.