ਨੂੰ PDF ਐਕਸਲ (XLSX) ਪਰਿਵਰਤਕ
PDF ਤੋਂ ਟੇਬਲ ਅਤੇ ਟੈਕਸਟ ਐਕਸਟਰੈਕਟ ਕਰੋ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ ਬ੍ਰਾਊਜ਼ਰ ਵਿੱਚ ਸੁਰੱਖਿਅਤ ਰੂਪ ਨਾਲ Excel XLSX ਸਪ੍ਰੈਡਸ਼ੀਟਾਂ ਵਿੱਚ ਬਦਲੋ।
PDF ਫਾਈਲ ਇੱਥੇ ਸੁੱਟੋ
ਜਾਂ ਫਾਈਲ ਚੁਣਨ ਲਈ ਕਲਿੱਕ ਕਰੋ
PDF ਤੋਂ ਟੇਬਲ ਅਤੇ ਟੈਕਸਟ ਐਕਸਟਰੈਕਟ ਕਰੋ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ ਬ੍ਰਾਊਜ਼ਰ ਵਿੱਚ ਸੁਰੱਖਿਅਤ ਰੂਪ ਨਾਲ Excel XLSX ਸਪ੍ਰੈਡਸ਼ੀਟਾਂ ਵਿੱਚ ਬਦਲੋ।
ਜਾਂ ਫਾਈਲ ਚੁਣਨ ਲਈ ਕਲਿੱਕ ਕਰੋ
ਟੇਬਲਯੂਲਰ ਡੇਟਾ ਨੂੰ PDF ਤੋਂ ਬਾਹਰ ਅਤੇ ਸਪ੍ਰੈਡਸ਼ੀਟ ਵਿੱਚ ਖਿੱਚਣਾ ਦਫਤਰਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਆਮ ਦਸਤਾਵੇਜ਼ ਵਰਕਫਲੋਜ਼ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਜੋ ਚਲਾਨ, ਵਿੱਤੀ ਰਿਪੋਰਟਾਂ, ਵਿਗਿਆਨਕ ਕਾਗਜ਼ਾਤ, ਅਤੇ ਸਰਕਾਰੀ ਡੇਟਾ ਨੂੰ ਸੰਭਾਲਦੇ ਹਨ। PDF ਫਾਰਮੈਟ ਮੂਲ ਰੂਪ ਵਿੱਚ ਟੇਬਲਾਂ ਨੂੰ ਨਹੀਂ ਸਮਝਦਾ — ਇਹ ਸਿਰਫ ਇੱਕ ਪੰਨੇ 'ਤੇ ਗਲਾਈਫ ਸਥਿਤੀਆਂ ਦਾ ਵਰਣਨ ਕਰਦਾ ਹੈ — ਇਸਲਈ ਐਕਸਲ ਵਿੱਚ ਬਦਲਣ ਲਈ ਟੈਕਸਟ ਦੀ ਜਿਓਮੈਟਰੀ ਤੋਂ ਸਾਰਣੀ ਬਣਤਰ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਜਿੱਥੇ ਇੱਕ ਸੈੱਲ ਖਤਮ ਹੁੰਦਾ ਹੈ ਅਤੇ ਅਗਲਾ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ, ਹਰੀਜੱਟਲ ਵ੍ਹਾਈਟਸਪੇਸ ਤੋਂ ਅਨੁਮਾਨ ਲਗਾਇਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ; ਜਿੱਥੇ ਇੱਕ ਕਤਾਰ ਖਤਮ ਹੁੰਦੀ ਹੈ ਅਤੇ ਅਗਲੀ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ, ਲੰਬਕਾਰੀ ਖਾਲੀ ਥਾਂ ਤੋਂ।
ਇਹ ਟੂਲ PDF.js ਦੀ ਵਰਤੋਂ ਕਰਕੇ PDF ਨੂੰ ਪਾਰਸ ਕਰਦਾ ਹੈ, ਟੈਕਸਟ ਆਈਟਮਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਬਾਊਂਡਿੰਗ ਬਾਕਸਾਂ ਨਾਲ ਐਕਸਟਰੈਕਟ ਕਰਦਾ ਹੈ, ਅਤੇ ਸਥਿਤੀ ਦੇ ਆਧਾਰ 'ਤੇ ਆਈਟਮਾਂ ਨੂੰ ਕਤਾਰਾਂ ਅਤੇ ਕਾਲਮਾਂ ਵਿੱਚ ਕਲੱਸਟਰ ਕਰਦਾ ਹੈ। ਖੋਜੀ ਗਈ ਸਾਰਣੀ SheetJS xlsx ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ ਐਕਸਲ ਵਰਕਬੁੱਕ ਵਿੱਚ ਲਿਖੀ ਜਾਂਦੀ ਹੈ। ਆਉਟਪੁੱਟ ਇੱਕ ਮਿਆਰੀ .xlsx ਫਾਈਲ ਹੈ ਜੋ Excel, Google ਸ਼ੀਟਾਂ, ਨੰਬਰਾਂ, ਜਾਂ ਕਿਸੇ ਹੋਰ ਸਪ੍ਰੈਡਸ਼ੀਟ ਐਪਲੀਕੇਸ਼ਨ ਵਿੱਚ ਖੁੱਲ੍ਹਦੀ ਹੈ।
PDF ਟੇਬਲ ਕੱਢਣਾ ਅਸਲ ਵਿੱਚ ਔਖਾ ਹੈ, ਅਤੇ ਕੋਈ ਵੀ ਐਕਸਟਰੈਕਟਰ ਹਰ PDF 'ਤੇ ਸੰਪੂਰਨ ਨਤੀਜੇ ਨਹੀਂ ਦਿੰਦਾ ਹੈ। ਇਕਸਾਰ ਕਾਲਮ ਦੀਆਂ ਸੀਮਾਵਾਂ, ਬਿਨਾਂ ਵਿਲੀਨ ਕੀਤੇ ਸੈੱਲਾਂ, ਅਤੇ ਸਪਸ਼ਟ ਵਰਟੀਕਲ ਅਲਾਈਨਮੈਂਟ ਵਾਲੀਆਂ ਟੇਬਲਾਂ ਸਾਫ਼ ਰੂਪ ਵਿੱਚ ਬਦਲਦੀਆਂ ਹਨ। ਵਿਲੀਨ ਕੀਤੇ ਸੈੱਲਾਂ, ਮਲਟੀ-ਲਾਈਨ ਐਂਟਰੀਆਂ, ਫੁਟਨੋਟ, ਜਾਂ ਅਸਧਾਰਨ ਖਾਕੇ ਵਾਲੀਆਂ ਟੇਬਲਾਂ ਨੂੰ ਆਮ ਤੌਰ 'ਤੇ ਕੱਢਣ ਤੋਂ ਬਾਅਦ ਹੱਥੀਂ ਸਫਾਈ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਸਮੀਖਿਆ ਲਈ ਯੋਜਨਾ.
ਕਾਰਨ ਲਗਭਗ ਹਮੇਸ਼ਾ ਵਿਸ਼ਲੇਸ਼ਣ ਹੁੰਦਾ ਹੈ. PDF ਵਿੱਚ ਫਸੇ ਹੋਏ ਡੇਟਾ ਨੂੰ ਕ੍ਰਮਬੱਧ, ਫਿਲਟਰ, ਸੰਮਟ, ਚਾਰਟ ਜਾਂ ਪਿਵੋਟ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਇਹ ਐਕਸਲ ਵਿੱਚ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਹਰ ਮਿਆਰੀ ਸਪ੍ਰੈਡਸ਼ੀਟ ਓਪਰੇਸ਼ਨ ਉਪਲਬਧ ਹੋ ਜਾਂਦਾ ਹੈ — ਅਤੇ ਇਹ ਇੱਕ ਸਥਿਰ ਰਿਪੋਰਟ ਨੂੰ ਦੇਖਣ ਅਤੇ ਅਸਲ ਵਿੱਚ ਇਸ ਵਿੱਚ ਸੰਖਿਆਵਾਂ ਨਾਲ ਕੰਮ ਕਰਨ ਵਿੱਚ ਅੰਤਰ ਨੂੰ ਖੋਲ੍ਹਦਾ ਹੈ।
PDF ਵਿੱਚ ਬਲਕ ਡੇਟਾ ਦਾ ਕੰਮ ਅਸੰਭਵ ਹੈ। ਇੱਕ ਤੋਂ ਵੱਧ PDF ਰਿਪੋਰਟਾਂ ਵਿੱਚ ਤਿਮਾਹੀ ਅੰਕੜਿਆਂ ਨੂੰ ਇਕੱਠਾ ਕਰਨਾ, ਵਿਕਰੇਤਾਵਾਂ ਵਿੱਚ ਲਾਈਨ ਆਈਟਮਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨਾ, ਜਾਂ ਡਾਊਨਸਟ੍ਰੀਮ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਖਾਸ ਕਾਲਮਾਂ ਨੂੰ ਖਿੱਚਣਾ ਸਭ ਲਈ ਡੇਟਾ ਨੂੰ ਇੱਕ ਫਾਰਮੈਟ ਵਿੱਚ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਜੋ ਉਹਨਾਂ ਓਪਰੇਸ਼ਨਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ। Excel ਅਤੇ CSV ਉਹ ਫਾਰਮੈਟ ਹਨ। ਪਰਿਵਰਤਨ ਪੁਲ ਹੈ.
ਸਾਰਣੀਬੱਧ ਡੇਟਾ ਵਾਲੀ ਇੱਕ PDF ਡ੍ਰੌਪ ਕਰੋ, ਹਰੇਕ ਸਾਰਣੀ ਦੇ ਨਾਲ ਇਸਦੀ ਆਪਣੀ ਸ਼ੀਟ 'ਤੇ ਇੱਕ ਵਰਕਬੁੱਕ ਪ੍ਰਾਪਤ ਕਰੋ।
PDF.js ਇੱਕ getTextContent API ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਜੋ ਟੈਕਸਟ ਆਈਟਮਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਬਾਊਂਡਿੰਗ ਬਾਕਸਾਂ ਨਾਲ ਵਾਪਸ ਕਰਦਾ ਹੈ। ਹਰੇਕ ਆਈਟਮ ਵਿੱਚ ਇੱਕ ਸਤਰ, ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮ ਮੈਟ੍ਰਿਕਸ (ਸਥਿਤੀ ਅਤੇ ਰੋਟੇਸ਼ਨ ਲਈ), ਅਤੇ ਚੌੜਾਈ/ਉਚਾਈ ਹੁੰਦੀ ਹੈ। ਕਨਵਰਟਰ ਲਾਈਨਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਵਾਈ-ਕੋਆਰਡੀਨੇਟ ਦੁਆਰਾ ਆਈਟਮਾਂ ਨੂੰ ਕ੍ਰਮਬੱਧ ਕਰਦਾ ਹੈ, ਫਿਰ X-ਕੋਆਰਡੀਨੇਟ ਦੁਆਰਾ ਹਰੇਕ ਲਾਈਨ ਦੇ ਅੰਦਰ। ਬਹੁਤ ਹੀ ਸਮਾਨ Y ਸਥਿਤੀਆਂ 'ਤੇ ਆਈਟਮਾਂ ਇੱਕ ਕਤਾਰ ਬਣਾਉਂਦੀਆਂ ਹਨ।
ਕਾਲਮ ਖੋਜ ਅੰਤਰਾਲ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ: ਇੱਕ ਕਤਾਰ ਵਿੱਚ ਲਗਾਤਾਰ ਆਈਟਮਾਂ ਵਿਚਕਾਰ X-ਦੂਰੀ ਇਹ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਕੀ ਉਹ ਇੱਕੋ ਸੈੱਲ ਜਾਂ ਨਾਲ ਲੱਗਦੇ ਸੈੱਲਾਂ ਨਾਲ ਸਬੰਧਤ ਹਨ। ਇੱਕ ਥ੍ਰੈਸ਼ਹੋਲਡ (ਆਮ ਤੌਰ 'ਤੇ 1-2 ਅੱਖਰ ਚੌੜਾਈ) ਤੋਂ ਵੱਡਾ ਅੰਤਰ ਇੱਕ ਕਾਲਮ ਸੀਮਾ ਨੂੰ ਸੰਕੇਤ ਕਰਦਾ ਹੈ। ਥ੍ਰੈਸ਼ਹੋਲਡ ਟਿਊਨਿੰਗ ਨੇੜਲੇ ਕਾਲਮਾਂ ਨੂੰ ਮਿਲਾਉਣ ਅਤੇ ਸਿੰਗਲ ਕਾਲਮਾਂ ਨੂੰ ਵੰਡਣ ਦੇ ਵਿਚਕਾਰ ਵਪਾਰ ਕਰਦਾ ਹੈ।
ਐਕਸਲ ਆਉਟਪੁੱਟ ਮੈਮੋਰੀ ਵਿੱਚ ਇੱਕ ਵਰਕਬੁੱਕ ਬਣਾਉਣ ਲਈ ਸ਼ੀਟਜੇਐਸ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ, ਹਰੇਕ ਖੋਜੀ ਗਈ ਸਾਰਣੀ ਵਿੱਚ ਸ਼ੀਟ1, ਸ਼ੀਟ2, ਆਦਿ ਨਾਮ ਦੀ ਆਪਣੀ ਸ਼ੀਟ ਨਾਲ। ਵਰਕਬੁੱਕ ਨੂੰ .xlsx (ਆਫਿਸ ਓਪਨ XML) ਫਾਰਮੈਟ ਵਿੱਚ ਲੜੀਬੱਧ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇੱਕ ਡਾਉਨਲੋਡ ਵਜੋਂ ਪੇਸ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਨਤੀਜਾ ਐਕਸਲ 2007+, ਗੂਗਲ ਸ਼ੀਟਸ, ਲਿਬਰੇਆਫਿਸ ਕੈਲਕ, ਅਤੇ ਐਪਲ ਨੰਬਰਾਂ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ।