一、前言
在python爬蟲抓取拉勾網職業資訊這篇部落格中,已經抓取了拉勾網資料分析職位的資訊並儲存在本地,下面介紹一下如果將txt文件轉化為csv文件。
二、實戰
這裡要注意的是,為了在sas中資料步編寫方便,爬蟲儲存在本地的資料格式有所改動,後邊會詳細說明。
1、資料讀取
libname lagou 'f:\lagou';
filename intxt 'f:\lagou\深圳.txt';
filename outcsv 'f:\lagou\深圳.csv';
data lagou.sz;
infile intxt firstobs=2;
length companyname $60. companytype $20. companystage $20. companylabel $60. companysize $10. companydistrict $10.
positiontype $15. positioneducation $10. positionadvantage $60. positionsalary $10. positionworkyear $10.;
input companyname companytype companystage companylabel companysize companydistrict
positiontype positioneducation positionadvantage positionsalary positionworkyear;
run;
在上面可以看到,讀取檔案的時候,分隔符使用的是預設的空格,這與之前爬蟲抓取時儲存的資料格式有所不同,需要自行修改。
因為資料第一行是標籤名,所以從第二個觀測開始讀取,length語句保證資料長度足夠,結果如下:
2、轉化為csv文件
option nocenter;
ods listing close;
ods results off;
ods csvall file=outcsv;
proc print data=lagou.sz;
title '2023年拉勾網深圳資料分析職位資訊';
run;
ods csvall close;
ods results on;
ods listing;
option nocenter將將輸出的檔案內容局左,ods listing close關閉到output視窗的預設輸出,ods result off關閉預設到result的輸出,結果如下:
3、到這裡將txt文件轉為csv文件就結束了
將unicode編碼的txt檔案轉為utf 8編碼
利用codes編寫 coding utf 8 import string import codecs def changecode tt codecs.open c 111.txt rb utf 16 111.txt為unicode編碼檔案,以unicode編碼開啟,utf 16 unicode m...
aspose將word文件轉為html內容
引入aspose相關jar包 將word內容轉為html字串 word轉html文字 param doc 需要轉換的doc檔案物件 return public string parseword2html document doc catch exception e e.getmessage retu...
如何利用pandas將Excel轉為html格式
大家談及用pandas匯出資料,應該就會想到to.系列的函式。這其中呢,比較常用的就是pd.to csv 和pd.to exupoqrtvtocel 但其實還可以將其導成html網頁格式,這裡用到的函式就是pd.to html 今天我們要實現excel轉為html格式,首先需要用讀取excel中的 ...